下巻第6章解答例

下巻第6章解答例#

ここでは、 本書の学習内容の定着 を目的とした練習問題とその解答・解説を掲載します。なお、問題の性質上、本書で取り上げた処理と重複することがあります。ご了承ください。

前提#

以下のように、ライブラリのインポートと変数の定義が完了していることを前提とします。

また、本書中で取り上げた以下の関数も、同様に利用可能とします。

また、以下のようにデータを読み込み済みと仮定します。

基礎問題1：マンガ作者別のアニメ放送話数#

関連セクション: 棒グラフ

本文では、マンガ作者別のアニメ合計放送話数を 縦棒グラフ で可視化しました。ここでは、同様のデータを 横棒グラフ で可視化してみましょう。

df_ae_crt を用いて、マンガ作者名（crtname）ごとにアニメ各話ID（aeid）のユニーク数を集計してください
集計結果を降順にソートし、上位 10件 に絞り込んでください（本文では20件）
px.bar() を用いて 横棒グラフ を作成してください

ヒント

横棒グラフにするには orientation="h" を指定します
横棒グラフでは x と y の指定が縦棒グラフと逆になります
例：px.bar(..., orientation="h") でアニメ各話数が20未満の作品

解説

orientation="h" を指定することで、縦棒グラフを横棒グラフに変更できます。

横棒グラフでは、x軸とy軸の指定が縦棒グラフとは逆になる点に注意してください。

縦棒グラフ：x=カテゴリ、y=数値
横棒グラフ：x=数値、y=カテゴリ

横棒グラフは、カテゴリ名が長い場合や、カテゴリ数が多い場合に特に有効です。今回のようにマンガ作者名を表示する場合、横棒グラフの方がラベルが読みやすくなります。

関連セクション: 詳しくは棒グラフを参照してください。

基礎問題2：掲載特性の散布図行列#

関連セクション: 散布図行列

本文では、マンガ作品の掲載特性を「平均掲載位置」「平均ページ数」「カラー獲得率」「連載開始日」の 4変数 で散布図行列にしました。ここでは、「連載開始日」を除いた 3変数 で散布図行列を作成してみましょう。

df_ce_ac を用いて、本文と同様にマンガ作品ごとの最初の8話分の掲載特性を集計してください
px.scatter_matrix() を用いて、「平均掲載位置」「平均ページ数」「カラー獲得率」の 3変数 で散布図行列を作成してください
アニメ化有無（is_animated）で色分けしてください

ヒント

dimensions 引数に表示したい変数名のリストを指定します
例：px.scatter_matrix(..., dimensions=["変数A", "変数B"]) で2変数のみ表示

解説

px.scatter_matrix() の dimensions 引数を使うことで、表示する変数を絞り込むことができます。

本文の4変数（4×4=16パネル）から3変数（3×3=9パネル）に減らすことで、特定の変数間の関係に注目しやすくなります。「連載開始日」は時間軸の変数であり、他の掲載特性（位置、ページ数、カラー率）とは性質が異なるため、今回はこれを除外しました。

散布図行列は変数の数が増えるほどパネル数が急増するため（ \(n\) 変数で \(n^2\) パネル）、目的に応じて変数を絞り込むことが重要です。

関連セクション: 詳しくは散布図行列を参照してください。

標準問題3：週刊少年サンデーのアニメ化推移#

関連セクション: 積上げ密度プロット

本文では、4つの雑誌すべてを対象に、連載開始年ごとのアニメ化作品数の推移を積上げ密度プロットで可視化しました。ここでは、週刊少年サンデー に絞り込んで同様の可視化を行ってみましょう。

df_ce_ac から 週刊少年サンデー のデータのみをフィルタリングしてください
連載開始年（first_date_cc の年）とアニメ化有無でグループ化し、マンガ作品数を集計してください
px.area() を用いて積上げ密度プロットを作成してください

ヒント

雑誌名でフィルタリングするには df[df["mcname"] == "週刊少年サンデー"] のようにします
例：df[df["platform"] == "Switch"] でSwitchプラットフォームのみに絞り込み

解説

ブールインデックスを使って特定の雑誌に絞り込むことで、その雑誌に特化した傾向を詳しく分析できます。

週刊少年サンデーのデータだけを見ると、アニメ化作品数の年次変動や、全体の作品数に対するアニメ化率の推移がより明確に見えます。本文のように4雑誌を並べて比較する方法と、このように1つの雑誌に絞り込む方法は、それぞれ異なる洞察を得られます。

探索的データ分析では、全体を俯瞰する可視化と、特定の部分に注目した可視化を組み合わせることが重要です。

関連セクション: 詳しくは積上げ密度プロットを参照してください。

標準問題4：変数配置を変えたバブルチャート#

関連セクション: バブルチャート

本文では、マンガ作品の掲載特性をバブルチャートで可視化しました。その際、以下のように変数を配置しました：

x軸：平均掲載位置
y軸：平均ページ数
size：カラー獲得率

ここでは、変数の配置を変えて、カラー獲得率をx軸に、平均掲載位置をsizeに 設定したバブルチャートを作成してみましょう。

問題2と同様に、df_ce_ac から掲載特性のデータを準備してください
px.scatter() を用いて、以下の配置でバブルチャートを作成してください：
- x軸：カラー獲得率
- y軸：平均ページ数
- size：平均掲載位置

ヒント

バブルチャートは px.scatter() に size 引数を追加することで作成できます
例：px.scatter(..., size="売上") で売上を円のサイズに反映

解説

変数の配置を変えることで、同じデータでも異なる印象を受けることがわかります。

今回の問題で重要な学びは、「size（円の面積）で表現された変数は定量的な比較が難しい」という点[1]です。人間の知覚は面積の違いを正確に判断することが苦手であり、円の大きさの違いから「どれくらい差があるか」を読み取ることは困難です。

本文の設定（x=平均掲載位置, size=カラー獲得率）と、今回の設定（x=カラー獲得率, size=平均掲載位置）を比較すると、x軸に配置した変数の方が正確に読み取れることが体感できます。

バブルチャートを設計する際は、以下の原則を意識しましょう：

正確に読み取りたい変数 → x軸またはy軸に配置
大まかな傾向を見たい変数 → sizeに配置

関連セクション: 詳しくはバブルチャートを参照してください。

応用問題5：アニメ化までのリードタイム#

関連セクション: ヒストグラム

マンガ作品が連載を開始してから、アニメが放送されるまでにどれくらいの期間（インターバル）があるかを可視化しましょう。

第6章で学んだ「分布を見るための手法」と「ファセット」を活用してください。

読み込んだ df_ac_cc を主軸とし、マンガの連載開始日（first_date）とアニメの放送開始日（first_date）をそれぞれ結合して一つのデータフレームを作成してください
「アニメ放送開始日 - マンガ連載開始日」を計算し、経過年数を算出してください
マンガ雑誌（mcname）ごとに、この経過日数の分布をヒストグラムで可視化してください
可視化に際しては、雑誌ごとの傾向の違いが比較しやすいよう、ファセット機能を利用してください

ヒント

データの結合には pd.merge() を使用します
日付の差分は .dt.days で日数に変換できます
ヒストグラムには px.histogram() を使用します
ファセットは facet_col 引数で指定できます

解説

この問題では、複数のデータソースを統合して新しい変数（アニメ化までのリードタイム）を作成し、その「分布」を多角的に観察するプロセスを学びました。

可視化の結果を見ると、多くの作品が連載開始から 2〜6年程度 でアニメ化されていることが分かります。これは「単行本が数巻発売され、人気が定着したタイミング」でのメディア展開が多いと解釈できるかもしれません[2]。

また、ファセットを利用することで、雑誌ごとに特徴が見えてきます。例えば、週刊少年チャンピオンのアニメ化までのリードタイムのピークは、他の雑誌と異なるように見えます。

興味深いのはマンガ初掲載から20年以上経ってからアニメ化される作品がいくつか見られる点です。この中にはリメイク作品も含まれていると想像できます。

関連セクション: 詳しくはヒストグラムを参照してください。

応用問題6：アニメ各話数における原作区分の推移#

関連セクション: 積上げ密度プロット

1990年以降の全アニメ作品の各話数に対して、「四大少年誌を原作とするアニメ」が占める割合がどのように推移してきたかを可視化しましょう。

アニメ産業の規模の変化と、その中での四大少年誌の影響力を同時に確認するために、以下の2つの図を作成してください。

絶対数の推移: 年度ごとのアニメ総話数を、原作の区分（「四大少年誌」または「その他」）で積み上げた積上げ密度プロット（エリアチャート）
割合の推移: 年度ごとの総話数を1（100%）とした時の、各区分の構成比を示した積上げ密度プロット（エリアチャート）

ヒント

アニメ各話データ（df_ae）とメディア展開対応表（df_ac_cc）を統合して利用します
df_ac_cc に含まれる acid はすべて四大少年誌原作の作品です
可視化には px.area() を使用します
引数として groupnorm='fraction' を用いると、別途DataFrameを集計することなく構成比の可視化が可能になります

Show code cell source Hide code cell source

# 前処理
# 放送日から放送年を抽出
df_ae_tmp = df_ae.copy()
df_ae_tmp["years"] = pd.to_datetime(df_ae_tmp["date"]).dt.year

# 1990年以降のデータに絞り込む（データの欠損を考慮）
df_ae_tmp = df_ae_tmp[df_ae_tmp["years"] >= 1990].reset_index(drop=True)

# years列を文字列型に変換（resample_df_by_col_and_years関数の仕様に合わせる）
df_ae_tmp["years"] = df_ae_tmp["years"].astype(str)

# 四大少年誌原作かどうかのフラグを付与
# df_ac_ccに含まれるacidをセットとして取得
big_four_acids = set(df_ac_cc["acid"])

# acidが四大少年誌原作のセットに含まれるかどうかで区分を付与
df_ae_tmp["原作区分"] = df_ae_tmp["acid"].apply(
    lambda x: "四大少年誌" if x in big_four_acids else "その他"
)

# 集計：年・区分ごとの各話数をカウント
df_agg = (
    df_ae_tmp.groupby(["years", "原作区分"]).size().reset_index(name="アニメ各話数")
)

# resample_df_by_col_and_years関数を使用して欠損年を補完（0埋め）
df_agg = resample_df_by_col_and_years(df_agg, "原作区分")

# years列でソートして時系列順に並べる
df_agg = df_agg.sort_values("years", ignore_index=True)

# 可視化
# グラフ1：絶対数の積上げ密度プロット
fig = px.area(
    df_agg,
    x="years",
    y="アニメ各話数",
    color="原作区分",
    labels={"years": "放送年", "アニメ各話数": "総話数"},
    category_orders={"原作区分": ["その他", "四大少年誌"]},
    color_discrete_sequence=OKABE_ITO,
)
show_fig(fig)

# グラフ2：割合の積上げ密度プロット
fig = px.area(
    df_agg,
    x="years",
    y="アニメ各話数",
    color="原作区分",
    groupnorm="fraction",  # 合計を1にスケーリング
    labels={"years": "放送年", "アニメ各話数": "構成比"},
    category_orders={"原作区分": ["その他", "四大少年誌"]},
    color_discrete_sequence=OKABE_ITO,
)
show_fig(fig)

解説

積上げ密度プロットを用いて、時系列における総量と内訳の変化を同時に捉える手法を学びました。

絶対数のグラフからは、1990年代後半から2010年代にかけてアニメの総放送話数が劇的に増加していることがわかります。一方、割合のグラフに切り替えると、総数が増える中で四大少年誌のシェアは必ずしも一定ではなく、他の原作ソース（ライトノベル、ゲーム、オリジナル等）の台頭による「多様化」が示唆されます。

groupnorm='fraction' を使うだけで100%積上げグラフを作成できる点は、探索的データ分析において強力[3]です。

関連セクション: 詳しくは積上げ密度プロットを参照してください。

応用問題7：マンガ作品名とアニメ作品名の類似度#

関連セクション: 箱ひげ図

マンガ作品がアニメ化される際、作品名がそのまま使われることもあれば、サブタイトルが追加されたり、全く異なる名称に変更されることもあります。この「作品名の類似度」は、メディア展開の戦略を反映している可能性があります。

本書で学んだ difflib.SequenceMatcher を用いて、マンガ作品名（ccname）とアニメ作品名（acname）の類似度を計算し、その分布を雑誌ごとに比較してみましょう。

df_ac_cc を主軸として、マンガ作品名（ccname）とアニメ作品名（acname）を結合してください。雑誌名（mcname）も含めてください
difflib.SequenceMatcher の ratio() メソッドを用いて、各行の ccname と acname の類似度（0〜1）を計算してください
雑誌ごとの類似度の分布を 箱ひげ図 で可視化してください

ヒント

difflib.SequenceMatcher(None, str1, str2).ratio() で2つの文字列の類似度が得られます
箱ひげ図には px.box() を使用します
apply() メソッドで各行に関数を適用できます

解説

文字列の類似度という新しい指標を導入し、その分布を箱ひげ図で可視化する手法を学びました。

difflib.SequenceMatcher の ratio() は最長共通部分列に基づく類似度（0〜1）を返します。結果を見ると、多くの作品で類似度が0.6〜1.0と高く、マンガ作品名がそのままアニメ作品名として使われるケースが多いことがわかります。一方、類似度が低い外れ値は、サブタイトルの追加や大幅な名称変更を示唆しています。

関連セクション: 詳しくは箱ひげ図を参照してください。

応用問題8：マンガ話数とアニメ話数の関係#

関連セクション: 散布図

マンガ作品の連載話数とアニメ作品の放送話数には、どのような関係があるでしょうか？直感的には「マンガの話数が多いほど、アニメの話数も多くなる」と予想されますが、実際のデータはこの仮説を支持するでしょうか。

df_ac_cc で紐づけられたマンガ作品とアニメ作品について、それぞれの話数の関係を散布図で可視化してみましょう。

df_ac_cc を主軸として、マンガ作品の話数（n_ce）とアニメ作品の話数（n_ae）を結合してください。作品名と放送開始日も含めてください
アニメの放送開始日から「放送年」を抽出してください
マンガ話数をX軸、アニメ話数をY軸とした散布図を作成し、放送年で色分けしてください
ホバー時にマンガ作品名とアニメ作品名が確認できるようにしてください

ヒント

散布図には px.scatter() を使用します
ホバー情報は hover_data 引数で指定できます
重複が多い場合は update_traces() でマーカーの透明度やサイズを調整すると見やすくなります

解説

散布図を用いて2つの量的変数（マンガ話数とアニメ話数）の関係を可視化しました。

結果を見ると、必ずしも強い正の相関があるとは言えません。長期連載マンガでもアニメの話数が比較的少ない作品が多く存在し、これは人気エピソードを選んでアニメ化したり、クール単位で制作される現代のアニメ産業の特性を反映していると考えられます。

放送年による色分けで時代による傾向の違いも観察でき、近年の作品は1〜2クール（12〜26話程度）で完結するパターンが多いことが読み取れます。

関連セクション: 詳しくは散布図を参照してください。

下巻 第6章 解答例

Contents

下巻 第6章 解答例#

前提#

基礎 問題1：マンガ作者別のアニメ放送話数#

基礎 問題2：掲載特性の散布図行列#

標準 問題3：週刊少年サンデーのアニメ化推移#

標準 問題4：変数配置を変えたバブルチャート#

応用 問題5：アニメ化までのリードタイム#

応用 問題6：アニメ各話数における原作区分の推移#

応用 問題7：マンガ作品名とアニメ作品名の類似度#

応用 問題8：マンガ話数とアニメ話数の関係#