下巻第3章解答例

下巻第3章解答例#

ここでは、 本書の学習内容の定着 を目的とした練習問題とその解答・解説を掲載します。なお、問題の性質上、本書で取り上げた処理と重複することがあります。ご了承ください。

前提#

以下のように、ライブラリのインポートと変数の定義が完了していることを前提とします。

また、本書中で取り上げた以下の関数も、同様に利用可能とします。

また、以下のようにデータを読み込み済みと仮定します。

基礎問題1：年代別・曜日別のゲームパッケージ数#

関連セクション: 円グラフ

本書では、年代別に発売曜日ごとのゲームパッケージ数を円グラフで可視化し、category_ordersを指定して曜日順（月〜日）に並べました。ここでは、category_ordersを指定しない場合にどのようなグラフになるか確認してみましょう。

df_pkg_pfを用いて、1990年代以降の年代別（5年刻み）・曜日別のゲームパッケージ数を、ファセット分割した円グラフで可視化してください。
ただし、category_ordersは 指定しない でください。

ヒント

年代情報は add_years_to_df(df, unit_years=5) で5年単位の年代を追加できます
曜日は .dt.weekday で取得し、WEEKDAY2YOBI 辞書で日本語に変換できます
ファセット分割は facet_col 引数で指定します

解説

category_ordersを指定しない場合、円グラフ内のカテゴリ（曜日）の配置順序はデータの出現順や内部的な処理順に依存します。その結果、年代ごとに曜日の並び順がばらばらになり、年代別の比較が困難になってしまいます。

本書のようにcategory_orders={"発売曜日": ["月", "火", "水", "木", "金", "土", "日"]}を指定すると、全てのファセットで曜日が統一された順序で表示され、年代間の比較が容易になります。可視化の目的に依りますが、category_ordersで順序を明示的に指定するテクニックがあることは覚えておきましょう。

関連セクション: 詳しくは円グラフを参照してください。

基礎問題2：性別ごとの声優数の推移#

関連セクション: 積上げ密度プロット

アニメ作品に出演する声優の性別[1]比率は、時代によって変化があるのでしょうか。 df_aeとdf_ac_actを用いて、2005年以降の放送年ごとの性別別声優数を集計し、積上げ密度プロット（px.area）で可視化してください。

ヒント

df_ac_actとdf_aeをacidをキーにマージします
放送年は add_years_to_df(df, unit_years=1) で1年単位の年情報を追加できます
積上げ密度プロットは px.area() で作成できます

解説

px.areaを用いることで、時系列に沿った内訳の変化を視覚的に表現できます。本文では2000年以降を対象としていましたが、今回は2005年以降に絞ることで、より近年の傾向に焦点を当てました。

関連セクション: 詳しくは積上げ密度プロットを参照してください。

標準問題3：週刊少年マガジンの年代別作者数#

関連セクション: 円グラフ

本文では四大少年誌全体のマンガ作者数を年代別に可視化しました。ここでは、週刊少年マガジンのみに絞り込んで、年代別のマンガ作者数を円グラフで可視化してください。

df_ceとdf_cc_crtを用いて、週刊少年マガジンに掲載されたマンガ作者の年代別内訳を示す円グラフを作成しましょう。その際、以下の点に注意してください：

category_ordersを指定して、年代順（1970, 1980, …）に並べる
年代は 順序のある質的変数 なので、px.colors.diverging.Portlandパレットを使用する

ヒント

df_cc_crtをmcname == "週刊少年マガジン"でフィルタリングします
年代情報はadd_years_to_df()で追加できます
df_ceとdf_cc_crtをccidでマージして年代情報を取得します
年代の順序リストは ["1970", "1980", "1990", "2000", "2010"] のようになります

解説

本文では四大少年誌全体を対象としていましたが、ここでは週刊少年マガジンのみに絞り込みました。ブールインデックス df_cc_crt["mcname"] == "週刊少年マガジン" を用いることで、特定の雑誌に限定したデータを抽出できます。

category_ordersを指定することで、年代が1970→1980→…→2010の順に配置され、時系列の推移が直感的に把握できます。また、年代は「順序のある質的変数」であるため、順序を表現できるPortlandパレットを使用しています。

結果を見ると、2010年代の作者数が最も多く、1980年代がそれに続いています。

関連セクション: 詳しくは円グラフを参照してください。

標準問題4：プレイステーションシリーズの発売数推移#

関連セクション: 積上げ棒グラフ

ソニー[2]のプレイステーションシリーズは、世代を重ねるごとに新しいプラットフォームが登場してきました。 df_pkg_pfを用いて、プレイステーションシリーズ（プラットフォーム名が「プレイステーション」で始まるもの）に絞り込み、発売年ごとのプラットフォーム別パッケージ数を積上げ棒グラフで可視化してください。

色でプラットフォームを区別し、各プラットフォームの発売数推移を確認しましょう。

ヒント

str.startswith("プレイステーション") でプラットフォーム名をフィルタリングできます
発売年は .dt.year で取得できます
積上げ棒グラフは px.bar() で barmode="stack" を指定します
プラットフォームごとに色を分けるには color 引数を使用します

解説

str.startswith()を用いることで、プラットフォーム名が特定の文字列で始まるデータを抽出できます。これにより、プレイステーション、プレイステーション2、プレイステーション3、プレイステーション4、プレイステーション・ポータブル、プレイステーションVitaなどのソニー製据置・携帯機を一括で抽出しています。

結果を見ると、各世代のプラットフォームが順番に登場し、世代交代の様子が視覚的に確認できます。プレイステーション2が最も長期間にわたって多くのタイトルをリリースしており、ソニーの主力プラットフォームであったことがわかります。

関連セクション: 詳しくは積上げ棒グラフを参照してください。

発展問題5：第1話・最終話のカラー獲得率#

関連セクション: 積上げ棒グラフ

新連載の第1話は、読者の目を引くために巻頭カラーやセンターカラーで華々しく飾られることが一般的です。一方で、連載の最後を飾る最終話の扱いは、雑誌の編集方針や作品の評価によって分かれるかもしれません。合計話数が8以上の連載作品を対象に、各作品の「最初の一話」と「最後の一話」を抽出し、それぞれのカラー掲載率（four_colored[3]）を比較しましょう。

横軸に率（合計を1として標準化）、縦軸にマンガ雑誌名を並べた積み上げ横棒グラフを作成してください。その際、最初の一話か最後の一話かをファセット（facet_col）で分けて表示しましょう。

ヒント

作品ごとの合計話数は groupby と size() で集計できます
最初と最後の行は idxmin() / idxmax() で特定できます
積み上げ棒グラフは px.bar() で barmode="stack" を指定します
ファセット分割は facet_col 引数で指定します

Show code cell source Hide code cell source

# df_ceをベースに作品ごとの合計話数を集計し、8話以上の作品（ccid）を特定
df_episode_counts = df_ce.groupby("ccid").size().reset_index(name="total_eps")
serial_ccids = df_episode_counts[df_episode_counts["total_eps"] >= 8]["ccid"]

# 連載作品に該当する各話データのみを抽出
df_serial_ce = df_ce[df_ce["ccid"].isin(serial_ccids)].copy()

# 各作品（ccid）ごとの最初と最後の各話データを特定
# idxmin/idxmaxを用いて、作品内でもっとも古い日付ともっとも新しい日付の行を取得
idx_first = df_serial_ce.groupby("ccid")["date"].idxmin()
idx_last = df_serial_ce.groupby("ccid")["date"].idxmax()

# それぞれのデータを抽出し、比較用のラベルを付与
df_first = df_serial_ce.loc[idx_first].copy()
df_first["連載順序"] = "最初の一話"

df_last = df_serial_ce.loc[idx_last].copy()
df_last["連載順序"] = "最後の一話"

# 分析用にデータを結合
df_compare = pd.concat([df_first, df_last], ignore_index=True)

# 凡例用にカラー掲載の有無を文字列に変換
df_compare["カラー掲載"] = df_compare["four_colored"].map({True: "カラー", False: "モノクロ"})

# 集計と正規化（手動計算）
# 雑誌、連載順序、カラー掲載ごとに作品数をカウント
df_agg = df_compare.groupby(["mcname", "連載順序", "カラー掲載"]).size().reset_index(name="作品数")

# 雑誌・連載順序ごとの合計数で割って比率を算出
# transform('sum')を使用することで、所属グループ（雑誌×順序）の総和で各行を割る
df_total = df_agg.groupby(["mcname", "連載順序"])["作品数"].transform("sum")
df_agg["比率"] = df_agg["作品数"] / df_total

# 5. px.barを用いて可視化
# 手動で算出した「比率」をx軸に指定する
fig = px.bar(
    df_agg,
    x="比率",
    y="mcname",
    color="カラー掲載",
    facet_col="連載順序",
    orientation="h",
    barmode="stack", # 積み上げ形式
    category_orders={"連載順序": ["最初の一話", "最後の一話"]},
    color_discrete_sequence=OKABE_ITO[:2][::-1],
    labels={"mcname": "マンガ雑誌名", "比率": "構成比"},
)

# ファセットのタイトルを整理し、X軸をパーセント表記に変更
fig.for_each_annotation(lambda a: a.update(text=a.text.split("=")[-1]))
fig.update_xaxes(tickformat=".0%")

# 図を表示
show_fig(fig)

解説

本問題は、Plotlyの「積み上げ棒グラフ」と「ファセット」を使い、ドメイン知識を検証する実践的な演習です。

可視化の結果、一般的に半分以上の新連載はカラーで掲載されるようですが、雑誌によってばらつきがあります。特に 週刊少年ジャンプのカラー掲載率が比較的高く、週刊少年サンデーが比較的低いように見えます。

一方で最終話に関しては、どの雑誌でも10%未満のカラー掲載率を記録しています。

関連セクション: 詳しくは積上げ棒グラフを参照してください。

応用問題6：曜日別・メーカー別の発売数推移#

関連セクション: 積上げ棒グラフ

ゲームパッケージの発売曜日は、時代とともに変遷してきました。先に定義したPF2MK辞書を用いてメーカー情報を付与し、メーカーごとにファセット（サブプロット）を分割して、発売年ごとの曜日内訳を積上げ棒グラフで可視化してください。

ヒント

発売曜日は .dt.weekday で取得し、WEEKDAY2YOBI 辞書で変換できます
辞書によるマッピングは .map() メソッドを使用します
ファセット分割は facet_col と facet_col_wrap で制御できます
category_orders で曜日の表示順序を指定できます

解説

ファセット分割を用いることで、メーカー別の発売曜日の推移を多角的に表現できます。例えば、「いつ頃から金曜日から木曜日にシフトしたか」といった、メーカーごとの戦略の変遷を知るきっかけになるかもしれません。複数の軸（年、メーカー、曜日）を同時に扱うことは難しいですが、積極的にトライする価値はあります。

関連セクション: 詳しくは積上げ棒グラフを参照してください。

応用問題7：アニメ話数の推移#

関連セクション: 積上げ密度プロット

本書で何度か触れたように、1990年代後半からアニメ作品の短尺化が進んだ可能性があります。そこで、作品あたりの合計話数が 13 話以下のものを「1クール」、それ以外を「その他」と分類し、放送年ごとの作品数の内訳を、積上げ密度プロット（px.area、エリアチャート）で表現してください。

分類にはdf_aeを用い、1995年前後で構成がどのように変化したか観察しましょう。

ヒント

作品ごとの合計話数は groupby と size() で集計できます
条件に応じたラベル付けは apply と lambda で実装できます
積上げ密度プロットは px.area() で作成できます
hovermode="x unified" で同一x座標の値を同時に表示できます

解説

積上げ密度プロット（エリアチャート）を活用して、時系列に伴う内訳の変遷を捉える問題です。 1995年頃を境に「1クール作品」の領域が急激に拡大している様子が視覚的に確認でき、業界全体の構造変化が起きたという仮説と整合します。一方で、1クール以外の作品数もある程度維持されているように見えます。

「内訳」に関する議論からは外れますが、2009年から2011年にかけて、全体的にアニメ話数が減少しています。執筆時間の都合のためこれ以上の調査は断念しましたが、気になる方は調べてみましょう[4]。

関連セクション: 詳しくは積上げ密度プロットを参照してください。

下巻 第3章 解答例

Contents

下巻 第3章 解答例#

前提#

基礎 問題1：年代別・曜日別のゲームパッケージ数#

基礎 問題2：性別ごとの声優数の推移#

標準 問題3：週刊少年マガジンの年代別作者数#

標準 問題4：プレイステーションシリーズの発売数推移#

発展 問題5：第1話・最終話のカラー獲得率#

応用 問題6：曜日別・メーカー別の発売数推移#

応用 問題7：アニメ話数の推移#

下巻第3章解答例

下巻第3章解答例#

基礎問題1：年代別・曜日別のゲームパッケージ数#

基礎問題2：性別ごとの声優数の推移#

標準問題3：週刊少年マガジンの年代別作者数#

標準問題4：プレイステーションシリーズの発売数推移#

発展問題5：第1話・最終話のカラー獲得率#

応用問題6：曜日別・メーカー別の発売数推移#

応用問題7：アニメ話数の推移#