下巻第2章解答例

下巻第2章解答例#

ここでは、 本書の学習内容の定着 を目的とした練習問題とその解答・解説を掲載します。なお、問題の性質上、本書で取り上げた処理と重複することがあります。ご了承ください。

前提#

以下のように、ライブラリのインポートと変数の定義が完了していることを前提とします。

また、本書中で取り上げた以下の関数も、同様に利用可能とします。

Show code cell content Hide code cell content

def create_distplot(
    df: pd.DataFrame,
    x: str,
    color: str = None,
    show_hist: bool = False,
    show_rug: bool = False,
    **kwargs: Any
) -> Figure:
    """
    データフレームから密度プロットとヒストグラムを作成する

    Parameters
    ----------
    df : pd.DataFrame
        プロットするデータを含むデータフレーム
    x : str
        密度プロットの描画対象とするカラム名
    color : str, optional
        データを分割する基準とするカラム名、指定しない場合はx列の全データを用いる
    show_hist : bool, optional
        ヒストグラムを表示するか否か、デフォルトはFalse
    show_rug : bool, optional
        ラグプロットを表示するか否か、デフォルトはFalse
    **kwargs
        ff.create_distplotに渡すその他のキーワード引数

    Returns
    -------
    Figure
        作成されたプロットのFigureオブジェクト
    """

    if color:
        # colorカラムの値でデータをグループ分け
        grouped = df.groupby(color)

        # 各グループのxカラムのデータをリストに格納、可視化用に逆順に並び替え
        hist_data = [group[x].values for _, group in grouped][::-1]

        # 各グループの名前（colorカラムの値）をラベルとしてリストに格納、可視化用に逆順に並び替え
        labels = [str(name) for name, _ in grouped][::-1]

        # 密度プロットとヒストグラムを作成
        fig = ff.create_distplot(
            hist_data, labels, show_hist=show_hist, show_rug=show_rug, **kwargs
        )
    else:
        # colorが指定されていない場合はx列の全データを用いる
        hist_data = [df[x].values]

        # 密度プロットを作成（ラベルはxを指定）
        fig = ff.create_distplot(
            hist_data,
            group_labels=[x],
            show_hist=show_hist,
            show_rug=show_rug,
            **kwargs
        )

    # x軸のタイトルをxに変更
    fig.update_xaxes(title=x)

    # y軸のタイトルを"確率密度"に変更
    fig.update_yaxes(title="確率密度")

    # 作成されたプロットを返す
    return fig

以下のようにデータを読み込み済みとします。

基礎問題1：アニメ作品の合計話数の分布#

関連セクション: ヒストグラム

本書では、アニメ作品ごとの合計話数のヒストグラムを作成し、表示範囲を100話以下に制限して分布を観察しました。表示範囲を変えると、分布の見え方はどのように変わるでしょうか。

df_aeを用いて、アニメ作品ごとの合計話数を集計してください
合計話数のヒストグラムを作成し、表示範囲を 50話 以下に制限してください

ヒント

groupby()とnunique()で各作品の話数を集計できます
update_xaxes(range=[0, 50])で表示範囲を制限できます
本文では100話以下でした

解説

本文と同様の処理で、表示範囲のみを変更した問題です。

50話以下に範囲を絞ることで、1クール（12〜13話）や2クール（24〜26話）のピークがより明確に観察できます。表示範囲を適切に調整することで、分布の特徴的なパターンを強調できることがわかります。

関連セクション: 詳しくはヒストグラムを参照してください。

基礎問題2：ゲーム価格の累積分布#

関連セクション: ヒストグラム

本書では、ゲームパッケージの価格の累積ヒストグラムを作成し、10,000円以下の範囲で累積分布を確認しました。表示範囲を広げると、価格分布の全体像がより明確になります。

df_pkg_pfを用いて、ゲームパッケージの価格の累積ヒストグラムを作成してください
表示範囲を 15,000円 以下に制限してください

ヒント

px.histogram()でcumulative=Trueを指定すると累積ヒストグラムになります
update_xaxes(range=[0, 15000])で表示範囲を制限できます
本書では10,000円以下でした

解説

本文と同様の処理で、表示範囲のみを変更した問題です。

累積ヒストグラムは「ある価格以下のパッケージが何件あるか」を視覚的に把握するのに適しています。 15,000円以下に範囲を広げることで、10,000円を超える価格帯のパッケージがどの程度存在するかも確認できます。

関連セクション: 詳しくはヒストグラムを参照してください。

標準問題3：週刊少年ジャンプのページ数分布#

関連セクション: ヒストグラム

本文では、4誌すべてのページ数分布をファセット表示で比較しました。特定の雑誌に絞り込むと、その雑誌固有の特徴がより詳細に観察できます。

df_ceから週刊少年ジャンプのデータのみに絞り込んでください
一話あたりのページ数（50ページ以下）のヒストグラムを作成してください
ビン数を25に設定してください

ヒント

ブールインデックス df[df["mcname"] == "週刊少年ジャンプ"] で絞り込みができます
nbins=25でビン数を指定できます

解説

ブールインデックスによるデータの絞り込みと、ヒストグラムの作成を組み合わせた問題です。

週刊少年ジャンプに絞ることで、19ページ付近に明確なピークがあることがわかります。他の雑誌ではどうなるでしょうか？

関連セクション: 詳しくはヒストグラムを参照してください。

標準問題4：プレイステーション2の価格分布#

関連セクション: 箱ひげ図

本文の箱ひげ図では、プレイステーションシリーズの価格分布を中央値や四分位範囲で要約しました。しかし、箱ひげ図では分布の詳細な形状は見えません。特定のプラットフォームに絞り、ヒストグラムで分布を詳しく観察してみましょう。

df_pkg_pfからプレイステーション2のデータのみに絞り込んでください
価格のヒストグラムを作成してください
表示範囲を10,000円以下に制限してください

ヒント

ブールインデックス df[df["pfname"] == "プレイステーション2"] で絞り込みができます
update_xaxes(range=[0, 10000])で表示範囲を制限できます

解説

ブールインデックスによるデータの絞り込みと、ヒストグラムの作成を組み合わせた問題です。

箱ひげ図では中央値付近に分布が集中していることはわかりますが、ヒストグラムで見ると6,000〜7,000円付近に明確なピークがあることがわかります。このように、同じデータでも可視化手法を変えることで、異なる側面の情報を得ることができます。

関連セクション: 詳しくは箱ひげ図を参照してください。

発展問題5：ページ数分布の話数別変化#

関連セクション: ヒストグラム

連載の長さによって、1話あたりのページ数にどのような違いがあるでしょうか。読み切り作品（1話完結）と短期連載では、ページ数の決まり方が異なるかもしれません。

ccid（作品ID）ごとに合計話数を算出し、df_ce に結合してください
合計話数が「1話」から「10話」までの作品に限定し、ページ数（50ページ以下）のヒストグラムをファセット表示で比較してください
ファセットは合計話数を基準に分けてください

ヒント

groupbyとnuniqueで各作品の話数を集計できます
facet_colとfacet_col_wrapを組み合わせると、見やすい配置になります

解説

合計話数を軸に、ページ数という量的変数の分布がどう変化するかをファセットで比較する問題です。

1話完結の読み切り作品では31ページや45ページといった比較的大きなページ数にピークが見られますが、連載回数が増えるにつれて（とくに合計8話あたりから）、徐々に19〜20ページ付近の「連載標準」のピークが支配的になっていく様子が視覚的に捉えられます。ヒストグラムを並べることで、単なる平均値の比較では見落としてしまう性質を、データから再発見することが可能になります。

関連セクション: 詳しくはヒストグラムを参照してください。

発展問題6：プレイステーションシリーズの価格帯比較#

関連セクション: 箱ひげ図

ゲームプラットフォームの世代交代と販売価格の関係を整理しましょう。プレイステーションシリーズ5機種を対象に、「据置型」と「携帯型」で価格分布がどう異なるかを比較します。

辞書pfname2typeを用いて各機種を「据置型」と「携帯型」に分類してください
横軸を分類、縦軸を販売価格とした箱ひげ図を作成してください

ヒント

mapメソッドで辞書を適用すると、新しい分類列を作成できます
dropnaで分類できなかった機種（PS以外）を除外できます

解説

箱ひげ図を用いて、特定のシリーズ内における価格戦略の差異を要約的に比較する問題です。

本章で学んだ通り、箱ひげ図は詳細な分布形状こそ捨象しますが、中央値や四分位範囲を比べることで「据置型は携帯型より価格レンジが高い」といった傾向を迅速に把握するのに適しています。プレイステーションシリーズに絞ることで、同一メーカー内での「据置機と携帯機の価格差」に関する示唆を得やすくなります。

関連セクション: 詳しくは箱ひげ図を参照してください。

応用問題7：平日・土日の話数分布の推移#

関連セクション: リッジラインプロット

本章では、深夜アニメの台頭によりクール化が進んだ可能性が示唆されました。この傾向を「平日（月〜金）」と「土日」の放送枠で分けて分析してみましょう。

曜日情報を抽出し、「平日」と「土日」に分類してください
平日と土日の両方で放送データが存在する作品は除外 してください（厳密な比較のため）
1990年代、2000年代、2010年代の作品について、年代ごとの合計話数分布（100話以下）をリッジラインプロットで比較してください

ヒント

dt.dayofweekで曜日番号（0:月〜6:日）を取得できます
各作品が何種類の曜日種別に属するかをnuniqueで確認し、1種類のみの作品に絞り込みます
px.violinのside='positive'で片側描画（リッジライン風）になります

解説

リッジラインプロットの形式を応用し、時間軸（年代）と属性軸（曜日種別）を多角的に比較する問題です。

共通する作品を除外するという前処理を挟むことで、純粋に「平日枠のアニメ」と「土日枠のアニメ」の性質の違いを浮き彫りにしています。平日枠、土日枠いずれにおいても、1クール作品（合計話数が12-13付近）が増えていく様子が観察できます。とは言え、平日と比較して、土日のほうが比較的4クール作品（合計話数が50-52付近）が残っているようです。

関連セクション: 詳しくはリッジラインプロットを参照してください。

応用問題8：最終回の掲載位置分布#

関連セクション: 密度プロット

マンガ作品の「最終回」は、雑誌のどのあたりに掲載される傾向があるでしょうか。巻頭カラーで華々しく飾られる作品もあれば、そうでない作品もありそうです。

各作品の「最後の一話」を特定し、その掲載位置（page_start_position）を抽出してください
ただし、データセット末尾の作品は連載中の可能性があります（右側打ち切り）。各雑誌の最新巻号に掲載されていない作品のみ を対象としてください[1]
雑誌ごとの分布を密度プロットで比較してください

ヒント

groupbyとmaxで各作品の最終掲載日を特定できます
作品の最終掲載日が雑誌の最終発行日より前なら「完結済み」と判定できます
create_distplot関数で密度プロットを作成できます

解説

密度プロットを用いて、雑誌ごとの「最終回の掲載位置」を比較する問題です。右側打ち切り（Right-censored）という課題を、最新巻号で連載中の作品を除外することで緩和[1]しています。

全雑誌に共通する特徴として、巻頭付近で最終回を迎える作品は稀 のようです。意外ですね。そのうえで雑誌ごとに分布に特徴があらわれており、非常に興味深い結果となりました。たとえば、 週刊少年チャンピオン は巻末付近にのみピークを持ちますが、 週刊少年マガジン は中央付近 [2] にもピークが見られます。

関連セクション: 詳しくは密度プロットを参照してください。

下巻 第2章 解答例

Contents

下巻 第2章 解答例#

前提#

基礎 問題1：アニメ作品の合計話数の分布#

基礎 問題2：ゲーム価格の累積分布#

標準 問題3：週刊少年ジャンプのページ数分布#

標準 問題4：プレイステーション2の価格分布#

発展 問題5：ページ数分布の話数別変化#

発展 問題6：プレイステーションシリーズの価格帯比較#

応用 問題7：平日・土日の話数分布の推移#

応用 問題8：最終回の掲載位置分布#

下巻第2章解答例

下巻第2章解答例#

基礎問題1：アニメ作品の合計話数の分布#

基礎問題2：ゲーム価格の累積分布#

標準問題3：週刊少年ジャンプのページ数分布#

標準問題4：プレイステーション2の価格分布#

発展問題5：ページ数分布の話数別変化#

発展問題6：プレイステーションシリーズの価格帯比較#

応用問題7：平日・土日の話数分布の推移#

応用問題8：最終回の掲載位置分布#