下巻第5章練習問題

下巻第5章練習問題#

ここでは、 本書の学習内容の定着 を目的とした練習問題を掲載します。解答・解説は「解答例」ページを参照してください。なお、問題の性質上、本書で取り上げた処理と重複することがあります。ご了承ください。

前提#

以下のように、ライブラリのインポートと変数の定義が完了していることを前提とします。

また、以下のようにファイルを読み込んでいると仮定します。

基礎問題1：対応表の件数確認#

本章で使用する対応表df_ac_ccは、アニメ作品ID（acid）とマンガ作品ID（ccid）の紐づけを管理しています。 shape属性とnunique()メソッドを用いて、対応表の行数と各IDのユニーク数を確認してください。

行数とユニーク数の関係から、acidとccidの対応関係にはどのような特徴があるかを考察しましょう。

ヒント

df.shape でDataFrameの行数と列数を確認できます
df["列名"].nunique() でユニークな値の数を取得できます

基礎問題2：メディア展開データの形状確認#

関連セクション: メディア展開データの基礎分析

本文ではdf_mix_ae_crtの形状をshapeで確認しました。ここでは、もう一つのメディア展開データdf_mix_ce_acについて同様の確認を行いましょう。

df_mix_ce_acのshape属性を用いて行数と列数を確認し、head(10)で先頭10行を表示してください。

ヒント

df.shape でDataFrameの行数と列数を確認できます
df.head(10) で先頭10行を表示できます

標準問題3：特定雑誌に絞った統計#

関連セクション: メディア展開データの基礎分析

本書では、groupby("mcname")を用いて全雑誌を対象にアニメ化実績を集計しました。今回は、週刊少年サンデーに絞り込んで、アニメ化された作品数と関わった作者数を集計してみましょう。

df_mix_ae_crtから週刊少年サンデー（mcname列が"週刊少年サンデー"）のデータのみを抽出し、acid（アニメ作品）とcrtid（マンガ作者）のユニーク数を確認してください。

ヒント

ブールインデックス df[df["列名"] == "値"] でデータを絞り込めます
絞り込んだDataFrameに対して nunique() を適用できます

発展問題4：マンガ作品のカバー率#

関連セクション: メディア展開データの基礎分析

問題7（後述）では、アニメ作品（acid）の観点から前処理による情報欠落を分析します。ここでは、 マンガ作品（ccid） の観点から同様の分析を行ってみましょう。

生の対応表（df_ac_cc）に含まれるマンガ作品数と、最終的な分析用データ（df_mix_ae_crt）に残ったマンガ作品数を比較し、マンガ作品の「残存率」を算出してください。結果はpd.Seriesを用いて構造化されたサマリーとして出力しましょう。

ヒント

df["ccid"].nunique() でユニークなマンガ作品数を取得できます
残存率は「残った数 / 元の数 × 100」で計算できます
pd.Series([値1, 値2, ...], index=[ラベル1, ラベル2, ...]) でサマリーを作成できます

発展問題5：対応関係の仕様チェック#

関連セクション: メディア展開データの基礎分析

本書の仕様説明において、Aさんは「一つのアニメ作品に対して、複数の原作マンガ作品を紐づけない」というルールを定義しました。

つまり、アニメ作品ID（acid）に対してマンガ作品ID（ccid）は一意に定まる（N対1の関係）必要があります。本書でも登場したassert文を活用して、df_ac_cc内の一つのacidに対して複数のccidが紐づいている 仕様違反 がないことを検証してください。

ヒント

グループごとのユニーク数は groupby と nunique() で取得できます
assert 文で条件を検証し、違反時にエラーメッセージを表示できます
最大値の取得には max() を使用します

発展問題6：時間的整合性の検証#

関連セクション: メディア展開データの基礎分析

アニメ作品の放送開始日は、必ず原作マンガの掲載開始日以降（同日を含む）となるよう対応表を作成しました。もしアニメが先に始まっているデータが存在する場合、それは原作の紐づけ誤りや日付データの不備を示唆しています。アニメとマンガの開始日（first_date）をマージし、全てのアニメ作品において「マンガ開始日 <= アニメ開始日」が成立していることを、assert文を用いて検証しましょう。

ヒント

複数のDataFrameの結合には pd.merge() を使用します
日付の差分は .dt.days で日数として取得できます
全要素が条件を満たすかは .all() で確認できます
assert 文で条件を検証できます

発展問題7：マージによる情報欠落#

関連セクション: メディア展開データの基礎分析

前処理の過程で、放送日の欠損などを理由に除外されたアニメ作品が存在します。生の対応表（df_ac_cc）に含まれる作品数と、最終的な分析用データ（mix_ae_crt.csv）に残った作品数を比較し、データの「残存率」を算出しましょう。結果は単なる数値の表示ではなく、PandasのSeries型を用いて構造化されたサマリーとして出力してください。

ヒント

ユニークな件数は nunique() で取得できます
カバー率（残存率）は「残った数 / 元の数 × 100」で計算できます
pd.Series() で構造化されたサマリーを作成できます

下巻 第5章 練習問題

Contents

下巻 第5章 練習問題#

前提#

基礎 問題1：対応表の件数確認#

基礎 問題2：メディア展開データの形状確認#

標準 問題3：特定雑誌に絞った統計#

発展 問題4：マンガ作品のカバー率#

発展 問題5：対応関係の仕様チェック#

発展 問題6：時間的整合性の検証#

発展 問題7：マージによる情報欠落#

下巻第5章練習問題

下巻第5章練習問題#

基礎問題1：対応表の件数確認#

基礎問題2：メディア展開データの形状確認#

標準問題3：特定雑誌に絞った統計#

発展問題4：マンガ作品のカバー率#

発展問題5：対応関係の仕様チェック#

発展問題6：時間的整合性の検証#

発展問題7：マージによる情報欠落#