下巻第5章解答例

下巻第5章解答例#

ここでは、 本書の学習内容の定着 を目的とした練習問題とその解答・解説を掲載します。なお、問題の性質上、本書で取り上げた処理と重複することがあります。ご了承ください。

前提#

以下のように、ライブラリのインポートと変数の定義が完了していることを前提とします。

また、以下のようにファイルを読み込んでいると仮定します。

基礎問題1：対応表の件数確認#

本章で使用する対応表df_ac_ccは、アニメ作品ID（acid）とマンガ作品ID（ccid）の紐づけを管理しています。 shape属性とnunique()メソッドを用いて、対応表の行数と各IDのユニーク数を確認してください。

行数とユニーク数の関係から、acidとccidの対応関係にはどのような特徴があるかを考察しましょう。

ヒント

df.shape でDataFrameの行数と列数を確認できます
df["列名"].nunique() でユニークな値の数を取得できます

解説

shape属性とnunique()メソッドを組み合わせることで、対応表の基本的な構造を把握できます。

行数とユニーク数が一致する列（acid）は主キーとして機能しており、一致しない列（ccid）は重複があることを意味します。この場合、1つのマンガ作品から複数のアニメ作品が派生している（例：シリーズ続編、リメイク作品）ことがわかります。

関連セクション: 詳しくはメディア展開データの前処理を参照してください。

基礎問題2：メディア展開データの形状確認#

関連セクション: メディア展開データの基礎分析

本文ではdf_mix_ae_crtの形状をshapeで確認しました。ここでは、もう一つのメディア展開データdf_mix_ce_acについて同様の確認を行いましょう。

df_mix_ce_acのshape属性を用いて行数と列数を確認し、head(10)で先頭10行を表示してください。

ヒント

df.shape でDataFrameの行数と列数を確認できます
df.head(10) で先頭10行を表示できます

Show code cell content Hide code cell content

# データフレームの形状（行数, 列数）を確認
print(f"df_mix_ce_ac の形状: {df_mix_ce_ac.shape}")

# 先頭10行を表示
df_mix_ce_ac.head(10)

df_mix_ce_ac の形状: (181681, 25)

	ceid	cename	ccid	miid	page_start	page_end	pages	page_start_position	two_colored	four_colored	...	first_date_cc	last_date_cc	mcid	mcname	acid	acname	asid	n_ae	first_date_ac	last_date_ac
0	CE00000	第238話/この世代	C90829	M535428	10.0	31.0	22.0	0.021368	False	True	...	2006-05-31	2016-01-08	C119033	週刊少年マガジン	C14866	ダイヤのA[エース]	C5641	75.0	2013-10-06	2015-03-29
1	CE00026	第237話/トーナメント	C90829	M535429	125.0	144.0	20.0	0.238550	False	False	...	2006-05-31	2016-01-08	C119033	週刊少年マガジン	C14866	ダイヤのA[エース]	C5641	75.0	2013-10-06	2015-03-29
2	CE00062	第236話/絆	C90829	M535430	223.0	242.0	20.0	0.478541	False	False	...	2006-05-31	2016-01-08	C119033	週刊少年マガジン	C14866	ダイヤのA[エース]	C5641	75.0	2013-10-06	2015-03-29
3	CE00086	第235話/指先から…	C90829	M535431	183.0	204.0	22.0	0.405765	False	False	...	2006-05-31	2016-01-08	C119033	週刊少年マガジン	C14866	ダイヤのA[エース]	C5641	75.0	2013-10-06	2015-03-29
4	CE00112	第234話/何にも出来ないワケじゃない	C90829	M535432	221.0	240.0	20.0	0.472222	False	False	...	2006-05-31	2016-01-08	C119033	週刊少年マガジン	C14866	ダイヤのA[エース]	C5641	75.0	2013-10-06	2015-03-29
5	CE00135	第233話/Just do it	C90829	M535433	129.0	148.0	20.0	0.269311	False	False	...	2006-05-31	2016-01-08	C119033	週刊少年マガジン	C14866	ダイヤのA[エース]	C5641	75.0	2013-10-06	2015-03-29
6	CE00155	第232話 SHINE ON	C90829	M535434	9.0	34.0	26.0	0.020737	False	True	...	2006-05-31	2016-01-08	C119033	週刊少年マガジン	C14866	ダイヤのA[エース]	C5641	75.0	2013-10-06	2015-03-29
7	CE00194	第231話/道しるべ	C90829	M535435	225.0	244.0	20.0	0.497788	False	False	...	2006-05-31	2016-01-08	C119033	週刊少年マガジン	C14866	ダイヤのA[エース]	C5641	75.0	2013-10-06	2015-03-29
8	CE00210	第230話/継承	C90829	M535436	59.0	78.0	20.0	0.129956	False	False	...	2006-05-31	2016-01-08	C119033	週刊少年マガジン	C14866	ダイヤのA[エース]	C5641	75.0	2013-10-06	2015-03-29
9	CE00250	第229話/イメージ	C90829	M535437	311.0	330.0	20.0	0.654737	False	False	...	2006-05-31	2016-01-08	C119033	週刊少年マガジン	C14866	ダイヤのA[エース]	C5641	75.0	2013-10-06	2015-03-29

10 rows × 25 columns

解説

shape属性とhead()メソッドを組み合わせることで、データフレームの概要を素早く把握できます。

df_mix_ce_acはマンガ各話（ceid）とアニメ作品（acid）の紐づけを管理するデータで、本文で確認したdf_mix_ae_crtとは異なる視点（マンガ話ベース vs アニメ話ベース）のデータです。両者の行数や含まれる列を比較することで、メディア展開データの構造をより深く理解できます。

関連セクション: 詳しくはメディア展開データの基礎分析を参照してください。

標準問題3：特定雑誌に絞った統計#

関連セクション: メディア展開データの基礎分析

本書では、groupby("mcname")を用いて全雑誌を対象にアニメ化実績を集計しました。今回は、週刊少年サンデーに絞り込んで、アニメ化された作品数と関わった作者数を集計してみましょう。

df_mix_ae_crtから週刊少年サンデー（mcname列が"週刊少年サンデー"）のデータのみを抽出し、acid（アニメ作品）とcrtid（マンガ作者）のユニーク数を確認してください。

ヒント

ブールインデックス df[df["列名"] == "値"] でデータを絞り込めます
絞り込んだDataFrameに対して nunique() を適用できます

解説

ブールインデックスによるフィルタリングとnunique()を組み合わせた集計パターンです。

特定の条件に絞り込んで統計を確認することで、雑誌ごとの特徴を把握できます。全体の傾向と比較することで、各雑誌の編集方針の違いが見えてくるかもしれません。

関連セクション: 詳しくはメディア展開データの基礎分析を参照してください。

発展問題4：マンガ作品のカバー率#

関連セクション: メディア展開データの基礎分析

問題7（後述）では、アニメ作品（acid）の観点から前処理による情報欠落を分析します。ここでは、 マンガ作品（ccid） の観点から同様の分析を行ってみましょう。

生の対応表（df_ac_cc）に含まれるマンガ作品数と、最終的な分析用データ（df_mix_ae_crt）に残ったマンガ作品数を比較し、マンガ作品の「残存率」を算出してください。結果はpd.Seriesを用いて構造化されたサマリーとして出力しましょう。

ヒント

df["ccid"].nunique() でユニークなマンガ作品数を取得できます
残存率は「残った数 / 元の数 × 100」で計算できます
pd.Series([値1, 値2, ...], index=[ラベル1, ラベル2, ...]) でサマリーを作成できます

解説

問題7（後述）ではアニメ作品（acid）の観点からカバー率を計算しますが、ここではマンガ作品（ccid）の観点から分析しています。

アニメ作品のカバー率とマンガ作品のカバー率は必ずしも一致しません。理由の一つとして、1つのマンガ作品から複数のアニメ作品が派生していることが考えられます。複数の観点からカバー率を確認することで、前処理による情報欠落の影響をより多角的に把握できます。

関連セクション: 詳しくはメディア展開データの基礎分析を参照してください。

発展問題5：対応関係の仕様チェック#

関連セクション: メディア展開データの基礎分析

本書の仕様説明において、Aさんは「一つのアニメ作品に対して、複数の原作マンガ作品を紐づけない」というルールを定義しました。

つまり、アニメ作品ID（acid）に対してマンガ作品ID（ccid）は一意に定まる（N対1の関係）必要があります。本書でも登場したassert文を活用して、df_ac_cc内の一つのacidに対して複数のccidが紐づいている 仕様違反 がないことを検証してください。

ヒント

グループごとのユニーク数は groupby と nunique() で取得できます
assert 文で条件を検証し、違反時にエラーメッセージを表示できます
最大値の取得には max() を使用します

解説

データ結合を行う前に、主キーの関係性が設計通りであるかを確認する重要なステップです。 Aさんが立てた「一つのアニメには一つの原作」というポリシーが、手作業の過程で崩れていないかをプログラムで担保しています。このような整合性チェックを自動化しておくことで、後続の分析でデータの二重計上などのバグを防ぐことができます。

関連セクション: 詳しくはメディア展開データの基礎分析を参照してください。

発展問題6：時間的整合性の検証#

関連セクション: メディア展開データの基礎分析

アニメ作品の放送開始日は、必ず原作マンガの掲載開始日以降（同日を含む）となるよう対応表を作成しました。もしアニメが先に始まっているデータが存在する場合、それは原作の紐づけ誤りや日付データの不備を示唆しています。アニメとマンガの開始日（first_date）をマージし、全てのアニメ作品において「マンガ開始日 <= アニメ開始日」が成立していることを、assert文を用いて検証しましょう。

ヒント

複数のDataFrameの結合には pd.merge() を使用します
日付の差分は .dt.days で日数として取得できます
全要素が条件を満たすかは .all() で確認できます
assert 文で条件を検証できます

解説

データの論理的な矛盾をドメイン知識でチェックする問題です。本文で触れた『アソボット戦記五九』のように、メディアミックス作品では開始日が非常に近いことがありますが、あまりにアニメが先行している場合は「原作の取り違え」や「初出情報の誤り」の可能性[1]が浮上します。基礎分析の段階でこうした時間軸の矛盾を洗い出すことは、データの信頼性を「物語」の側面から検証する行為に他なりません。

関連セクション: 詳しくはメディア展開データの基礎分析を参照してください。

発展問題7：マージによる情報欠落#

関連セクション: メディア展開データの基礎分析

前処理の過程で、放送日の欠損などを理由に除外されたアニメ作品が存在します。生の対応表（df_ac_cc）に含まれる作品数と、最終的な分析用データ（mix_ae_crt.csv）に残った作品数を比較し、データの「残存率」を算出しましょう。結果は単なる数値の表示ではなく、PandasのSeries型を用いて構造化されたサマリーとして出力してください。

ヒント

ユニークな件数は nunique() で取得できます
カバー率（残存率）は「残った数 / 元の数 × 100」で計算できます
pd.Series() で構造化されたサマリーを作成できます

解説

前処理によるデータの選り分けの影響を探る分析です。

本文で『うる星やつら』などが除外されてしまった背景には、放送日情報の欠損がありました。最終的な可視化結果を見る際、この「欠落したデータ」の存在を意識できるかどうかが、分析の質を左右するポイントです。

関連セクション: 詳しくはメディア展開データの基礎分析を参照してください。

下巻 第5章 解答例

Contents

下巻 第5章 解答例#

前提#

基礎 問題1：対応表の件数確認#

基礎 問題2：メディア展開データの形状確認#

標準 問題3：特定雑誌に絞った統計#

発展 問題4：マンガ作品のカバー率#

発展 問題5：対応関係の仕様チェック#

発展 問題6：時間的整合性の検証#

発展 問題7：マージによる情報欠落#

下巻第5章解答例

下巻第5章解答例#

基礎問題1：対応表の件数確認#

基礎問題2：メディア展開データの形状確認#

標準問題3：特定雑誌に絞った統計#

発展問題4：マンガ作品のカバー率#

発展問題5：対応関係の仕様チェック#

発展問題6：時間的整合性の検証#

発展問題7：マージによる情報欠落#