下巻第4章解答例

下巻第4章解答例#

ここでは、 本書の学習内容の定着 を目的とした練習問題とその解答・解説を掲載します。なお、問題の性質上、本書で取り上げた処理と重複することがあります。ご了承ください。

前提#

以下のように、ライブラリのインポートと変数の定義が完了していることを前提とします。

また、本書中で取り上げた以下の関数も、同様に利用可能とします。

以下のようにデータを読みこんでいると仮定します。

基礎問題1：アニメの放送日数と各話数の関係#

関連セクション: 散布図

重複のあるデータに対して散布図を作成するとき、マーカーの透明度（opacity）を調整することで見やすくなることがあります。そこで、opacityを あえて調整しない散布図 を作成することで、その効果を体感しましょう。

アニメ作品には、毎週1話ずつ放送されるものもあれば、1日に複数話が放送される特別編成のものもあります。放送日数と各話数の関係を可視化することで、データの特性を把握できます。

df_ae（アニメ各話データ）を用いて、アニメ作品ごとの放送日数（ユニークな放送日の数）と各話数（ユニークな各話IDの数）の関係を散布図で可視化してください。なお、マーカーのスタイルは size=10, line_width=1 とし、opacity は指定しないでください。

ヒント

作品ごとの集計は groupby と nunique() で行えます
散布図は px.scatter() で作成できます
update_traces() でマーカーのスタイルを設定できます

解説

この散布図では、opacityを指定していないため、データ点が完全に不透明（デフォルト=1.0）で描画されています。その結果、多くのデータ点が重なり合う領域（特に放送日数・各話数が少ない左下部分）では、 オーバープロット が発生し、実際にどれだけのデータ点が存在するのかが視覚的に把握しづらくなっています。

本書の散布図では opacity=0.5 を設定することで、重なり合う領域が濃く表示され、データの密集度を直感的に把握できるようになっています。散布図でデータ点が多い場合、透明度の調整は非常に有効な手法です。

関連セクション: 詳しくは散布図を参照してください。

基礎問題2：年ごとのゲームパッケージ数#

関連セクション: 折れ線グラフ

折れ線グラフにおいて、各データ点にマーカーを表示するかどうかで印象が大きく変わります。そこで本問では、 あえてマーカーを表示しない 設定とすることで、その影響を体験してみましょう。

ゲーム市場の動向を把握するために、年ごとのゲームパッケージ数の推移を可視化することは有用です。折れ線グラフを用いることで、時系列データの変化を視覚的に捉えることができます。

df_pkg_pf（ゲームパッケージデータ）を用いて、年ごとのユニークな ゲームパッケージ数 の推移を折れ線グラフで可視化してください。なお、mode="lines" を指定し、マーカーは表示しないでください。

ヒント

日付列を pd.to_datetime() で変換し、.dt.year で年を抽出できます
年ごとの集計は groupby と nunique() で行えます
折れ線グラフは px.line() で作成できます
update_traces(mode="lines") でマーカーなしに設定できます

解説

この折れ線グラフでは、mode="lines" を指定しているため、データ点を示すマーカーが表示されていません。その結果、各年のデータ点がどこにあるのかが視覚的に把握しづらくなっています。

本書中の折れ線グラフでは mode="lines+markers" を設定することで、線とマーカーの両方が表示され、個々のデータ点の位置が明確になります。特にデータ点が少ない場合や、特定の年の値を確認したい場合には、マーカーの表示が有効です。

関連セクション: 詳しくは折れ線グラフを参照してください。

標準問題3：マンガ雑誌巻号の作品数と作者数の関係#

関連セクション: 散布図

散布図において、データ点が離散的な値を取る場合、同じ座標に複数の点が重なってしまう（オーバープロット）問題が発生します。ジッタリング（微小なランダムノイズの付加）は、この問題を緩和する手法の一つです。

df_ce（マンガ各話データ）と df_cc_crt（マンガ作品×作者データ）を用いて、雑誌巻号ごとの 作品数 と 作者数 を集計し、ジッタリングを適用した散布図を作成してください。ジッタリングには先に定義した add_jitter 関数を使用し、scale=1.0 を指定してください。

ヒント

雑誌巻号ごとの集計は groupby と nunique() で行えます
ジッタリングは add_jitter(values, scale=1.0) で適用できます
散布図は px.scatter() で作成できます

解説

この散布図では、scale=1.0 という大きな値でジッタリングを適用しています。その結果、元のデータが持つ整数値の傾向が大きく歪み、データ点が過度に散らばって見えます。

本書中の散布図では scale=0.25 を使用しており、オーバープロットを緩和しつつも、元のデータの傾向（作品数と作者数がほぼ同じか、作品数の方が多い）を維持しています。ジッタリングの scale 値は、データの特性と可視化の目的に応じて適切に選択する必要があります。値が小さすぎるとオーバープロットが解消されず、大きすぎるとデータの傾向が歪んでしまいます。

関連セクション: 詳しくは散布図を参照してください。

標準問題4：任天堂プラットフォームのパッケージ数推移#

関連セクション: 折れ線グラフ

折れ線グラフでは、データ点間をどのように補間するか（line_shape）によって、グラフの印象が大きく変わります。線形補間（linear）、階段状補間（hv, vh）、スプライン曲線（spline）など、様々な補間方法があります。

df_pkg_pf（ゲームパッケージデータ）を用いて、任天堂プラットフォーム全体の年ごとのパッケージ数推移を、異なる line_shape（linear, hv, spline）で比較するサブプロットを作成してください。

ヒント

PF2MK 辞書を使って任天堂のプラットフォームを特定できます
make_subplots() で複数のサブプロットを作成できます
go.Scatter() の line_shape 引数で補間方法を指定できます

解説

3つの補間方法を比較すると、同じデータでもグラフの印象が大きく異なることがわかります。

linear（線形補間）: データ点間を直線で結ぶ最も基本的な方法。変化の傾向を素直に表現します。
hv（水平-垂直）: 階段状に描画されるため、「ある時点で値が変化した」という解釈がしやすくなります。離散的なイベント（年単位の集計など）に適しています。
spline（スプライン曲線）: 滑らかな曲線で描画されるため、連続的な変化を強調します。ただし、実際のデータ点間に存在しない値を示唆する可能性があるため、解釈には注意が必要です。

補間方法の選択は、データの性質と伝えたいメッセージに応じて適切に行う必要があります。

関連セクション: 詳しくは折れ線グラフを参照してください。

発展問題5：アニメ放送枠の作品数と話数の関係#

関連セクション: 連結散布図

ある期間中のアニメの作品数と話数の関係は、その放送枠の性質（長期作品が多いか、短期作品の入れ替えが激しいか）を反映します。

df_ae（アニメ各話データ）を用いて、 「平日放送のみの作品群」と「土日放送のみの作品群」 で、作品数と話数のバランスがどう異なるかを、連結散布図で可視化してください。

ヒント

土日判定は .dt.weekday >= 5 で行えます
作品ごとの曜日種別数は groupby と nunique() で確認できます
連結散布図は create_connectedplot() 関数で作成できます
ファセット分割は facet_col 引数で指定します

解説

連結散布図において、原点と各点を結ぶ直線の傾き \(\frac{y}{x}\) は「1作品あたりの平均話数」を意味します。

土日放送と平日放送において、その大局的な傾きには大きな違いはないように見えます。しかし、平日放送のほうが比較的マーカーの推移に「ぶれ」が見られ、何らかの要因により「1作品あたりの平均話数」は変動しやすい傾向があるように見えます。

平日放送の方が「アニメ作品数」「アニメ各話数」ともに成長が早いように見えますが、日数の違い（平日：5日間、土日：2日間）が影響している可能性があります。各指標を該当する日数で割ることで、この要因を除外した分析に近づく可能性があります。

関連セクション: 詳しくは連結散布図を参照してください。

応用問題6：マンガ掲載位置の遷移#

関連セクション: 等値線図

マンガ雑誌において、ある作品の「現在の掲載位置」が「次号の掲載位置」にどの程度影響するかは、連載の安定性を測る指標の一つです。掲載順が固定されていればデータ点は直線 \(y=x\) 付近に集中し、変動が激しければ分散します。

df_ce（マンガ各話データ）を用いて、連載初期から中盤にかけてこの遷移傾向がどう変化するかを等値線図で可視化しましょう。横軸に現在の掲載位置、縦軸に次話の掲載位置を取り、話数レンジ（1-10話、11-20話、21-30話、31-40話）ごとにファセットをわけてください。

ヒント

「次話の掲載位置」は groupby と shift(-1) で算出できます
作品内の話数インデックスは cumcount() で付与できます
等値線図は px.density_contour() で作成できます
contours_coloring="fill" で密度に応じた塗り分けができます

解説

等値線図は、散布図では点同士の重複（オーバープロット）で隠れてしまう「データの集中度合い」を可視化するのに適しています。

図を観察すると、いずれの話数レンジにおいても対角線 \(y=x\) に沿ってピークが形成されており、現在の掲載位置が次話に引き継がれやすい傾向が見て取れます。特に連載が進む（レンジが後半になる）ほど、等値線の広がりがタイトになり、掲載位置の固定化が進む様子が推測されます。

なお、本書では掲載位置の「分布」（スナップショット）に注目した議論が中心でしたが、本問のように「遷移」という動的な観点を導入することで、マンガ雑誌というシステムの異なる側面を捉えることができます[1]。

関連セクション: 詳しくは等値線図を参照してください。

応用問題7：経過年によるパッケージ数の推移#

関連セクション: 折れ線グラフ

ゲームプラットフォームには、発売から普及、そして衰退までのライフサイクルがあります。西暦ではなく、 発売からの経過年 を軸に据えることで、異なる世代のプラットフォーム同士を同じ基準で比較できます。

df_pkg_pf（ゲームパッケージデータ）を用いて、歴代の「プレイステーション」シリーズを対象に、発売から何年目に最も多くのソフト（パッケージ数）が供給されたかを折れ線グラフで可視化してみましょう。

ヒント

文字列フィルタリングは str.contains() で行えます
経過年インデックスは groupby と cumcount() で算出できます
折れ線グラフは px.line() で作成できます
mode="lines+markers" で線とマーカーの両方を表示できます

解説

折れ線グラフは、時系列データの変化を比較するのに最適です。経過年（year_index）を横軸にとることで、例えば「PSとPS2は6年目にピークを迎えたが、PS3は8年目にピークが来ている」といった、プラットフォームごとの市場成熟スピードの違いに関する示唆が得られます。このように、データの基準点を揃える前処理と可視化を組み合わせることで、より本質的な比較が可能になるのです。

関連セクション: 詳しくは折れ線グラフを参照してください。

下巻 第4章 解答例

Contents

下巻 第4章 解答例#

前提#

基礎 問題1：アニメの放送日数と各話数の関係#

基礎 問題2：年ごとのゲームパッケージ数#

標準 問題3：マンガ雑誌巻号の作品数と作者数の関係#

標準 問題4：任天堂プラットフォームのパッケージ数推移#

発展 問題5：アニメ放送枠の作品数と話数の関係#

応用 問題6：マンガ掲載位置の遷移#

応用 問題7：経過年によるパッケージ数の推移#

下巻第4章解答例

下巻第4章解答例#

基礎問題1：アニメの放送日数と各話数の関係#

基礎問題2：年ごとのゲームパッケージ数#

標準問題3：マンガ雑誌巻号の作品数と作者数の関係#

標準問題4：任天堂プラットフォームのパッケージ数推移#

発展問題5：アニメ放送枠の作品数と話数の関係#

応用問題6：マンガ掲載位置の遷移#

応用問題7：経過年によるパッケージ数の推移#