下巻第4章練習問題

下巻第4章練習問題#

ここでは、 本書の学習内容の定着 を目的とした練習問題を掲載します。解答・解説は「解答例」ページを参照してください。なお、問題の性質上、本書で取り上げた処理と重複することがあります。ご了承ください。

前提#

以下のように、ライブラリのインポートと変数の定義が完了していることを前提とします。

また、本書中で取り上げた以下の関数も、同様に利用可能とします。

以下のようにデータを読みこんでいると仮定します。

基礎問題1：アニメの放送日数と各話数の関係#

関連セクション: 散布図

重複のあるデータに対して散布図を作成するとき、マーカーの透明度（opacity）を調整することで見やすくなることがあります。そこで、opacityを あえて調整しない散布図 を作成することで、その効果を体感しましょう。

アニメ作品には、毎週1話ずつ放送されるものもあれば、1日に複数話が放送される特別編成のものもあります。放送日数と各話数の関係を可視化することで、データの特性を把握できます。

df_ae（アニメ各話データ）を用いて、アニメ作品ごとの放送日数（ユニークな放送日の数）と各話数（ユニークな各話IDの数）の関係を散布図で可視化してください。なお、マーカーのスタイルは size=10, line_width=1 とし、opacity は指定しないでください。

ヒント

作品ごとの集計は groupby と nunique() で行えます
散布図は px.scatter() で作成できます
update_traces() でマーカーのスタイルを設定できます

基礎問題2：年ごとのゲームパッケージ数#

関連セクション: 折れ線グラフ

折れ線グラフにおいて、各データ点にマーカーを表示するかどうかで印象が大きく変わります。そこで本問では、 あえてマーカーを表示しない 設定とすることで、その影響を体験してみましょう。

ゲーム市場の動向を把握するために、年ごとのゲームパッケージ数の推移を可視化することは有用です。折れ線グラフを用いることで、時系列データの変化を視覚的に捉えることができます。

df_pkg_pf（ゲームパッケージデータ）を用いて、年ごとのユニークな ゲームパッケージ数 の推移を折れ線グラフで可視化してください。なお、mode="lines" を指定し、マーカーは表示しないでください。

ヒント

日付列を pd.to_datetime() で変換し、.dt.year で年を抽出できます
年ごとの集計は groupby と nunique() で行えます
折れ線グラフは px.line() で作成できます
update_traces(mode="lines") でマーカーなしに設定できます

標準問題3：マンガ雑誌巻号の作品数と作者数の関係#

関連セクション: 散布図

散布図において、データ点が離散的な値を取る場合、同じ座標に複数の点が重なってしまう（オーバープロット）問題が発生します。ジッタリング（微小なランダムノイズの付加）は、この問題を緩和する手法の一つです。

df_ce（マンガ各話データ）と df_cc_crt（マンガ作品×作者データ）を用いて、雑誌巻号ごとの 作品数 と 作者数 を集計し、ジッタリングを適用した散布図を作成してください。ジッタリングには先に定義した add_jitter 関数を使用し、scale=1.0 を指定してください。

ヒント

雑誌巻号ごとの集計は groupby と nunique() で行えます
ジッタリングは add_jitter(values, scale=1.0) で適用できます
散布図は px.scatter() で作成できます

標準問題4：任天堂プラットフォームのパッケージ数推移#

関連セクション: 折れ線グラフ

折れ線グラフでは、データ点間をどのように補間するか（line_shape）によって、グラフの印象が大きく変わります。線形補間（linear）、階段状補間（hv, vh）、スプライン曲線（spline）など、様々な補間方法があります。

df_pkg_pf（ゲームパッケージデータ）を用いて、任天堂プラットフォーム全体の年ごとのパッケージ数推移を、異なる line_shape（linear, hv, spline）で比較するサブプロットを作成してください。

ヒント

PF2MK 辞書を使って任天堂のプラットフォームを特定できます
make_subplots() で複数のサブプロットを作成できます
go.Scatter() の line_shape 引数で補間方法を指定できます

発展問題5：アニメ放送枠の作品数と話数の関係#

関連セクション: 連結散布図

ある期間中のアニメの作品数と話数の関係は、その放送枠の性質（長期作品が多いか、短期作品の入れ替えが激しいか）を反映します。

df_ae（アニメ各話データ）を用いて、 「平日放送のみの作品群」と「土日放送のみの作品群」 で、作品数と話数のバランスがどう異なるかを、連結散布図で可視化してください。

ヒント

土日判定は .dt.weekday >= 5 で行えます
作品ごとの曜日種別数は groupby と nunique() で確認できます
連結散布図は create_connectedplot() 関数で作成できます
ファセット分割は facet_col 引数で指定します

応用問題6：マンガ掲載位置の遷移#

関連セクション: 等値線図

マンガ雑誌において、ある作品の「現在の掲載位置」が「次号の掲載位置」にどの程度影響するかは、連載の安定性を測る指標の一つです。掲載順が固定されていればデータ点は直線 \(y=x\) 付近に集中し、変動が激しければ分散します。

df_ce（マンガ各話データ）を用いて、連載初期から中盤にかけてこの遷移傾向がどう変化するかを等値線図で可視化しましょう。横軸に現在の掲載位置、縦軸に次話の掲載位置を取り、話数レンジ（1-10話、11-20話、21-30話、31-40話）ごとにファセットをわけてください。

ヒント

「次話の掲載位置」は groupby と shift(-1) で算出できます
作品内の話数インデックスは cumcount() で付与できます
等値線図は px.density_contour() で作成できます
contours_coloring="fill" で密度に応じた塗り分けができます

応用問題7：経過年によるパッケージ数の推移#

関連セクション: 折れ線グラフ

ゲームプラットフォームには、発売から普及、そして衰退までのライフサイクルがあります。西暦ではなく、 発売からの経過年 を軸に据えることで、異なる世代のプラットフォーム同士を同じ基準で比較できます。

df_pkg_pf（ゲームパッケージデータ）を用いて、歴代の「プレイステーション」シリーズを対象に、発売から何年目に最も多くのソフト（パッケージ数）が供給されたかを折れ線グラフで可視化してみましょう。

ヒント

文字列フィルタリングは str.contains() で行えます
経過年インデックスは groupby と cumcount() で算出できます
折れ線グラフは px.line() で作成できます
mode="lines+markers" で線とマーカーの両方を表示できます

下巻 第4章 練習問題

Contents

下巻 第4章 練習問題#

前提#

基礎 問題1：アニメの放送日数と各話数の関係#

基礎 問題2：年ごとのゲームパッケージ数#

標準 問題3：マンガ雑誌巻号の作品数と作者数の関係#

標準 問題4：任天堂プラットフォームのパッケージ数推移#

発展 問題5：アニメ放送枠の作品数と話数の関係#

応用 問題6：マンガ掲載位置の遷移#

応用 問題7：経過年によるパッケージ数の推移#

下巻第4章練習問題

下巻第4章練習問題#

基礎問題1：アニメの放送日数と各話数の関係#

基礎問題2：年ごとのゲームパッケージ数#

標準問題3：マンガ雑誌巻号の作品数と作者数の関係#

標準問題4：任天堂プラットフォームのパッケージ数推移#

発展問題5：アニメ放送枠の作品数と話数の関係#

応用問題6：マンガ掲載位置の遷移#

応用問題7：経過年によるパッケージ数の推移#