下巻第6章練習問題

下巻第6章練習問題#

ここでは、 本書の学習内容の定着 を目的とした練習問題を掲載します。解答・解説は「解答例」ページを参照してください。なお、問題の性質上、本書で取り上げた処理と重複することがあります。ご了承ください。

前提#

以下のように、ライブラリのインポートと変数の定義が完了していることを前提とします。

また、本書中で取り上げた以下の関数も、同様に利用可能とします。

また、以下のようにデータを読み込み済みと仮定します。

基礎問題1：マンガ作者別のアニメ放送話数#

関連セクション: 棒グラフ

本文では、マンガ作者別のアニメ合計放送話数を 縦棒グラフ で可視化しました。ここでは、同様のデータを 横棒グラフ で可視化してみましょう。

df_ae_crt を用いて、マンガ作者名（crtname）ごとにアニメ各話ID（aeid）のユニーク数を集計してください
集計結果を降順にソートし、上位 10件 に絞り込んでください（本文では20件）
px.bar() を用いて 横棒グラフ を作成してください

ヒント

横棒グラフにするには orientation="h" を指定します
横棒グラフでは x と y の指定が縦棒グラフと逆になります
例：px.bar(..., orientation="h") でアニメ各話数が20未満の作品

基礎問題2：掲載特性の散布図行列#

関連セクション: 散布図行列

本文では、マンガ作品の掲載特性を「平均掲載位置」「平均ページ数」「カラー獲得率」「連載開始日」の 4変数 で散布図行列にしました。ここでは、「連載開始日」を除いた 3変数 で散布図行列を作成してみましょう。

df_ce_ac を用いて、本文と同様にマンガ作品ごとの最初の8話分の掲載特性を集計してください
px.scatter_matrix() を用いて、「平均掲載位置」「平均ページ数」「カラー獲得率」の 3変数 で散布図行列を作成してください
アニメ化有無（is_animated）で色分けしてください

ヒント

dimensions 引数に表示したい変数名のリストを指定します
例：px.scatter_matrix(..., dimensions=["変数A", "変数B"]) で2変数のみ表示

標準問題3：週刊少年サンデーのアニメ化推移#

関連セクション: 積上げ密度プロット

本文では、4つの雑誌すべてを対象に、連載開始年ごとのアニメ化作品数の推移を積上げ密度プロットで可視化しました。ここでは、週刊少年サンデー に絞り込んで同様の可視化を行ってみましょう。

df_ce_ac から 週刊少年サンデー のデータのみをフィルタリングしてください
連載開始年（first_date_cc の年）とアニメ化有無でグループ化し、マンガ作品数を集計してください
px.area() を用いて積上げ密度プロットを作成してください

ヒント

雑誌名でフィルタリングするには df[df["mcname"] == "週刊少年サンデー"] のようにします
例：df[df["platform"] == "Switch"] でSwitchプラットフォームのみに絞り込み

標準問題4：変数配置を変えたバブルチャート#

関連セクション: バブルチャート

本文では、マンガ作品の掲載特性をバブルチャートで可視化しました。その際、以下のように変数を配置しました：

x軸：平均掲載位置
y軸：平均ページ数
size：カラー獲得率

ここでは、変数の配置を変えて、カラー獲得率をx軸に、平均掲載位置をsizeに 設定したバブルチャートを作成してみましょう。

問題2と同様に、df_ce_ac から掲載特性のデータを準備してください
px.scatter() を用いて、以下の配置でバブルチャートを作成してください：
- x軸：カラー獲得率
- y軸：平均ページ数
- size：平均掲載位置

ヒント

バブルチャートは px.scatter() に size 引数を追加することで作成できます
例：px.scatter(..., size="売上") で売上を円のサイズに反映

応用問題5：アニメ化までのリードタイム#

関連セクション: ヒストグラム

マンガ作品が連載を開始してから、アニメが放送されるまでにどれくらいの期間（インターバル）があるかを可視化しましょう。

第6章で学んだ「分布を見るための手法」と「ファセット」を活用してください。

読み込んだ df_ac_cc を主軸とし、マンガの連載開始日（first_date）とアニメの放送開始日（first_date）をそれぞれ結合して一つのデータフレームを作成してください
「アニメ放送開始日 - マンガ連載開始日」を計算し、経過年数を算出してください
マンガ雑誌（mcname）ごとに、この経過日数の分布をヒストグラムで可視化してください
可視化に際しては、雑誌ごとの傾向の違いが比較しやすいよう、ファセット機能を利用してください

ヒント

データの結合には pd.merge() を使用します
日付の差分は .dt.days で日数に変換できます
ヒストグラムには px.histogram() を使用します
ファセットは facet_col 引数で指定できます

応用問題6：アニメ各話数における原作区分の推移#

関連セクション: 積上げ密度プロット

1990年以降の全アニメ作品の各話数に対して、「四大少年誌を原作とするアニメ」が占める割合がどのように推移してきたかを可視化しましょう。

アニメ産業の規模の変化と、その中での四大少年誌の影響力を同時に確認するために、以下の2つの図を作成してください。

絶対数の推移: 年度ごとのアニメ総話数を、原作の区分（「四大少年誌」または「その他」）で積み上げた積上げ密度プロット（エリアチャート）
割合の推移: 年度ごとの総話数を1（100%）とした時の、各区分の構成比を示した積上げ密度プロット（エリアチャート）

ヒント

アニメ各話データ（df_ae）とメディア展開対応表（df_ac_cc）を統合して利用します
df_ac_cc に含まれる acid はすべて四大少年誌原作の作品です
可視化には px.area() を使用します
引数として groupnorm='fraction' を用いると、別途DataFrameを集計することなく構成比の可視化が可能になります

応用問題7：マンガ作品名とアニメ作品名の類似度#

関連セクション: 箱ひげ図

マンガ作品がアニメ化される際、作品名がそのまま使われることもあれば、サブタイトルが追加されたり、全く異なる名称に変更されることもあります。この「作品名の類似度」は、メディア展開の戦略を反映している可能性があります。

本書で学んだ difflib.SequenceMatcher を用いて、マンガ作品名（ccname）とアニメ作品名（acname）の類似度を計算し、その分布を雑誌ごとに比較してみましょう。

df_ac_cc を主軸として、マンガ作品名（ccname）とアニメ作品名（acname）を結合してください。雑誌名（mcname）も含めてください
difflib.SequenceMatcher の ratio() メソッドを用いて、各行の ccname と acname の類似度（0〜1）を計算してください
雑誌ごとの類似度の分布を 箱ひげ図 で可視化してください

ヒント

difflib.SequenceMatcher(None, str1, str2).ratio() で2つの文字列の類似度が得られます
箱ひげ図には px.box() を使用します
apply() メソッドで各行に関数を適用できます

応用問題8：マンガ話数とアニメ話数の関係#

関連セクション: 散布図

マンガ作品の連載話数とアニメ作品の放送話数には、どのような関係があるでしょうか？直感的には「マンガの話数が多いほど、アニメの話数も多くなる」と予想されますが、実際のデータはこの仮説を支持するでしょうか。

df_ac_cc で紐づけられたマンガ作品とアニメ作品について、それぞれの話数の関係を散布図で可視化してみましょう。

df_ac_cc を主軸として、マンガ作品の話数（n_ce）とアニメ作品の話数（n_ae）を結合してください。作品名と放送開始日も含めてください
アニメの放送開始日から「放送年」を抽出してください
マンガ話数をX軸、アニメ話数をY軸とした散布図を作成し、放送年で色分けしてください
ホバー時にマンガ作品名とアニメ作品名が確認できるようにしてください

ヒント

散布図には px.scatter() を使用します
ホバー情報は hover_data 引数で指定できます
重複が多い場合は update_traces() でマーカーの透明度やサイズを調整すると見やすくなります

下巻 第6章 練習問題

Contents

下巻 第6章 練習問題#

前提#

基礎 問題1：マンガ作者別のアニメ放送話数#

基礎 問題2：掲載特性の散布図行列#

標準 問題3：週刊少年サンデーのアニメ化推移#

標準 問題4：変数配置を変えたバブルチャート#

応用 問題5：アニメ化までのリードタイム#

応用 問題6：アニメ各話数における原作区分の推移#

応用 問題7：マンガ作品名とアニメ作品名の類似度#

応用 問題8：マンガ話数とアニメ話数の関係#