上巻第4章解答例

上巻第4章解答例#

ここでは、 本書の学習内容の定着 を目的とした練習問題とその解答・解説を掲載します。なお、問題の性質上、本書で取り上げた処理と重複することがあります。ご了承ください。

前提#

以下のように、ライブラリのインポートと変数の定義が完了していることを前提とします。

また、本書中で取り上げた以下の関数も、同様に利用可能とします。

以下のようにファイルを読み込んでいると仮定します。

基礎問題1：合計話数上位10作品#

関連セクション: マンガデータの量を見る

本書で紹介したマンガ作品の合計話数ランキングを復習しましょう。合計話数が多い上位10作品を横棒グラフで可視化してください。

ヒント

マンガ作品名（ccname）ごとにユニークな各話ID（ceid）の数をカウントします
sort_values() で降順にソートし、head() で上位を抽出します
横棒グラフは px.bar() で orientation="h" を指定します

解説

横棒グラフは、カテゴリごとの量を比較するのに最適な手法です。

groupby() と nunique() を組み合わせることで、各マンガ作品に含まれるユニークな各話数をカウントできます。上位10作品に絞ることで、長期連載作品の傾向がより明確に見えます。

関連セクション: 詳しくはマンガデータの量を見るを参照してください。

基礎問題2：ページ数の分布#

関連セクション: マンガデータの分布を見る

マンガ各話のページ数がどのように分布しているかを確認しましょう。 df_ceのページ数（pages）のヒストグラムを、ビン数30で作成してください。

ヒント

ヒストグラムは px.histogram() で作成します
ビン数は nbins 引数で指定できます（例: nbins=30）

解説

ヒストグラムは、連続値の分布を把握するのに適した手法です。

ビン数（nbins）を調整することで、データの粒度を変えて分布の特徴を観察できます。様々な値に変えて、形状の変化を確認してみましょう。

関連セクション: 詳しくはマンガデータの分布を見るを参照してください。

標準問題3：週刊少年ジャンプの合計話数上位作品#

関連セクション: マンガデータの量を見る

特定の雑誌に絞って分析することで、雑誌ごとの特徴が見えてきます。週刊少年ジャンプ（mcnameが「週刊少年ジャンプ」）のみに絞り、合計話数上位10作品を横棒グラフで可視化してください。

ヒント

まず df_ce[df_ce["mcname"] == "週刊少年ジャンプ"] でデータを絞り込みます
絞り込んだデータに対して、問題1と同様の集計・可視化を行います

解説

ブールインデックスで特定の雑誌に絞り込むことで、雑誌ごとの傾向を分析できます。

週刊少年ジャンプの長期連載作品を見ると、全雑誌を対象とした場合とは異なるランキングが現れます。このように、分析対象を絞ることで、より詳細な知見が得られることがあるのです。

関連セクション: 詳しくはマンガデータの量を見るを参照してください。

標準問題4：4色カラー各話のページ数分布#

関連セクション: マンガデータの分布を見る

4色カラーで掲載された各話は、通常のモノクロ掲載とはページ数が異なる可能性があります。 four_coloredがTrueの各話のみに絞り、ページ数のヒストグラムを作成してください。

ヒント

df_ce[df_ce["four_colored"]] でカラー各話のみを抽出できます
抽出したデータに対して px.histogram() でヒストグラムを作成します

解説

条件による絞り込みを行うことで、特定の属性を持つデータの分布を確認できます。

4色カラー各話のページ数分布を見ると、全体のページ数分布（問題2）とは異なる傾向があるようです。ビン数（nbins）などの条件を揃えて、再度比較してみましょう。分布の違いはどこから来ているか、考えてみると面白いかもしれません。

関連セクション: 詳しくはマンガデータの分布を見るを参照してください。

発展問題5：マンガ作者別の合計ページ数#

関連セクション: マンガデータの量を見る

マンガ作者[1]がその生涯で「何ページ描いたか」は、その作業量を測る一つの指標となります。ページ数という観点から、マンガ作者の量を可視化してみましょう。

df_ce と df_cc_crt を ccid をキーにマージしてください
各マンガ作者（crtname）ごとの合計ページ数（pages）を集計してください
上位15名を横棒グラフで可視化してください

ヒント

2つのDataFrameの結合には pd.merge() を使用します
横棒グラフは px.bar() で orientation="h" を指定します
ソート後に .head(15) で上位15件を取得できます

解説

棒グラフは、質的変数（ここではマンガ作者）に関する量を比較するのに最適な手法です。

今回、話数ではなく ページ数 で集計することで、週刊連載を何十年も維持し続けるトップクリエイターの仕事量を可視化しました。集計単位を工夫することで、ドメイン知識として持っている「巨匠」の凄さを定量的に再確認できます。

関連セクション: 詳しくはマンガデータの量を見るを参照してください。

発展問題6：合計話数の累積分布#

関連セクション: マンガデータの分布を見る

マンガ業界、とくに週刊少年誌は非常に厳しい世界です。多くの作品が短期間で連載を終える一方で、ごく一部の作品だけが長期連載を勝ち取ります。掲載された作品が、どれくらいの話数まで到達できるのか、その生存競争の過酷さを可視化してみましょう。

df_ce を ccid（マンガ作品ID）でグループ化し、各作品の合計話数を集計してください
集計した合計話数の累積ヒストグラムを作成してください
X軸の範囲を 0 から 200 までに制限してください

ヒント

マンガ作品ごとの話数カウントには .groupby("ccid")["ceid"].nunique() を使用します
累積ヒストグラムは px.histogram() で cumulative=True を指定します
X軸の範囲は .update_xaxes(range=[min, max]) で設定できます

解説

累積ヒストグラムを用いることで、特定の「壁」を越えられた作品がどれくらい存在するかを直感的に理解しやすくなります。

グラフの立ち上がりが急であるほど、初期の話数で連載を終える作品が多いことを示しています。 200話に到達する頃には傾きがほぼ平坦になっていることから、連載を継続することがいかに困難か見て取れます。

関連セクション: 詳しくはマンガデータの分布を見るを参照してください。

発展問題7：カラー掲載割合の年代別推移#

関連セクション: マンガデータの内訳を見る

時代とともに、マンガ雑誌の「カラー掲載」作品の扱いは変化してきたのでしょうか。各年代（years）の中で、4色カラー各話が占める割合を比較してみましょう。

df_ce に add_years_to_df() 関数で年代情報を追加してください
年代ごとにカラー有無の割合（合計を1.0としたスケーリング）を算出してください
積上げ棒グラフを作成し、配色には OKABE_ITO カラーパレットを使用してください

ヒント

年代とカラー有無で .groupby() してカウント後、割合を計算します
各年代の合計は .transform("sum") で各行に付与できます
積上げ棒グラフは px.bar() で barmode="stack" を指定します

解説

絶対数ではなく「割合」にスケーリングすることで、掲載総数の変化に左右されず、カラーページの 相対的な重要度 の変遷を公平に比較できます。ただし、分母を揃えると分母の情報（各年代の合計話数）が失われてしまう点には注意が必要です。

結果を見てみると、2000年以降、平均的にカラー各話の割合が増加しているように見えます。印刷コストの低下や電子版普及によるカラー需要の増大といった仮説につなげ、さらなる分析を行ってもみても良いでしょう。

関連セクション: 詳しくはマンガデータの内訳を見るを参照してください。

応用問題8：初回ページ数と掲載位置の関係#

関連セクション: マンガデータの関係を見る

新連載がどのような条件でスタートするかは、雑誌ごとの編集戦略の違いを映し出します。 8話以上継続した作品の「第1話」について、掲載位置とページ数の関係を散布図で可視化しましょう。

8話以上継続した作品のIDを抽出し、各作品の第1話のみを取得してください
掲載位置（page_start_position）とページ数（pages）の散布図を作成してください
雑誌別にファセットを分割し、重なりを防いで各雑誌の傾向を詳しく見られるようにしてください

ヒント

作品ごとの話数は .groupby("ccid")["ceid"].nunique() でカウントできます
第1話の抽出は .sort_values(["ccid", "date"]).groupby("ccid").head(1) で実現できます
ファセット分割は px.scatter() の facet_col 引数で指定します

解説

散布図をファセット（雑誌別）に分割することで、データ点の重なりが解消され、各雑誌固有のパターンがより鮮明になります。

どの雑誌もX軸の左端（巻頭）かつY軸の高い位置（増ページ）に点が密集しており、新連載を強力にプッシュする業界共通の構造が確認できます。一方で、巻頭以外の位置からスタートする例外的な作品の数や、ページ数のばらつき具合には雑誌ごとの違いも見られます。

関連セクション: 詳しくはマンガデータの関係を見るを参照してください。

上巻 第4章 解答例

Contents

上巻 第4章 解答例#

前提#

基礎 問題1：合計話数上位10作品#

基礎 問題2：ページ数の分布#

標準 問題3：週刊少年ジャンプの合計話数上位作品#

標準 問題4：4色カラー各話のページ数分布#

発展 問題5：マンガ作者別の合計ページ数#

発展 問題6：合計話数の累積分布#

発展 問題7：カラー掲載割合の年代別推移#

応用 問題8：初回ページ数と掲載位置の関係#

上巻第4章解答例

上巻第4章解答例#

基礎問題1：合計話数上位10作品#

基礎問題2：ページ数の分布#

標準問題3：週刊少年ジャンプの合計話数上位作品#

標準問題4：4色カラー各話のページ数分布#

発展問題5：マンガ作者別の合計ページ数#

発展問題6：合計話数の累積分布#

発展問題7：カラー掲載割合の年代別推移#

応用問題8：初回ページ数と掲載位置の関係#