上巻第4章練習問題

上巻第4章練習問題#

ここでは、 本書の学習内容の定着 を目的とした練習問題を掲載します。解答・解説は「解答例」ページを参照してください。なお、問題の性質上、本書で取り上げた処理と重複することがあります。ご了承ください。

前提#

以下のように、ライブラリのインポートと変数の定義が完了していることを前提とします。

また、本書中で取り上げた以下の関数も、同様に利用可能とします。

以下のようにファイルを読み込んでいると仮定します。

基礎問題1：合計話数上位10作品#

関連セクション: マンガデータの量を見る

本書で紹介したマンガ作品の合計話数ランキングを復習しましょう。合計話数が多い上位10作品を横棒グラフで可視化してください。

ヒント

マンガ作品名（ccname）ごとにユニークな各話ID（ceid）の数をカウントします
sort_values() で降順にソートし、head() で上位を抽出します
横棒グラフは px.bar() で orientation="h" を指定します

基礎問題2：ページ数の分布#

関連セクション: マンガデータの分布を見る

マンガ各話のページ数がどのように分布しているかを確認しましょう。 df_ceのページ数（pages）のヒストグラムを、ビン数30で作成してください。

ヒント

ヒストグラムは px.histogram() で作成します
ビン数は nbins 引数で指定できます（例: nbins=30）

標準問題3：週刊少年ジャンプの合計話数上位作品#

関連セクション: マンガデータの量を見る

特定の雑誌に絞って分析することで、雑誌ごとの特徴が見えてきます。週刊少年ジャンプ（mcnameが「週刊少年ジャンプ」）のみに絞り、合計話数上位10作品を横棒グラフで可視化してください。

ヒント

まず df_ce[df_ce["mcname"] == "週刊少年ジャンプ"] でデータを絞り込みます
絞り込んだデータに対して、問題1と同様の集計・可視化を行います

標準問題4：4色カラー各話のページ数分布#

関連セクション: マンガデータの分布を見る

4色カラーで掲載された各話は、通常のモノクロ掲載とはページ数が異なる可能性があります。 four_coloredがTrueの各話のみに絞り、ページ数のヒストグラムを作成してください。

ヒント

df_ce[df_ce["four_colored"]] でカラー各話のみを抽出できます
抽出したデータに対して px.histogram() でヒストグラムを作成します

発展問題5：マンガ作者別の合計ページ数#

関連セクション: マンガデータの量を見る

マンガ作者[1]がその生涯で「何ページ描いたか」は、その作業量を測る一つの指標となります。ページ数という観点から、マンガ作者の量を可視化してみましょう。

df_ce と df_cc_crt を ccid をキーにマージしてください
各マンガ作者（crtname）ごとの合計ページ数（pages）を集計してください
上位15名を横棒グラフで可視化してください

ヒント

2つのDataFrameの結合には pd.merge() を使用します
横棒グラフは px.bar() で orientation="h" を指定します
ソート後に .head(15) で上位15件を取得できます

発展問題6：合計話数の累積分布#

関連セクション: マンガデータの分布を見る

マンガ業界、とくに週刊少年誌は非常に厳しい世界です。多くの作品が短期間で連載を終える一方で、ごく一部の作品だけが長期連載を勝ち取ります。掲載された作品が、どれくらいの話数まで到達できるのか、その生存競争の過酷さを可視化してみましょう。

df_ce を ccid（マンガ作品ID）でグループ化し、各作品の合計話数を集計してください
集計した合計話数の累積ヒストグラムを作成してください
X軸の範囲を 0 から 200 までに制限してください

ヒント

マンガ作品ごとの話数カウントには .groupby("ccid")["ceid"].nunique() を使用します
累積ヒストグラムは px.histogram() で cumulative=True を指定します
X軸の範囲は .update_xaxes(range=[min, max]) で設定できます

発展問題7：カラー掲載割合の年代別推移#

関連セクション: マンガデータの内訳を見る

時代とともに、マンガ雑誌の「カラー掲載」作品の扱いは変化してきたのでしょうか。各年代（years）の中で、4色カラー各話が占める割合を比較してみましょう。

df_ce に add_years_to_df() 関数で年代情報を追加してください
年代ごとにカラー有無の割合（合計を1.0としたスケーリング）を算出してください
積上げ棒グラフを作成し、配色には OKABE_ITO カラーパレットを使用してください

ヒント

年代とカラー有無で .groupby() してカウント後、割合を計算します
各年代の合計は .transform("sum") で各行に付与できます
積上げ棒グラフは px.bar() で barmode="stack" を指定します

応用問題8：初回ページ数と掲載位置の関係#

関連セクション: マンガデータの関係を見る

新連載がどのような条件でスタートするかは、雑誌ごとの編集戦略の違いを映し出します。 8話以上継続した作品の「第1話」について、掲載位置とページ数の関係を散布図で可視化しましょう。

8話以上継続した作品のIDを抽出し、各作品の第1話のみを取得してください
掲載位置（page_start_position）とページ数（pages）の散布図を作成してください
雑誌別にファセットを分割し、重なりを防いで各雑誌の傾向を詳しく見られるようにしてください

ヒント

作品ごとの話数は .groupby("ccid")["ceid"].nunique() でカウントできます
第1話の抽出は .sort_values(["ccid", "date"]).groupby("ccid").head(1) で実現できます
ファセット分割は px.scatter() の facet_col 引数で指定します

上巻 第4章 練習問題

Contents

上巻 第4章 練習問題#

前提#

基礎 問題1：合計話数上位10作品#

基礎 問題2：ページ数の分布#

標準 問題3：週刊少年ジャンプの合計話数上位作品#

標準 問題4：4色カラー各話のページ数分布#

発展 問題5：マンガ作者別の合計ページ数#

発展 問題6：合計話数の累積分布#

発展 問題7：カラー掲載割合の年代別推移#

応用 問題8：初回ページ数と掲載位置の関係#

上巻第4章練習問題

上巻第4章練習問題#

基礎問題1：合計話数上位10作品#

基礎問題2：ページ数の分布#

標準問題3：週刊少年ジャンプの合計話数上位作品#

標準問題4：4色カラー各話のページ数分布#

発展問題5：マンガ作者別の合計ページ数#

発展問題6：合計話数の累積分布#

発展問題7：カラー掲載割合の年代別推移#

応用問題8：初回ページ数と掲載位置の関係#