マンガデータの分布を見る

マンガデータの分布を見る#

準備#

Import#

変数#

関数#

Show code cell content Hide code cell content

def create_distplot(
    df: pd.DataFrame,
    x: str,
    color: str = None,
    show_hist: bool = False,
    show_rug: bool = False,
    **kwargs: Any
) -> Figure:
    """
    データフレームから密度プロットとヒストグラムを作成する

    Parameters
    ----------
    df : pd.DataFrame
        プロットするデータを含むデータフレーム
    x : str
        密度プロットの描画対象とするカラム名
    color : str, optional
        データを分割する基準とするカラム名、指定しない場合はx列の全データを用いる
    show_hist : bool, optional
        ヒストグラムを表示するか否か、デフォルトはFalse
    show_rug : bool, optional
        ラグプロットを表示するか否か、デフォルトはFalse
    **kwargs
        ff.create_distplotに渡すその他のキーワード引数

    Returns
    -------
    Figure
        作成されたプロットのFigureオブジェクト
    """

    if color:
        # colorカラムの値でデータをグループ分け
        grouped = df.groupby(color)

        # 各グループのxカラムのデータをリストに格納、可視化用に逆順に並び替え
        hist_data = [group[x].values for _, group in grouped][::-1]

        # 各グループの名前（colorカラムの値）をラベルとしてリストに格納、可視化用に逆順に並び替え
        labels = [str(name) for name, _ in grouped][::-1]

        # 密度プロットとヒストグラムを作成
        fig = ff.create_distplot(
            hist_data, labels, show_hist=show_hist, show_rug=show_rug, **kwargs
        )
    else:
        # colorが指定されていない場合はx列の全データを用いる
        hist_data = [df[x].values]

        # 密度プロットを作成（ラベルはxを指定）
        fig = ff.create_distplot(
            hist_data,
            group_labels=[x],
            show_hist=show_hist,
            show_rug=show_rug,
            **kwargs
        )

    # x軸のタイトルをxに変更
    fig.update_xaxes(title=x)

    # y軸のタイトルを"確率密度"に変更
    fig.update_yaxes(title="確率密度")

    # 作成されたプロットを返す
    return fig

Show code cell content Hide code cell content

def create_split_violin_plot(
    df: pd.DataFrame, x: str, y: str, split: str, **kwargs
) -> Figure:
    """
    DataFrameからsplit violin plotを作成する関数

    Parameters
    ----------
    df : pandas.DataFrame
        データを含むDataFrame
    x : str
        X軸に使用するカラム名
    y : str
        Y軸に使用するカラム名
    split : str
        バイオリンを分割する際に使用するカラム名、ブール値である必要がある
    **kwargs : dict
        go.Violinに渡す追加のキーワード引数


    Returns
    -------
    fig : plotly.graph_objects.Figure
        生成されたバイオリンプロットの図
    """

    # 新しい図オブジェクトを作成
    fig = go.Figure()

    # Trueのデータでバイオリンプロットを作成
    # ここでX軸とY軸にデータを割り当て、プロットの色やスタイルを設定
    fig.add_trace(
        go.Violin(
            x=df[x][df[split]],
            y=df[y][df[split]],
            legendgroup="True",  # 凡例グループを設定
            scalegroup="True",  # スケールグループを設定
            name="True",  # 凡例名を設定
            side="negative",  # バイオリンの配置を左側に設定
            line_color="blue",  # ラインの色を青に設定
            points=False,  # ポイントを表示しないように設定
            **kwargs
        )
    )

    # Falseのデータでバイオリンプロットを作成
    # Trueのときと同様にデータを割り当て、プロットの色やスタイルを設定
    fig.add_trace(
        go.Violin(
            x=df[x][~df[split]],
            y=df[y][~df[split]],
            legendgroup="False",  # 凡例グループを設定
            scalegroup="False",  # スケールグループを設定
            name="False",  # 凡例名を設定
            side="positive",  # バイオリンの配置を右側に設定
            line_color="orange",  # ラインの色をオレンジに設定
            points=False,  # ポイントを表示しないように設定
            **kwargs
        )
    )

    # プロットのスケールモードを"count"に設定し、中央値の線を表示
    fig.update_traces(scalemode="count", meanline_visible=True)

    # 図のレイアウトを更新
    # 軸のタイトルと凡例のタイトルを設定し、バイオリン間のギャップとモードを設定
    fig.update_layout(
        xaxis_title=x,  # X軸のタイトルを設定
        yaxis_title=y,  # Y軸のタイトルを設定
        legend_title=split,  # 凡例のタイトルを設定
        violingap=0,  # バイオリン間のギャップを0に設定
        violinmode="overlay",  # バイオリンモードを"overlay"に設定
    )

    return fig

可視化例#

ヒストグラム#

Show code cell content Hide code cell content

# 可視化対象のDataFrameを確認
df_hist.head()

	掲載位置	ceid	ccid	mcname	date
0	0.051724	CE117459	C94272	週刊少年チャンピオン	1970-07-27
1	0.165517	CE117460	C94289	週刊少年チャンピオン	1970-07-27
2	0.231034	CE117461	C94447	週刊少年チャンピオン	1970-07-27
3	0.296552	CE117462	C94949	週刊少年チャンピオン	1970-07-27
4	0.451724	CE117466	C95858	週刊少年チャンピオン	1970-07-27

Show code cell content Hide code cell content

# 可視化対象のDataFrameを確認
df_hist2.head()

	掲載位置	ceid	ccid	mcname	date	グループ名
0	0.373239	CE155567	C93019	週刊少年サンデー	1970-08-02	第1群（合計話数：8-16話）
1	0.029316	CE155551	C93060	週刊少年サンデー	1970-08-09	第1群（合計話数：8-16話）
2	0.224756	CE155554	C92231	週刊少年サンデー	1970-08-09	第1群（合計話数：8-16話）
3	0.801303	CE155560	C93019	週刊少年サンデー	1970-08-09	第1群（合計話数：8-16話）
4	0.200637	CE155541	C93060	週刊少年サンデー	1970-08-16	第1群（合計話数：8-16話）

Show code cell content Hide code cell content

# グループ名ごとの、ccnameとceidのユニーク数を集計
df_hist2.groupby(["グループ名"]).agg(
    マンガ作品数=("ccid", "nunique"), マンガ各話数=("ceid", "nunique")
).reset_index()

	グループ名	マンガ作品数	マンガ各話数
0	第1群（合計話数：8-16話）	559	4472
1	第2群（合計話数：17-31話）	566	4528
2	第3群（合計話数：32-81話）	594	4752
3	第4群（合計話数：82-1956話）	584	4672

Show code cell content Hide code cell content

# 例として、最新の週刊少年ジャンプに掲載されている作品を表示
df_ce[df_ce["miid"] == mcname2miid_latest["週刊少年ジャンプ"]][
    ["date", "ccname", "cename", "page_start_position"]
]

	date	ccname	cename	page_start_position
170928	2017-07-31	ONE PIECE	第872話とろふわ	0.006237
170929	2017-07-31	祝!ONE PIECE 20周年!!尾田さんとの思い出漫画! by しまぶー.	NaN	0.126819
170930	2017-07-31	ONE PIECE PARTY	CONGRATULATIONS ON 20 INCREDIBLE YEARS!!	0.160083
170931	2017-07-31	僕のヒーローアカデミア	No.145 烈怒頼雄斗 2	0.180873
170932	2017-07-31	約束のネバーランド	第47話昔話	0.222453
170933	2017-07-31	食戟のソーマ	223 フィールドを超えて	0.268191
170934	2017-07-31	Dr.STONE	Z=19 200万年の在処	0.309771
170935	2017-07-31	銀魂	第643訓血と涙	0.351351
170936	2017-07-31	ブラッククローバー	ページ 117 二人の空間魔法使い	0.388773
170937	2017-07-31	ROBOT×LASERBEAM	17th round 強敵	0.426195
170938	2017-07-31	鬼滅の刃	第70話人攫い	0.467775
170939	2017-07-31	クロスアカウント	#5 噂×嘘	0.509356
170940	2017-07-31	斉木楠雄のΨ難	第252χ 自慢の粘土Ψ工を披露しよう	0.550936
170941	2017-07-31	ハイキュー!!	第262話いつだって前のめり	0.584200
170942	2017-07-31	ゆらぎ荘の幽奈さん	71 ラブラブバイト大作戦	0.679834
170943	2017-07-31	シューダン!	6 奮起する浜西	0.721414
170944	2017-07-31	ぼくたちは勉強ができない	問23. 天才たちの花園に[x]は不可欠である	0.762994
170945	2017-07-31	火ノ丸相撲	第153番未来	0.804574
170946	2017-07-31	青春兵器ナンバーワン	mission 37: ROMANCE DAWN	0.846154
170947	2017-07-31	HUNTER×HUNTER	No.364 思惑	0.879418
170948	2017-07-31	腹ペコのマリー	ペコ 20 恋するファッションショー	0.920998
170949	2017-07-31	磯部磯兵衛物語～浮世はつらいよ～	第244話拙者には娘さんが…で候	0.979210

密度プロット#

Show code cell content Hide code cell content

# 可視化対象のDataFrameを確認
df_dist.head()

	掲載位置	ceid	ccid	mcname	date	グループ名
0	0.373239	CE155567	C93019	週刊少年サンデー	1970-08-02	第1群（合計話数：8-16話）
1	0.029316	CE155551	C93060	週刊少年サンデー	1970-08-09	第1群（合計話数：8-16話）
2	0.224756	CE155554	C92231	週刊少年サンデー	1970-08-09	第1群（合計話数：8-16話）
3	0.801303	CE155560	C93019	週刊少年サンデー	1970-08-09	第1群（合計話数：8-16話）
4	0.200637	CE155541	C93060	週刊少年サンデー	1970-08-16	第1群（合計話数：8-16話）

箱ひげ図#

Show code cell content Hide code cell content

# 可視化対象のDataFrameを確認
df_box.head()

	マンガ作品名	掲載位置	ceid	date
0	ドカベン	0.213768	CE113217	1976-07-19
1	ドカベン	0.141304	CE112518	1977-07-11
2	ドカベン	0.097473	CE112532	1977-07-04
3	ドカベン	0.141304	CE112548	1977-06-27
4	ドカベン	0.010830	CE112561	1977-06-20

Show code cell content Hide code cell content

# '名探偵コナン'というタイトルのマンガに関連するデータをdf_ceから抽出
# そのデータを 'page_start_position'（掲載位置の開始点）に基づいて降順にソート
# ソートされたデータから、特定のカラムのみを選択し、上位10行のみを表示
df_ce[df_ce["ccname"] == "名探偵コナン"].sort_values(
    "page_start_position", ascending=False
)[["miname", "cename", "page_start_position", "pages"]].head(10)

	miname	cename	page_start_position	pages
152328	週刊少年サンデー 2011年表示号数32	FILE 783 菱形と菱形	0.801402	16.0
163865	週刊少年サンデー 2015年表示号数29	REVIVAL FILE 06 黎明(SSC55巻より)	0.761411	16.0
152261	週刊少年サンデー 2011年表示号数29	FILE 780 魔法の料理	0.750000	16.0
152928	週刊少年サンデー 2012年表示号数9	FILE 805 ワタル・ブラザーズ	0.748826	16.0
163695	週刊少年サンデー 2015年表示号数22	REVIVAL FILE 04 終極(SSC16巻より)	0.721591	18.0
155282	週刊少年サンデー 2014年表示号数8	FILE 885 凧揚げ大会	0.720085	16.0
154799	週刊少年サンデー 2013年表示号数39	FILE 870 願いが叶った時に…	0.720085	16.0
163667	週刊少年サンデー 2015年表示号数21	REVIVAL FILE 03 気配(SSC16巻より)	0.717308	16.0
154928	週刊少年サンデー 2013年表示号数44	FILE 874 赤き昔日	0.714592	16.0
152677	週刊少年サンデー 2011年表示号数49	FILE 795 炎へと回帰する運	0.713992	16.0

Show code cell content Hide code cell content

# df_ceから 'cename'（各話名）に 'REVIVAL FILE' が含まれる行を抽出
# 抽出されたデータから特定のカラムのみを選択
df_ce[df_ce["cename"].str.contains("REVIVAL FILE") > 0][
    ["miname", "ccname", "cename", "page_start_position"]
]

	miname	ccname	cename	page_start_position
163600	週刊少年サンデー 2015年表示号数19	名探偵コナン	REVIVAL FILE 01 邂逅(SSC16巻より)	0.449187
163627	週刊少年サンデー 2015年表示号数20	名探偵コナン	REVIVAL FILE 02 消滅(SSC16巻より)	0.439271
163667	週刊少年サンデー 2015年表示号数21	名探偵コナン	REVIVAL FILE 03 気配(SSC16巻より)	0.717308
163695	週刊少年サンデー 2015年表示号数22	名探偵コナン	REVIVAL FILE 04 終極(SSC16巻より)	0.721591
163828	週刊少年サンデー 2015年表示号数28	名探偵コナン	REVIVAL FILE 05 月下(SSC55巻より)	0.469262
163865	週刊少年サンデー 2015年表示号数29	名探偵コナン	REVIVAL FILE 06 黎明(SSC55巻より)	0.761411
163890	週刊少年サンデー 2015年表示号数30	名探偵コナン	REVIVAL FILE 07 白昼(SSC55巻より)	0.697154
163919	週刊少年サンデー 2015年表示号数31	名探偵コナン	REVIVAL FILE 08 落日(SSC55巻より)	0.656379

バイオリンプロット#

Show code cell content Hide code cell content

# 可視化対象のDataFrameを確認
df_violin.head()

	マンガ作品名	掲載位置	ceid	date
0	ドカベン	0.213768	CE113217	1976-07-19
1	ドカベン	0.141304	CE112518	1977-07-11
2	ドカベン	0.097473	CE112532	1977-07-04
3	ドカベン	0.141304	CE112548	1977-06-27
4	ドカベン	0.010830	CE112561	1977-06-20

Show code cell content Hide code cell content

# 可視化対象のDataFrameを確認
df_violin2.head()

	マンガ作品名	掲載位置	ceid	date	half_count	ceno	連載前半
0	ドカベン	0.008451	CE116042	1972-04-24	317.5	0	True
1	ドカベン	0.188406	CE116029	1972-05-01	317.5	1	True
2	ドカベン	0.119565	CE116013	1972-05-08	317.5	2	True
3	ドカベン	0.113333	CE115997	1972-05-15	317.5	3	True
4	ドカベン	0.094156	CE115981	1972-05-22	317.5	4	True

リッジラインプロット#

Show code cell content Hide code cell content

# 可視化対象のDataFrameを確認
df_ridge.head()

	掲載位置	ceid	ccid	mcname	date	グループ名	話数
0	0.015291	CE71082	C109295	週刊少年ジャンプ	1980-08-18	第1群（合計話数：8-16話）	1
1	0.198777	CE71068	C109295	週刊少年ジャンプ	1980-08-25	第1群（合計話数：8-16話）	2
2	0.266055	CE71051	C109295	週刊少年ジャンプ	1980-09-01	第1群（合計話数：8-16話）	3
3	0.394495	CE71038	C109295	週刊少年ジャンプ	1980-09-08	第1群（合計話数：8-16話）	4
4	0.266055	CE71019	C109295	週刊少年ジャンプ	1980-09-15	第1群（合計話数：8-16話）	5

Show code cell content Hide code cell content

# 可視化対象のDataFrameを確認
df_ridge_jump.head()

	掲載位置	ceid	ccid	mcname	date	グループ名	話数
0	0.015291	CE71082	C109295	週刊少年ジャンプ	1980-08-18	第1群（合計話数：8-16話）	1
1	0.629393	CE74085	C89161	週刊少年ジャンプ	1976-08-16	第1群（合計話数：8-16話）	8
2	0.808307	CE74103	C89161	週刊少年ジャンプ	1976-08-09	第1群（合計話数：8-16話）	7
3	0.565495	CE74115	C89161	週刊少年ジャンプ	1976-08-02	第1群（合計話数：8-16話）	6
4	0.719870	CE74134	C89161	週刊少年ジャンプ	1976-07-26	第1群（合計話数：8-16話）	5

マンガデータの分布を見る

Contents

マンガデータの分布を見る#

準備#

Import#

変数#

関数#

可視化例#

ヒストグラム#

密度プロット#

箱ひげ図#

バイオリンプロット#

リッジラインプロット#