メディア展開データの分布を見る

Contents

メディア展開データの分布を見る#

準備#

Import#

変数#

関数#

Show code cell content Hide code cell content

def create_distplot(
    df: pd.DataFrame,
    x: str,
    color: str = None,
    show_hist: bool = False,
    show_rug: bool = False,
    **kwargs: Any
) -> Figure:
    """
    データフレームから密度プロットとヒストグラムを作成する

    Parameters
    ----------
    df : pd.DataFrame
        プロットするデータを含むデータフレーム
    x : str
        密度プロットの描画対象とするカラム名
    color : str, optional
        データを分割する基準とするカラム名、指定しない場合はx列の全データを用いる
    show_hist : bool, optional
        ヒストグラムを表示するか否か、デフォルトはFalse
    show_rug : bool, optional
        ラグプロットを表示するか否か、デフォルトはFalse
    **kwargs
        ff.create_distplotに渡すその他のキーワード引数

    Returns
    -------
    Figure
        作成されたプロットのFigureオブジェクト
    """

    if color:
        # colorカラムの値でデータをグループ分け
        grouped = df.groupby(color)

        # 各グループのxカラムのデータをリストに格納、可視化用に逆順に並び替え
        hist_data = [group[x].values for _, group in grouped][::-1]

        # 各グループの名前（colorカラムの値）をラベルとしてリストに格納、可視化用に逆順に並び替え
        labels = [str(name) for name, _ in grouped][::-1]

        # 密度プロットとヒストグラムを作成
        fig = ff.create_distplot(
            hist_data, labels, show_hist=show_hist, show_rug=show_rug, **kwargs
        )
    else:
        # colorが指定されていない場合はx列の全データを用いる
        hist_data = [df[x].values]

        # 密度プロットを作成（ラベルはxを指定）
        fig = ff.create_distplot(
            hist_data,
            group_labels=[x],
            show_hist=show_hist,
            show_rug=show_rug,
            **kwargs
        )

    # x軸のタイトルをxに変更
    fig.update_xaxes(title=x)

    # y軸のタイトルを"確率密度"に変更
    fig.update_yaxes(title="確率密度")

    # 作成されたプロットを返す
    return fig

可視化例#

ヒストグラム#

Show code cell content Hide code cell content

# 可視化対象のDataFrameを確認
df_hist.head()

	マンガ作品ID	マンガ各話ID	掲載日	掲載位置	アニメ化	マンガ雑誌名
0	C109295	CE71082	1980-08-18	0.015291	False	週刊少年ジャンプ
1	C109295	CE71068	1980-08-25	0.198777	False	週刊少年ジャンプ
2	C109295	CE71051	1980-09-01	0.266055	False	週刊少年ジャンプ
3	C109295	CE71038	1980-09-08	0.394495	False	週刊少年ジャンプ
4	C109295	CE71019	1980-09-15	0.266055	False	週刊少年ジャンプ

Show code cell content Hide code cell content

# 可視化対象のDataFrameを確認
df_hist2.head()

	マンガ作品ID	マンガ各話ID	掲載日	掲載位置	アニメ化	マンガ雑誌名
0	C110892	CE177364	2014-08-04	0.006000	False	週刊少年ジャンプ
1	C110892	CE177390	2014-08-11	0.180162	False	週刊少年ジャンプ
2	C110892	CE177415	2014-08-18	0.331301	False	週刊少年ジャンプ
3	C110892	CE177435	2014-09-01	0.234000	False	週刊少年ジャンプ
4	C110892	CE177471	2014-09-08	0.696429	False	週刊少年ジャンプ

密度プロット#

箱ひげ図#

バイオリンプロット#

Show code cell source Hide code cell source

# 空のFigureオブジェクトを作成
fig = go.Figure()

# アニメ化されていない作品（アニメ化=False）のバイオリンプロットを追加
# 'マンガ雑誌名'をx軸に、'掲載位置'をy軸に設定し、左側（negative side）にプロット
fig.add_trace(
    go.Violin(
        x=df_vio[~df_vio["アニメ化"]]["マンガ雑誌名"],
        y=df_vio[~df_vio["アニメ化"]]["掲載位置"],
        legendgroup="False",  # 凡例のグループを設定
        scalegroup="False",  # スケールグループを設定
        name="False",  # 凡例の名前
        side="negative",  # プロットの側面を指定
        line_color=OKABE_ITO[0],  # 線の色を指定
    )
)

# アニメ化された作品（アニメ化=True）のバイオリンプロットを追加
# 'マンガ雑誌名'をx軸に、'掲載位置'をy軸に設定し、右側（positive side）にプロット
fig.add_trace(
    go.Violin(
        x=df_vio[df_vio["アニメ化"]]["マンガ雑誌名"],
        y=df_vio[df_vio["アニメ化"]]["掲載位置"],
        legendgroup="True",  # 凡例のグループを設定
        scalegroup="True",  # スケールグループを設定
        name="True",  # 凡例の名前
        side="positive",  # プロットの側面を指定
        line_color=OKABE_ITO[1],  # 線の色を指定
    )
)

# バイオリンプロットの設定を更新
# 平均線を表示し、バイオリンの幅をデータの個数に応じてスケーリング
fig.update_traces(meanline_visible=True, scalemode="count")

# レイアウトを更新してバイオリンの間隔、オーバーレイモードを設定し、凡例のタイトルを追加
fig.update_layout(violingap=0, violinmode="overlay", legend={"title": "アニメ化"})

# x軸とy軸のタイトルを更新し、x軸の範囲を設定
fig.update_xaxes(title="マンガ雑誌名", range=[-0.5, 3.5])
fig.update_yaxes(title="掲載位置")

# 作成した図を表示
show_fig(fig)

リッジラインプロット#

Show code cell content Hide code cell content

# 可視化対象のDataFrameを確認
df_ridge.head()

	マンガ作品ID	マンガ各話ID	掲載日	掲載位置	アニメ化	マンガ雑誌名	話数
0	C110892	CE177364	2014-08-04	0.006000	False	週刊少年ジャンプ	1
1	C110892	CE177390	2014-08-11	0.180162	False	週刊少年ジャンプ	2
2	C110892	CE177415	2014-08-18	0.331301	False	週刊少年ジャンプ	3
3	C110892	CE177435	2014-09-01	0.234000	False	週刊少年ジャンプ	4
4	C110892	CE177471	2014-09-08	0.696429	False	週刊少年ジャンプ	5