連結散布図

連結散布図#

準備#

Import#

変数#

関数#

Show code cell content Hide code cell content

def upsample_yearly_data(df: pd.DataFrame, col: str = None) -> pd.DataFrame:
    """
    指定されたDataFrameに対して年、オプションで指定されたカラム(col)の
    アップサンプリングを行い、存在しないデータを0で埋めたDataFrameを返す

    Parameters
    ----------
    df : pd.DataFrame
        アップサンプリングを行いたいDataFrame；'year'、オプションでcolのカラムを含むこと
    col : str, optional
        アップサンプリングに含める追加のカラム名

    Returns
    -------
    pd.DataFrame
        アップサンプリングされたDataFrame；存在しないデータは0で埋められる

    """
    # 最古と最新の年を特定する
    y_min, y_max = df["year"].min(), df["year"].max()

    # 指定された範囲の全ての年、オプションでcolの組み合わせを生成する
    if col and col in df.columns:
        # col列のユニークな要素を全て取得し、valsとして保存
        vals = df[col].unique()
        # year列, quarter列, col列の全ての組合せを保持するDataFrame
        df_all = pd.DataFrame(
            [(y, c) for y in range(y_min, y_max + 1) for c in vals],
            columns=["year", col],
        )
        # dfとマージする際に利用する列一覧
        cols_merge = ["year", col]
    else:
        # year列の全ての組合せを保持するDataFrame
        df_all = pd.DataFrame([y for y in range(y_min, y_max + 1)], columns=["year"])
        # dfとマージする際に利用する列一覧
        cols_merge = ["year"]

    # 元のDataFrameと組み合わせたDataFrameを作成し、存在しないデータは0で埋める
    df_new = df_all.merge(df, on=cols_merge, how="left").fillna(0)

    # cols_merge以外を整数型に変換（fillnaにより浮動小数点型になっているため）
    cols_fillna = [c for c in df_new.columns if c not in cols_merge]
    for c in cols_fillna:
        df_new[c] = df_new[c].astype(int)

    return df_new

可視化例#

マンガデータ#

Show code cell content Hide code cell content

# 可視化対象のDataFrameを確認
df_cm.head()

	発売年	平均マンガ作品数	平均ページ数	平均価格
0	1970	13.965116	282.569767	83.023256
1	1971	13.401961	283.029412	87.339901
2	1972	13.323529	285.960784	95.392157
3	1973	13.818627	295.328431	101.911765
4	1974	11.964824	238.608040	128.592965

Show code cell content Hide code cell content

# 可視化対象のDataFrameを確認
df_cm2.head()

	発売年	マンガ雑誌名	平均マンガ作品数	平均ページ数	平均価格
0	1970	週刊少年サンデー	12.333333	284.190476	84.285714
1	1970	週刊少年ジャンプ	14.863636	286.590909	82.727273
2	1970	週刊少年チャンピオン	17.590909	285.272727	82.727273
3	1970	週刊少年マガジン	10.857143	273.904762	82.380952
4	1971	週刊少年サンデー	12.411765	281.666667	86.274510

アニメデータ#

Show code cell content Hide code cell content

# 可視化対象のDataFrameを確認
df_an.head()

	放送年	アニメ作品数	アニメ各話数
0	1990	17	350
1	1991	52	1749
2	1992	64	1944
3	1993	54	1741
4	1994	59	1919

ゲームデータ#

Show code cell content Hide code cell content

# 可視化対象のDataFrameを確認
df_gm.head()

	発売年	ゲームパッケージ数	ゲームパブリッシャー数	ゲームプラットフォーム数
0	1982	12	2	1
1	1983	11	4	2
2	1984	30	12	5
3	1985	59	34	7
4	1986	57	31	5

Show code cell content Hide code cell content

# 可視化対象のDataFrameを表示
df_gm2.head()

	発売年	ゲームプラットフォーム名	ゲームパッケージ数	ゲームパブリッシャー数	メーカー名
0	1983	ファミリーコンピュータ	7	1	任天堂
1	1983	SC-3000	0	0	セガ
2	1983	SG-1000	0	0	セガ
3	1983	SEGAマーク3	0	0	セガ
4	1983	セガ・マスターシステム	0	0	セガ

Show code cell content Hide code cell content

# 可視化対象のDataFrameを表示
df_gm2_sony.head()

	発売年	ゲームプラットフォーム名	メーカー名
0	1983	プレイステーション	ソニー
1	1983	プレイステーション2	ソニー
2	1983	プレイステーション・ポータブル	ソニー
3	1983	ゲームアーカイブス	ソニー
4	1983	プレイステーション3	ソニー

連結散布図

Contents

連結散布図#

準備#

Import#

変数#

関数#

可視化例#

マンガデータ#

アニメデータ#

ゲームデータ#