密度プロット#
準備#
Import#
Show code cell content
# warningsモジュールのインポート
import warnings
# データ解析や機械学習のライブラリ使用時の警告を非表示にする目的で警告を無視
# 本書の文脈では、可視化の学習に議論を集中させるために選択した
# ただし、学習以外の場面で、警告を無視する設定は推奨しない
warnings.filterwarnings("ignore")
Show code cell content
# pathlibモジュールのインポート
# ファイルシステムのパスを扱う
from pathlib import Path
# typingモジュールからの型ヒント関連のインポート
# 関数やクラスの引数・返り値の型を注釈するためのツール
from typing import Any, Dict, List, Optional, Union
# numpy:数値計算ライブラリのインポート
# npという名前で参照可能
import numpy as np
# pandas:データ解析ライブラリのインポート
# pdという名前で参照可能
import pandas as pd
# plotly.expressのインポート
# インタラクティブなグラフ作成のライブラリ
# pxという名前で参照可能
import plotly.express as px
# plotly.figure_factoryのインポート
# 高度なプロットとデータ可視化のためのユーティリティ
# ffという名前で参照可能
import plotly.figure_factory as ff
# plotly.graph_objectsからFigureクラスのインポート
# 型ヒントの利用を主目的とする
from plotly.graph_objects import Figure
# plotly.subplotsからmake_subplotsのインポート
# 複数のサブプロットを含む複合的な図を作成する際に使用
from plotly.subplots import make_subplots
変数#
Show code cell content
# マンガデータ保存ディレクトリのパス
DIR_CM = Path("../../../data/cm/input")
# アニメデータ保存ディレクトリのパス
DIR_AN = Path("../../../data/an/input")
# ゲームデータ保存ディレクトリのパス
DIR_GM = Path("../../../data/gm/input")
# マンガデータの分析結果の出力先ディレクトリのパス
DIR_OUT_CM = (
DIR_CM.parent / "output" / Path.cwd().parts[-2] / Path.cwd().parts[-1] / "density"
)
# アニメデータの分析結果の出力先ディレクトリのパス
DIR_OUT_AN = (
DIR_AN.parent / "output" / Path.cwd().parts[-2] / Path.cwd().parts[-1] / "density"
)
# ゲームデータの分析結果の出力先ディレクトリのパス
DIR_OUT_GM = (
DIR_GM.parent / "output" / Path.cwd().parts[-2] / Path.cwd().parts[-1] / "density"
)
Show code cell content
# 読み込み対象ファイル名の定義
# Comic Episode関連のファイル名
FN_CE = "cm_ce.csv"
# Anime Episode関連のファイル名
FN_AE = "an_ae.csv"
# PacKaGeとPlatForm関連のファイル名
FN_PKG_PF = "gm_pkg_pf.csv"
Show code cell content
# 可視化に関する設定値の定義
# 可視化対象とするマンガ作品の条件として、最小の各話数を定義
MIN_N_CE = 5
# 可視化対象とするアニメ作品の条件として、最小の各話数を定義
MAX_N_AE = 100
# 可視化対象とするゲームパッケージの条件として、価格の最大値を定義
MAX_PRICE = 10000
Show code cell content
# pandasのweekday関数で取得できる曜日の数値と実際の曜日名を対応させる辞書を定義
# 0:月曜日, 1:火曜日, ... , 6:日曜日
WEEKDAY2YOBI = {
0: "月",
1: "火",
2: "水",
3: "木",
4: "金",
5: "土",
6: "日",
}
Show code cell content
# Okabe and Ito 2008
# https://jfly.uni-koeln.de/color/#pallet
OKABE_ITO = [
"#000000", # 黒 (Black)
"#E69F00", # 橙 (Orange)
"#56B4E9", # 薄青 (Sky Blue)
"#009E73", # 青緑 (Bluish Green)
"#F0E442", # 黄色 (Yellow)
"#0072B2", # 青 (Blue)
"#D55E00", # 赤紫 (Vermilion)
"#CC79A7", # 紫 (Reddish Purple)
]
Show code cell content
# plotlyの描画設定の定義
# plotlyのグラフ描画用レンダラーの定義
# Jupyter Notebook環境のグラフ表示に適切なものを選択
RENDERER = "plotly_mimetype+notebook"
関数#
Show code cell source
def show_fig(fig: Figure) -> None:
"""
所定のレンダラーを用いてplotlyの図を表示
Jupyter Bookなどの環境での正確な表示を目的とする
Parameters
----------
fig : Figure
表示対象のplotly図
Returns
-------
None
"""
# 図の周囲の余白を設定
# t: 上余白
# l: 左余白
# r: 右余白
# b: 下余白
fig.update_layout(margin=dict(t=25, l=25, r=25, b=25))
# 所定のレンダラーで図を表示
fig.show(renderer=RENDERER)
Show code cell content
def create_distplot(
df: pd.DataFrame,
x: str,
color: str = None,
show_hist: bool = False,
show_rug: bool = False,
**kwargs: Any
) -> Figure:
"""
データフレームから密度プロットとヒストグラムを作成する
Parameters
----------
df : pd.DataFrame
プロットするデータを含むデータフレーム
x : str
密度プロットの描画対象とするカラム名
color : str, optional
データを分割する基準とするカラム名、指定しない場合はx列の全データを用いる
show_hist : bool, optional
ヒストグラムを表示するか否か、デフォルトはFalse
show_rug : bool, optional
ラグプロットを表示するか否か、デフォルトはFalse
**kwargs
ff.create_distplotに渡すその他のキーワード引数
Returns
-------
Figure
作成されたプロットのFigureオブジェクト
"""
if color:
# colorカラムの値でデータをグループ分け
grouped = df.groupby(color)
# 各グループのxカラムのデータをリストに格納、可視化用に逆順に並び替え
hist_data = [group[x].values for _, group in grouped][::-1]
# 各グループの名前(colorカラムの値)をラベルとしてリストに格納、可視化用に逆順に並び替え
labels = [str(name) for name, _ in grouped][::-1]
# 密度プロットとヒストグラムを作成
fig = ff.create_distplot(
hist_data, labels, show_hist=show_hist, show_rug=show_rug, **kwargs
)
else:
# colorが指定されていない場合はx列の全データを用いる
hist_data = [df[x].values]
# 密度プロットを作成(ラベルはxを指定)
fig = ff.create_distplot(
hist_data,
group_labels=[x],
show_hist=show_hist,
show_rug=show_rug,
**kwargs
)
# x軸のタイトルをxに変更
fig.update_xaxes(title=x)
# y軸のタイトルを"確率密度"に変更
fig.update_yaxes(title="確率密度")
# 作成されたプロットを返す
return fig
Show code cell content
def format_cols(df: pd.DataFrame, cols_rename: Dict[str, str]) -> pd.DataFrame:
"""
指定されたカラムのみをデータフレームから抽出し、カラム名をリネームする関数
Parameters
----------
df : pd.DataFrame
入力データフレーム
cols_rename : Dict[str, str]
リネームしたいカラム名のマッピング(元のカラム名: 新しいカラム名)
Returns
-------
pd.DataFrame
カラムが抽出・リネームされたデータフレーム
"""
# 指定されたカラムのみを抽出し、リネーム
df = df[cols_rename.keys()].rename(columns=cols_rename)
return df
Show code cell content
def save_df_to_csv(df: pd.DataFrame, dir_save: Path, fn_save: str) -> None:
"""
DataFrameをCSVファイルとして指定されたディレクトリに保存する関数
Parameters
----------
df : pd.DataFrame
保存対象となるDataFrame
dir_save : Path
出力先ディレクトリのパス
fn_save : str
保存するCSVファイルの名前(拡張子は含めない)
"""
# 出力先ディレクトリが存在しない場合は作成
dir_save.mkdir(parents=True, exist_ok=True)
# 出力先のパスを作成
p_save = dir_save / f"{fn_save}.csv"
# DataFrameをCSVファイルとして保存する
df.to_csv(p_save, index=False, encoding="utf-8-sig")
# 保存完了のメッセージを表示する
print(f"DataFrame is saved as '{p_save}'.")
可視化例#
マンガデータ#
Show code cell content
# pandasのread_csv関数でCSVファイルの読み込み
df_ce = pd.read_csv(DIR_CM / FN_CE)
Show code cell content
# マンガ雑誌の掲載データから、特定の条件を満たす作品のみを選択して集計を行う
# 各マンガ作品(ccid)に対して、掲載された回数(ceidのユニーク数)をカウント
df_tmp = df_ce.groupby("ccid")["ceid"].nunique().reset_index(name="n_ce")
# 掲載された回数がMIN_N_CE以上のマンガ作品のIDをリストとして取得
ccids = df_tmp[df_tmp["n_ce"] >= MIN_N_CE]["ccid"].unique().tolist()
# 上で取得したマンガ作品IDのみを含むデータをdf_cmに格納
df_cm = df_ce[df_ce["ccid"].isin(ccids)].reset_index(drop=True)
# 必要なカラムのみを選択し、カラム名をわかりやすいものに変更
cols_cm = {
"mcname": "マンガ雑誌名",
"pages": "一話あたりのページ数",
"date": "掲載日",
"ccname": "マンガ作品名",
"ceid": "各話ID",
}
df_cm = format_cols(df_cm, cols_cm)
Show code cell content
# ページ数が50ページ以内のデータのみを選択する
# 抽出する最大のページ数を50ページに設定
max_pages = 50
# ページ数が50ページ以内のデータのみを選択し、df_cmを更新
df_cm = df_cm[df_cm["一話あたりのページ数"] <= max_pages].reset_index(drop=True)
Show code cell content
# 可視化対象のDataFrameを確認
df_cm.head()
| マンガ雑誌名 | 一話あたりのページ数 | 掲載日 | マンガ作品名 | 各話ID | |
|---|---|---|---|---|---|
| 0 | 週刊少年マガジン | 22.0 | 2011-05-25 | ダイヤのA | CE00000 |
| 1 | 週刊少年マガジン | 18.0 | 2011-05-25 | 君のいる町 | CE00001 |
| 2 | 週刊少年マガジン | 18.0 | 2011-05-25 | アゲイン!! | CE00002 |
| 3 | 週刊少年マガジン | 20.0 | 2011-05-25 | FAIRY TAIL | CE00003 |
| 4 | 週刊少年マガジン | 20.0 | 2011-05-25 | A-BOUT! | CE00004 |
Show code cell content
# 可視化対象DataFrameを保存
save_df_to_csv(df_cm, DIR_OUT_CM, "cm")
DataFrame is saved as '../../../data/cm/output/vol2/02/density/cm.csv'.
Show code cell source
# ページ数をx軸として密度プロットを作成
fig = create_distplot(df_cm, x="一話あたりのページ数")
# 密度プロットを表示
show_fig(fig)
Show code cell source
# create_distplot関数を用いて、df_cmの"一話あたりのページ数"に基づく密度プロットを作成
# 色分けは"マンガ雑誌名"カラムに基づき、色のパレットとしてOKABE_ITOを使用
fig = create_distplot(
df_cm, x="一話あたりのページ数", color="マンガ雑誌名", colors=OKABE_ITO
)
# show_fig関数を用いて、作成したプロットを表示
show_fig(fig)
Show code cell source
# データフレームからユニークなマンガ雑誌名を取得
mcnames = df_cm["マンガ雑誌名"].unique()
# サブプロットを配置するための列数を設定
cols = 2
# サブプロットを配置するための行数を計算(切り上げ除算で行数を確定)
rows = -(-len(mcnames) // cols)
# 複数のサブプロットを持つ図を作成。各マンガ雑誌名をサブプロットのタイトルとして設定
fig = make_subplots(rows=rows, cols=cols, subplot_titles=mcnames)
# y軸の最大値を格納するためのリストを初期化
y_max_values = []
# マンガ雑誌名の数だけ繰り返し処理
for i, mcname in enumerate(mcnames):
# 現在のマンガ雑誌名に対応するデータをフィルタリング
df_mc = df_cm[df_cm["マンガ雑誌名"] == mcname]
# ページ数の密度プロットを作成
distplot = create_distplot(df_mc, "一話あたりのページ数")
# 現在のサブプロットの位置を行(row)と列(col)で計算
row = i // cols + 1
col = i % cols + 1
# 各サブプロットのy軸の最大値をリストに追加
y_max_values.append(np.max([trace.y for trace in distplot.data]))
# 作成した密度プロットを図に追加
for trace in distplot.data:
trace.showlegend = False # 凡例を非表示に設定
fig.add_trace(trace, row=row, col=col)
# 全サブプロットの中で最大のy軸値を計算
y_max = np.max(y_max_values)
# 全サブプロットのy軸の範囲を統一して設定
# 最大値の1.1倍で少し余裕を持たせる
for i in range(1, rows * cols + 1):
fig.update_yaxes(
range=[0, y_max * 1.1], row=(i - 1) // cols + 1, col=(i - 1) % cols + 1
)
# 作成した図を表示する
show_fig(fig)
アニメデータ#
Show code cell content
# pandasのread_csv関数でCSVファイルの読み込み
df_ae = pd.read_csv(DIR_AN / FN_AE)
Show code cell content
# アニメ作品ごとに話数を集計する
# 'acid'と'acname'(アニメ作品IDとアニメ作品名)ごとにユニークな'aeid'(各話のID)の数をカウントする
# これにより、各アニメ作品の合計話数が計算される
df_an = df_ae.groupby(["acid", "acname"])["aeid"].nunique().reset_index(name="n_ae")
# 列名をわかりやすいものに変更
cols_an = {
"acid": "アニメ作品ID",
"acname": "アニメ作品名",
"n_ae": "アニメ作品の合計話数",
}
df_an = format_cols(df_an, cols_an)
Show code cell content
# 可視化対象のDataFrameを可視化
df_an.head()
| アニメ作品ID | アニメ作品名 | アニメ作品の合計話数 | |
|---|---|---|---|
| 0 | C10001 | ギャラクシー エンジェル | 24 |
| 1 | C10003 | PROJECT ARMS | 26 |
| 2 | C10005 | 探偵少年カゲマン | 6 |
| 3 | C10006 | Mr.Digital TOKORO the comical cartoon [第1期] | 120 |
| 4 | C10008 | GEAR戦士[ギアファイター] 電童 | 38 |
Show code cell content
# 可視化対象DataFrameを保存
save_df_to_csv(df_an, DIR_OUT_AN, "an")
DataFrame is saved as '../../../data/an/output/vol2/02/density/an.csv'.
Show code cell source
# アニメ作品の合計話数の密度プロットを作成する
fig = create_distplot(df_an, x="アニメ作品の合計話数")
# 作成した密度プロットを表示する
show_fig(fig)
Show code cell source
# アニメ作品の合計話数の密度プロットを作成する
fig = create_distplot(df_an, x="アニメ作品の合計話数", show_rug=True)
# 作成した密度プロットを表示する
show_fig(fig)
Show code cell source
# アニメ作品の合計話数の密度プロットを作成する
fig = create_distplot(df_an, x="アニメ作品の合計話数")
# X軸の表示範囲を0話からMAX_N_AE話までに更新する
fig.update_xaxes(range=[0, MAX_N_AE])
# 更新した密度プロットを表示する
show_fig(fig)
Show code cell source
# 事前にMAX_N_AE以下の合計話数のレコードのみを抽出
df_an_filtered = df_an[df_an["アニメ作品の合計話数"] <= MAX_N_AE].reset_index(drop=True)
# アニメ作品の合計話数の密度プロットを作成する
fig = create_distplot(df_an_filtered, x="アニメ作品の合計話数")
# 更新した密度プロットを表示する
show_fig(fig)
Show code cell content
# dateカラムから曜日を取得し、新しいカラム"weekday"に数値として格納
# pandasのweekday関数では、0が月曜日、6が日曜日となる
df_ae["weekday"] = pd.to_datetime(df_ae["date"]).dt.weekday
# アニメ作品名、曜日ごとに、ユニークな話数をカウント
df_an2 = (
df_ae.groupby(["acid", "acname", "weekday"])["aeid"]
.nunique()
.reset_index(name="n_ae")
)
# MAX_N_AE以下でフィルタリング
df_an2 = df_an2[df_an2["n_ae"] <= MAX_N_AE].reset_index(drop=True)
# 曜日を数値の昇順(月曜日から日曜日)にソート
df_an2 = df_an2.sort_values("weekday", ignore_index=True)
# 数値として格納されている曜日を実際の曜日名(月、火、...)に変換
df_an2["weekday"] = df_an2["weekday"].map(WEEKDAY2YOBI)
# カラム名をわかりやすいものに変更
cols_an2 = {
"acid": "アニメ作品ID",
"acname": "アニメ作品名",
"weekday": "放送曜日",
"n_ae": "アニメ作品の合計話数",
}
df_an2 = format_cols(df_an2, cols_an2)
Show code cell content
# 可視化対象のDataFrameを確認
df_an2.head()
| アニメ作品ID | アニメ作品名 | 放送曜日 | アニメ作品の合計話数 | |
|---|---|---|---|---|
| 0 | C9082 | 忍たま乱太郎 第2期 | 月 | 24 |
| 1 | C13639 | 俺たちに翼はない --under the innocent sky. | 月 | 12 |
| 2 | C10978 | がくえんゆーとぴあ まなびストレート! | 月 | 12 |
| 3 | C16032 | ポンコツクエスト -魔王と派遣の魔物たち- [第3期] | 月 | 12 |
| 4 | C9348 | 花より男子 | 月 | 1 |
Show code cell content
# 可視化対象DataFrameを保存
save_df_to_csv(df_an2, DIR_OUT_AN, "an2")
DataFrame is saved as '../../../data/an/output/vol2/02/density/an2.csv'.
Show code cell source
# create_distplot関数を用いて、df_an2の"アニメ作品の合計話数"に基づく密度プロットを作成
# 色分けは"放送曜日"カラムに基づき、色のパレットとしてOKABE_ITOを使用
fig = create_distplot(
df_an2, x="アニメ作品の合計話数", color="放送曜日", colors=OKABE_ITO
)
# show_fig関数を用いて、作成したプロットを表示
show_fig(fig)
ゲームデータ#
Show code cell content
# pandasのread_csv関数でCSVファイルの読み込み
df_pkg_pf = pd.read_csv(DIR_GM / FN_PKG_PF)
Show code cell content
# df_pkg_pfから必要なカラムのみを選択し、df_gmとして新しくデータフレームを作成
df_gm = df_pkg_pf[["pfname", "pkgname", "price"]]
# priceがNaNの行を削除。ignore_indexオプジョンで既存のインデックスを無視して再設定
df_gm = df_gm.dropna(subset=["price"], ignore_index=True)
# df_gmのカラム名をより分かりやすい名称に変更
cols_gm = {
"pfname": "プラットフォーム名",
"pkgname": "パッケージ名",
"price": "ゲームパッケージの価格",
}
df_gm = format_cols(df_gm, cols_gm)
Show code cell content
# 可視化対象のDataFrameを確認
df_gm.head()
| プラットフォーム名 | パッケージ名 | ゲームパッケージの価格 | |
|---|---|---|---|
| 0 | ゲームボーイアドバンス | くにおくん 熱血コレクション 1 | 5040.0 |
| 1 | セガサターン | 野々村病院の人々 | 6800.0 |
| 2 | セガサターン | アイドル雀士スーチーパイ Remix | 6900.0 |
| 3 | セガサターン | 天地無用! 魎皇鬼 ごくらくCD-ROM for SEGA SATURN | 7800.0 |
| 4 | 3DO | Superリアル麻雀 P4 + 相性診断 | 9500.0 |
Show code cell content
# 可視化対象DataFrameを保存
save_df_to_csv(df_gm, DIR_OUT_GM, "gm")
DataFrame is saved as '../../../data/gm/output/vol2/02/density/gm.csv'.
Show code cell source
# df_gmの`価格`に基づいて密度プロットを表示
fig = create_distplot(df_gm, x="ゲームパッケージの価格")
# 密度プロットを実際に表示するための関数を実行
show_fig(fig)
Show code cell source
# df_gmのうち、`ゲームパッケージの価格`がMAX_PRICE以下のレコードを抽出
df_gm_filtered = df_gm[df_gm["ゲームパッケージの価格"] <= MAX_PRICE].reset_index(
drop=True
)
# df_gm_filteredの`ゲームパッケージの価格`に基づいて密度プロットを表示
fig = create_distplot(df_gm_filtered, x="ゲームパッケージの価格")
# 更新した設定で密度プロットを実際に表示するための関数を実行
show_fig(fig)
Show code cell content
# 各ゲームプラットフォームごとにパッケージ数を集計
df_tmp = df_pkg_pf.groupby("pfname")["pkgid"].nunique().reset_index(name="n_pkg")
# パッケージ数が多い上位5のゲームプラットフォーム名をリストとして取得
# 上位5のゲームプラットフォームに絞ったデータのみを抽出
pfnames = df_tmp.sort_values("n_pkg", ascending=False)["pfname"].head(5).tolist()
df_gm2 = df_gm[df_gm["プラットフォーム名"].isin(pfnames)].reset_index(drop=True)
# df_gm2のうち、`ゲームパッケージの価格`がMAX_PRICE以下のレコードを抽出
df_gm2 = df_gm2[df_gm2["ゲームパッケージの価格"] <= MAX_PRICE].reset_index(drop=True)
# プラットフォーム名のリストの順番になるようにカテゴリカル型に変換
df_gm2["プラットフォーム名"] = pd.Categorical(
df_gm2["プラットフォーム名"], categories=pfnames, ordered=True
)
# `プラットフォーム名`カラムをもとにデータをソート
df_gm2 = df_gm2.sort_values("プラットフォーム名", ignore_index=True)
Show code cell content
# 可視化対象のDataFrameを確認
df_gm2.head()
| プラットフォーム名 | パッケージ名 | ゲームパッケージの価格 | |
|---|---|---|---|
| 0 | プレイステーション2 | THE MATRIX: PATH of NEO | 6700.0 |
| 1 | プレイステーション2 | デフジャム・ファイト・フォー・NY EA BEST HITS | 3129.0 |
| 2 | プレイステーション2 | てのひらを、たいように ~永久の絆~ | 7140.0 |
| 3 | プレイステーション2 | デッドトゥ ライツ | 7140.0 |
| 4 | プレイステーション2 | デストロイ オール ヒューマンズ! THQ Collection | 3129.0 |
Show code cell content
# 可視化対象DataFrameを保存
save_df_to_csv(df_gm2, DIR_OUT_GM, "gm2")
DataFrame is saved as '../../../data/gm/output/vol2/02/density/gm2.csv'.
Show code cell source
# 'ゲームパッケージの価格'を基に密度プロットを作成し、'プラットフォーム名'によって色分け
# colors=OKABE_ITOで指定された色のリストを使用
fig = create_distplot(
df_gm2, x="ゲームパッケージの価格", color="プラットフォーム名", colors=OKABE_ITO
)
# show_fig関数を用いて、作成したプロットを表示
show_fig(fig)
Show code cell source
# サブプロットを配置するための列数を設定
cols = 2
# サブプロットを配置するための行数を計算(切り上げ除算で行数を確定)
rows = -(-len(pfnames) // cols)
# 複数のサブプロットを持つ図を作成。各マンガ雑誌名をサブプロットのタイトルとして設定
fig = make_subplots(rows=rows, cols=cols, subplot_titles=pfnames)
# y軸の最大値を格納するためのリストを初期化
y_max_values = []
# ゲームプラットフォームの数だけ繰り返し処理
for i, pfname in enumerate(pfnames):
# 現在のプラットフォーム名に対応するデータをフィルタリング
df_pf = df_gm2[df_gm2["プラットフォーム名"] == pfname]
# 価格の密度プロットを作成
distplot = create_distplot(df_pf, "ゲームパッケージの価格")
# 現在のサブプロットの位置を行(row)と列(col)で計算
row = i // cols + 1
col = i % cols + 1
# 各サブプロットのy軸の最大値をリストに追加
y_max_values.append(np.max([trace.y for trace in distplot.data]))
# 作成した密度プロットを図に追加
for trace in distplot.data:
trace.showlegend = False # 凡例を非表示に設定
fig.add_trace(trace, row=row, col=col)
# 全サブプロットの中で最大のy軸値を計算
y_max = np.max(y_max_values)
# 全サブプロットのy軸の範囲を統一して設定
# 最大値の1.1倍で少し余裕を持たせる
for i in range(1, rows * cols + 1):
fig.update_yaxes(
range=[0, y_max * 1.1], row=(i - 1) // cols + 1, col=(i - 1) % cols + 1
)
# 作成した図を表示する
show_fig(fig)