二次元ヒストグラム
Contents
16. 二次元ヒストグラム#
16.1. 概要#
二次元ヒストグラム(2D Bins) とは, 二種類 の質的変数を対象として,その分布を 色 で表現するグラフです. 文字通りヒストグラムの二次元版と捉えることもできますし,ヒートマップの一種と捉えることもできます.
データ量が非常に多いと,散布図やバブルチャートのドットが重複してしまい,解釈が難しくなることがあります. このような場合は,二次元ヒストグラムや等高線プロットを検討しましょう.
例えば上図は,雑誌別に掲載位置(横軸)と掲載週数(縦軸)の作品数を表した二次元ヒストグラムです.色が明るいほど,該当する作品が多いことを表します.
16.2. Plotlyによる作図方法#
Plotlyでは,plotly.express.density_heatmap()
を用いて作図できます.
import plotly.express as px
fig = px.density_heatmap(
df, x='col_x', y='col_y')
上記の例では,df
のcol_x
およびcol_y
について,階級ごとにデータの下図を集計した二次元ヒストグラムのオブジェクトfig
を作成します.
16.3. MADB Labを用いた作図例#
16.3.1. 下準備#
import pandas as pd
import plotly.express as px
import warnings
warnings.filterwarnings('ignore')
# 前処理の結果,以下に分析対象ファイルが格納されていることを想定
PATH_DATA = '../../data/preprocess/out/episodes.csv'
# Jupyter Book用のPlotlyのrenderer
RENDERER = 'plotly_mimetype+notebook'
# 連載週数の最小値
MIN_WEEKS = 5
def show_fig(fig):
"""Jupyter Bookでも表示可能なようRendererを指定"""
fig.update_layout(margin=dict(t=50, l=25, r=25, b=25))
fig.show(renderer=RENDERER)
df = pd.read_csv(PATH_DATA)
16.3.2. 作品別の平均掲載位置と連載週数#
df_plot = \
df.groupby('cname')['pageStartPosition'].\
agg(['count', 'mean']).reset_index()
df_plot.columns = ['cname', 'weeks', 'position']
df_plot = \
df_plot[df_plot['weeks'] >= MIN_WEEKS].reset_index(drop=True)
fig = px.density_heatmap(
df_plot, x='position', y='weeks',
title='作品別の平均掲載位置と掲載週数')
fig.update_xaxes(title='平均掲載位置')
fig.update_yaxes(title='掲載週数')
show_fig(fig)