分布を見る

6. 分布を見る#

Summary

1つの作業の継続時間として最も多いのは 10分 付近。50分、60分、そして70分などが続く
土日と平日で、作業の継続時間の分布に大きな違いはなかった
とくに細切れに作業を進めたのは 上巻5章 だが、これは節・項同士の依存関係が薄かったため

次は「分布を見る」手法を使ってみましょう。本書に倣い、ここでは以下の可視化手法を取り上げます：

ヒストグラム
密度プロット
箱ひげ図
バイオリンプロット
リッジラインプロット

6.1. 環境構築#

必要なライブラリをインポートし、変数を定義します。

Jupyter Book上に図をきれいに出力するために、以下の関数を定義しておきます。

Plotly Expressライクなインターフェイスで密度プロットを出力するための関数も定義します。詳細は本書の該当箇所を参照ください。

Show code cell content Hide code cell content

def create_distplot(
    df: pd.DataFrame,
    x: str,
    color: str = None,
    show_hist: bool = False,
    show_rug: bool = False,
    **kwargs: Any
) -> Figure:
    """
    データフレームから密度プロットとヒストグラムを作成する

    Parameters
    ----------
    df : pd.DataFrame
        プロットするデータを含むデータフレーム
    x : str
        密度プロットの描画対象とするカラム名
    color : str, optional
        データを分割する基準とするカラム名、指定しない場合はx列の全データを用いる
    show_hist : bool, optional
        ヒストグラムを表示するか否か、デフォルトはFalse
    show_rug : bool, optional
        ラグプロットを表示するか否か、デフォルトはFalse
    **kwargs
        ff.create_distplotに渡すその他のキーワード引数

    Returns
    -------
    Figure
        作成されたプロットのFigureオブジェクト
    """

    if color:
        # colorカラムの値でデータをグループ分け
        grouped = df.groupby(color)

        # 各グループのxカラムのデータをリストに格納、可視化用に逆順に並び替え
        hist_data = [group[x].values for _, group in grouped][::-1]

        # 各グループの名前（colorカラムの値）をラベルとしてリストに格納、可視化用に逆順に並び替え
        labels = [str(name) for name, _ in grouped][::-1]

        # 密度プロットとヒストグラムを作成
        fig = ff.create_distplot(
            hist_data, labels, show_hist=show_hist, show_rug=show_rug, **kwargs
        )
    else:
        # colorが指定されていない場合はx列の全データを用いる
        hist_data = [df[x].values]

        # 密度プロットを作成（ラベルはxを指定）
        fig = ff.create_distplot(
            hist_data,
            group_labels=[x],
            show_hist=show_hist,
            show_rug=show_rug,
            **kwargs
        )

    # x軸のタイトルをxに変更
    fig.update_xaxes(title=x)

    # y軸のタイトルを"確率密度"に変更
    fig.update_yaxes(title="確率密度")

    # 作成されたプロットを返す
    return fig

事前に分析対象ファイルを読み込みます。また、date列を基準に年、月、曜日等の列を追加します。

6.2. ヒストグラム#

ヒストグラムは、量的変数の分布を把握する際の基本的な手法です。データを複数の区間（ビン）に分割し、各区間に含まれるデータの数を棒の高さで表現します。

上図は、作業1回の継続分数の分布を表現したヒストグラムです。あくまでも作業1回あたりの継続分数であり、 一日あたりの合計作業分数ではない ことに注意しましょう。

まず、 10分 付近にピークがあることに気が付きます。これは、私がポモドーロ[1]タイマーを10分に設定して作業していることが原因かもしれません。一般的なポモドーロ・テクニックでは25分を1セットとするようですが、私は極端に集中力が続かないため10分で運用しています。

次のピークは、 50分 、60分、そして 70分 付近にあるようです。執筆作業は主に休日か深夜に行いましたが、それでも60分を最小単位として生活を営んでいることが要因の一つと考えられます。例えば：

子どもを7:00に起こす
子どもの昼寝は15:00まで
子どもは21:00までに寝かしつける

のように動いているため、60分単位の作業時間を確保しやすいのかもしれません。

それでは、平日・休日に分けて同様のヒストグラムを作成してみましょう。

上図は、作業1回の継続時間の分布を表現したヒストグラムを、平日/休日別に表現したものです。分布形状に大きな差は見られませんが、平日のほうが比較的急峻に見えます。また、60分にピークがあるのは平日のみです。

次に、年別のヒストグラムを見てみましょう。

上図は、作業1回の継続時間の分布を表現したヒストグラムを、年別に表現したものです。

2023年頃から10分付近のピークが特に目立ちます。個人ブログを振り返ると、2023年ごろから10分集中するという施策を始めたようです。 2024年も10分付近にピークがありますが、そこまで目立たくなりました。

6.3. 密度プロット#

密度プロットは、カーネル密度推定によって得られた滑らかな曲線で分布を表現する手法です。ヒストグラムと異なり、ビン幅の影響を受けにくく、より詳細な分布の形状を把握することができます。

ただし、あくまでも推定結果の可視化でしかない点に注意が必要です。たとえば、実際にはデータが存在しない領域にも、それらしい「山」を表現してしまうことがあります。

上図は、作業1回あたりの継続時間を、平日と休日で分けて表現した密度プロットです。

ヒストグラムで確認できたような、細かいピークの情報が見られなくなりました。強いて言えば、平日の方が短時間の作業の割合が多いように見えます。

年別の作業継続時間の分布も可視化してみましょう。

上図は、作業1回の継続分数の分布を年別に表現した密度プロットです。対象期間は、とくに草稿執筆作業が本格化した2022年から2024年に絞っています。

ヒストグラムと異なり、密度プロットでは複数の分布を重畳表示することができます。 2023年はとくに短時間の作業が多いように見えます。後述しますが、この期間は大学院との両立に悩んでいました。一方で2024年は長時間の作業が増え始めています。

6.4. 箱ひげ図#

箱ひげ図は、複数の分布の特徴を要約的に表現する手法です。文字通り箱とひげを用いて、分布の中心や広がりを視覚化します。複数の分布を比較する際、最初に候補となるでしょう。

上図は、カテゴリーごとの作業継続時間の分布を表現した箱ひげ図です。

他と比較して、 企画立案 に関しては1回あたりの作業時間が短いものが多いようです。企画立案フェーズでは、最終的に本書の目次案を作成することを目的に、次の作業に取り組みました：

執筆用のGitHub環境構築
参考文献の調査と精読

比較的、細切れに進めやすい作業であることに気づきます。

では、章ごとの作業時間の分布も見てみましょう。上巻と下巻で分けて表示するため、以下のような関数を定義しておきます。

では、実際に可視化してみましょう。

上図は、草稿執筆の作業対象別の継続分数の分布を表現した箱ひげ図です。「上巻1-2章」のように、一部の章が合算されている理由はデータの記録を参照ください。

上下巻の0章（前付け） と 下巻Appendix は、細切れの断続的な作業で完結していることがわかります。特に下巻0章で顕著ですが、こちらはほぼ上巻0章と同内容であることが原因と考えられます。

上巻7章 も、比較的短い作業を積み上げて執筆したように見えます。 7章は上巻の終章としてデータ可視化の未来と、下巻との接続としてデータ可視化手法の概説を取り扱っています。他章と異なり、腰を据えてコーディングする必要がなかったため、ライトに作業を進められたようです。

6.5. バイオリンプロット#

バイオリンプロットは、箱ひげ図と密度プロットの長所を組み合わせた手法です。複数の密度プロットを90度回転し、左右対称[2]に配置します。それぞれの分布を詳細に表現しつつ、複数の分布を比較することができます。

ただし、密度プロットと同様、バイオリンプロットも推定結果にすぎません。その解釈には細心の注意が必要であることも覚えておきましょう。

上図は、カテゴリーごとの作業継続分数の分布を表現したバイオリンプロットです。

プロトタイピング と 原稿執筆 の分布が非常に似ているように見えます。注意深く眺めてみると、前者は60分付近に明確にピークが見られるのに対して、後者はそのようなピークは見られません。また、 企画立案 に関して平均線の上下に二つのピークがあるように見えます。

上図は、原稿執筆タスクの作業分数の分布を表現したバイオリンプロットです。こちらに関しても、分布に関して細かい情報が得られるようになりました。

特に目につくのが、 上巻5章 ではないでしょうか。上巻5章では、Python・Pandas・Plotlyの基礎を、実装例とともに解説しています。本書全体を通して、以下の観点で最も特殊な章です：

節・項の数が多い ：データ型、データ構造、そして文法を列挙する構成のため、多くの項・節を立てる必要がありました。
節・項間の関連性が薄い ：他章と比較し、前後の節・項との関連性が弱いという特徴がありました。例えばPythonの基本データ構造としてブール値、整数、浮動小数点、そして文字列を扱いますが、ストーリー上特に順序に拘る必要はありません。

つまり、大量にある細切れの解説項目を、気が向いた順序で執筆できる[3]ということです。他章には多かれ少なかれストーリーがありますので、このような形での執筆は馴染みません。基本的には、順序どおりに話題を繋いでいく必要があるためです。

以上の背景から、上巻5章では多様な粒度の作業が独立に発生し、複数のこぶを持つ分布を形成したのではないでしょうか。

6.6. リッジラインプロット#

リッジラインプロットは、分布の経時的な変化等を表現する際に適した手法です。密度プロットを縦に並べたような見た目をしています。

上図は、年別・月別の作業分数の分布を表現したリッジラインプロットです。対象期間は2022年から2025年に絞っており、2ヶ月ごとに集計した結果であることに注意してください。

特に2024年の1月から6月に、分布が右に寄っていることがわかります。この時期は作業の総量が増えただけでなく、一つ一つの作業も重くなっていたようです。