Pandasの基本

Pandasの基本#

基本的なデータ構造#

`pandas.DataFrame`型#

Show code cell content Hide code cell content

# データフレームの内容を表示
df

	名前	役割	秘密
0	ロイド	父	スパイ
1	ヨル	母	殺し屋
2	アーニャ	娘	超能力者

`pandas.Series`型#

`pandas.DataFrame`型と`pandas.Series`型の相互変換#

Show code cell content Hide code cell content

# Seriesから作成したDataFrameを確認
df_c

	コードネーム
0	黄昏
1	いばら姫
2	被験体007

Show code cell content Hide code cell content

# dfの内容を表示
df

	名前	役割	秘密	コードネーム
0	ロイド	父	スパイ	黄昏
1	ヨル	母	殺し屋	いばら姫
2	アーニャ	娘	超能力者	被験体007

データの読み込みと書き出し#

読み込み#

Show code cell content Hide code cell content

# cm_ce.csvの中身をheadコマンドで確認
!head ../../../data/cm/input/cm_ce.csv

ceid,cename,ccid,miid,page_start,page_end,pages,page_start_position,two_colored,four_colored,miname,mcid,mcname,date,price,ccname
CE00000,第238話/この世代,C90829,M535428,10.0,31.0,22.0,0.0213675213675213,False,True,週刊少年マガジン 2011年 表示号数24,C119033,週刊少年マガジン,2011-05-25,248.0,ダイヤのA
CE00001,#134 話の続き,C90482,M535428,33.0,50.0,18.0,0.0705128205128205,False,False,週刊少年マガジン 2011年 表示号数24,C119033,週刊少年マガジン,2011-05-25,248.0,君のいる町
CE00002,第5話 チア・ザ・マシンガン!,C90297,M535428,51.0,68.0,18.0,0.1089743589743589,False,False,週刊少年マガジン 2011年 表示号数24,C119033,週刊少年マガジン,2011-05-25,248.0,アゲイン!!
CE00003,第233話 妖精の輝き,C89978,M535428,69.0,88.0,20.0,0.1474358974358974,False,False,週刊少年マガジン 2011年 表示号数24,C119033,週刊少年マガジン,2011-05-25,248.0,FAIRY TAIL
CE00004,-BOUT 71- From Dark Zone,C89929,M535428,89.0,108.0,20.0,0.1901709401709401,False,False,週刊少年マガジン 2011年 表示号数24,C119033,週刊少年マガジン,2011-05-25,248.0,A-BOUT!
CE00005,第94話,C90168,M535428,109.0,130.0,22.0,0.2329059829059829,False,True,週刊少年マガジン 2011年 表示号数24,C119033,週刊少年マガジン,2011-05-25,248.0,我間乱 ～GAMARAN～
CE00006,第36話 星,C89936,M535428,131.0,150.0,20.0,0.2799145299145299,False,False,週刊少年マガジン 2011年 表示号数24,C119033,週刊少年マガジン,2011-05-25,248.0,AKB49 ～恋愛禁止条例～
CE00007,#164 どうやって,C89939,M535428,151.0,168.0,18.0,0.3226495726495726,False,False,週刊少年マガジン 2011年 表示号数24,C119033,週刊少年マガジン,2011-05-25,248.0,Baby Steps ベイビーステップ
CE00008,code:133 覚悟の証,C89961,M535428,169.0,188.0,20.0,0.3611111111111111,False,False,週刊少年マガジン 2011年 表示号数24,C119033,週刊少年マガジン,2011-05-25,248.0,CODE:BREAKER コード:ブレイカー

Show code cell content Hide code cell content

# headメソッドで冒頭5行を確認
cols = ["ceid", "cename", "pages", "page_start_position", "ccname", "mcname", "date"]
df[cols].head()

	ceid	cename	pages	page_start_position	ccname	mcname	date
0	CE00000	第238話/この世代	22.0	0.021368	ダイヤのA	週刊少年マガジン	2011-05-25
1	CE00001	#134 話の続き	18.0	0.070513	君のいる町	週刊少年マガジン	2011-05-25
2	CE00002	第5話チア・ザ・マシンガン!	18.0	0.108974	アゲイン!!	週刊少年マガジン	2011-05-25
3	CE00003	第233話妖精の輝き	20.0	0.147436	FAIRY TAIL	週刊少年マガジン	2011-05-25
4	CE00004	-BOUT 71- From Dark Zone	20.0	0.190171	A-BOUT!	週刊少年マガジン	2011-05-25

Show code cell content Hide code cell content

# headメソッドで末尾5行を確認
df[cols].tail()

	ceid	cename	pages	page_start_position	ccname	mcname	date
180071	CE190276	SPIN.82/決裂のセカンドドライブ	20.0	0.799523	少年ラケット	週刊少年チャンピオン	2017-02-02
180072	CE190277	第105話助っ人土井	20.0	0.852029	Gメン	週刊少年チャンピオン	2017-02-02
180073	CE190278	第194話「卒業しよう!」	20.0	0.899761	実は私は	週刊少年チャンピオン	2017-02-02
180074	CE190279	最終話ユグドラシル	18.0	0.947494	マル勇九ノ島さん	週刊少年チャンピオン	2017-02-02
180075	CE190280	鯨井先輩の巻 68	2.0	0.997613	木曜日のフルット	週刊少年チャンピオン	2017-02-02

Show code cell content Hide code cell content

# dfの最初の5行を抽出し、行と列を転置して表示
df[cols].head().T

	0	1	2	3	4
ceid	CE00000	CE00001	CE00002	CE00003	CE00004
cename	第238話/この世代	#134 話の続き	第5話チア・ザ・マシンガン!	第233話妖精の輝き	-BOUT 71- From Dark Zone
pages	22.0	18.0	18.0	20.0	20.0
page_start_position	0.021368	0.070513	0.108974	0.147436	0.190171
ccname	ダイヤのA	君のいる町	アゲイン!!	FAIRY TAIL	A-BOUT!
mcname	週刊少年マガジン	週刊少年マガジン	週刊少年マガジン	週刊少年マガジン	週刊少年マガジン
date	2011-05-25	2011-05-25	2011-05-25	2011-05-25	2011-05-25

書き出し#

データの選択とフィルタリング#

カラムの選択#

Show code cell content Hide code cell content

# cename列とccname列を同時に表示
df[["cename", "ccname"]]

	cename	ccname
0	第238話/この世代	ダイヤのA
1	#134 話の続き	君のいる町
2	第5話チア・ザ・マシンガン!	アゲイン!!
3	第233話妖精の輝き	FAIRY TAIL
4	-BOUT 71- From Dark Zone	A-BOUT!
...	...	...
495	Trick:299	エア・ギア
496	第65話伝統シー・ロール	だぶるじぇい
497	File.290 西本、「劇団四季」に入門!?	もう、しませんから。
498	第310話風待ち	あひるの空
499	第92話 a man-made mountain:人の造り給いし山	エデンの檻

500 rows × 2 columns

行の選択#

条件に基づくフィルタリング#

Show code cell content Hide code cell content

# "pages"が1と一致する行を抽出
df[df["pages"] == 1]

	cename	pages	page_start_position	ccname	mcname	date
ceid
CE00443	『毎日かあさん』	1.0	1.0	マガジンシアター	週刊少年マガジン	2011-01-29
CE00444	49号	1.0	1.0	[プレゼント当選者発表]	週刊少年マガジン	2011-01-29
CE00470	48号	1.0	1.0	[プレゼント当選者発表]	週刊少年マガジン	2011-01-22

Show code cell content Hide code cell content

# "pages"が5未満、かつ"page_start_position"が0.5以下
df[(df["pages"] < 5) & (df["page_start_position"] <= 0.5)]

	cename	pages	page_start_position	ccname	mcname	date
ceid
CE00054	#132　／　視線の先　／　紳士的飲み方　／　男の放課後　／　おべんきょ　／　乙女の園　／　...	4.0	0.182403	生徒会役員共	週刊少年マガジン	2011-05-04
CE00187	エビ・フラ彦さん　／　まんじゅう　／　ディナー	2.0	0.278761	チョイとだけ劇場	週刊少年マガジン	2011-03-30
CE00191	#128　／　ひまつぶし　／　約束の時　／　ベリベリ　／　カチコチ　／　激しく運動　／　精神...	4.0	0.400442	生徒会役員共	週刊少年マガジン	2011-03-30
CE00214	#127　／　愛情×2　／　要望メニュー　／　好物頂戴　／　あっ　／　おいしくできました　／...	4.0	0.310573	生徒会役員共	週刊少年マガジン	2011-03-23
CE00265	#125　／　隠れ巨乳共　／　おだて名人　／　抜きポイント　／　青い時代　／　あの頃から今　...	4.0	0.162222	生徒会役員共	週刊少年マガジン	2011-03-09
CE00322	#123　／　血がたぎる　／　くせもの　／　もったいないおばけ　／　裏の組織　／　復活の日　...	4.0	0.478541	生徒会役員共	週刊少年マガジン	2011-02-23

データの整形と操作#

欠損値の処理#

Show code cell content Hide code cell content

# 欠損値のある行を確認
df_na

	cename	pages	page_start_position	ccname	mcname	date
ceid
CE00036	NaN	4.0	0.601145	ネギほ(幼)文	週刊少年マガジン	2011-05-18
CE00064	NaN	4.0	0.564378	竹植物語	週刊少年マガジン	2011-05-04
CE00154	NaN	2.0	0.997912	ミヤジマがお知らせします。	週刊少年マガジン	2011-04-13
CE00211	NaN	20.0	0.174009	さんかれあ	週刊少年マガジン	2011-03-23
CE00261	NaN	2.0	0.997895	ミヤジマがお知らせします。	週刊少年マガジン	2011-03-16
CE00298	NaN	12.0	0.431330	カウントラブル	週刊少年マガジン	2011-03-02
CE00416	NaN	2.0	0.997831	ミヤジマがお知らせします。	週刊少年マガジン	2011-02-02
CE00450	NaN	60.0	0.219713	極味ドラゴン	週刊少年マガジン	2011-01-22

Show code cell content Hide code cell content

# 欠損値を"タイトルなし"で埋める
df_na.fillna("各話名なし")

	cename	pages	page_start_position	ccname	mcname	date
ceid
CE00036	各話名なし	4.0	0.601145	ネギほ(幼)文	週刊少年マガジン	2011-05-18
CE00064	各話名なし	4.0	0.564378	竹植物語	週刊少年マガジン	2011-05-04
CE00154	各話名なし	2.0	0.997912	ミヤジマがお知らせします。	週刊少年マガジン	2011-04-13
CE00211	各話名なし	20.0	0.174009	さんかれあ	週刊少年マガジン	2011-03-23
CE00261	各話名なし	2.0	0.997895	ミヤジマがお知らせします。	週刊少年マガジン	2011-03-16
CE00298	各話名なし	12.0	0.431330	カウントラブル	週刊少年マガジン	2011-03-02
CE00416	各話名なし	2.0	0.997831	ミヤジマがお知らせします。	週刊少年マガジン	2011-02-02
CE00450	各話名なし	60.0	0.219713	極味ドラゴン	週刊少年マガジン	2011-01-22

Show code cell content Hide code cell content

# 欠損値を含む行を削除
df_na.dropna()

	cename	pages	page_start_position	ccname	mcname	date
ceid

カラム名の変更#

Show code cell content Hide code cell content

# columns引数に辞書を渡すことでカラム名を変更
df.rename(columns={"cename": "各話名", "mcname": "雑誌名", "ccname": "作品名"})

	各話名	pages	page_start_position	作品名	雑誌名	date
ceid
CE00000	第238話/この世代	22.0	0.021368	ダイヤのA	週刊少年マガジン	2011-05-25
CE00001	#134 話の続き	18.0	0.070513	君のいる町	週刊少年マガジン	2011-05-25
CE00002	第5話チア・ザ・マシンガン!	18.0	0.108974	アゲイン!!	週刊少年マガジン	2011-05-25
CE00003	第233話妖精の輝き	20.0	0.147436	FAIRY TAIL	週刊少年マガジン	2011-05-25
CE00004	-BOUT 71- From Dark Zone	20.0	0.190171	A-BOUT!	週刊少年マガジン	2011-05-25
...	...	...	...	...	...	...
CE00495	Trick:299	18.0	0.938492	エア・ギア	週刊少年マガジン	2011-01-15
CE00496	第65話伝統シー・ロール	8.0	0.974206	だぶるじぇい	週刊少年マガジン	2011-01-15
CE00497	File.290 西本、「劇団四季」に入門!?	6.0	0.990079	もう、しませんから。	週刊少年マガジン	2011-01-15
CE00498	第310話風待ち	21.0	0.021318	あひるの空	週刊少年マガジン	2011-01-08
CE00499	第92話 a man-made mountain:人の造り給いし山	20.0	0.063953	エデンの檻	週刊少年マガジン	2011-01-08

500 rows × 6 columns

データ型の変換#

カラムの追加・削除#

Show code cell content Hide code cell content

# 列を追加されたdfの冒頭5行を表示
df.head()

	cename	pages	page_start_position	ccname	mcname	date	weekday
ceid
CE00000	第238話/この世代	22.0	0.021368	ダイヤのA	週刊少年マガジン	2011-05-25	2
CE00001	#134 話の続き	18.0	0.070513	君のいる町	週刊少年マガジン	2011-05-25	2
CE00002	第5話チア・ザ・マシンガン!	18.0	0.108974	アゲイン!!	週刊少年マガジン	2011-05-25	2
CE00003	第233話妖精の輝き	20.0	0.147436	FAIRY TAIL	週刊少年マガジン	2011-05-25	2
CE00004	-BOUT 71- From Dark Zone	20.0	0.190171	A-BOUT!	週刊少年マガジン	2011-05-25	2

Show code cell content Hide code cell content

# weekday列を削除したdfの冒頭5行を表示
df.head()

	cename	pages	page_start_position	ccname	mcname	date
ceid
CE00000	第238話/この世代	22.0	0.021368	ダイヤのA	週刊少年マガジン	2011-05-25
CE00001	#134 話の続き	18.0	0.070513	君のいる町	週刊少年マガジン	2011-05-25
CE00002	第5話チア・ザ・マシンガン!	18.0	0.108974	アゲイン!!	週刊少年マガジン	2011-05-25
CE00003	第233話妖精の輝き	20.0	0.147436	FAIRY TAIL	週刊少年マガジン	2011-05-25
CE00004	-BOUT 71- From Dark Zone	20.0	0.190171	A-BOUT!	週刊少年マガジン	2011-05-25

Show code cell content Hide code cell content

# indexがCE00000の行を削除して冒頭5行を表示
df.drop("CE00000").head()

	cename	pages	page_start_position	ccname	mcname	date
ceid
CE00001	#134 話の続き	18.0	0.070513	君のいる町	週刊少年マガジン	2011-05-25
CE00002	第5話チア・ザ・マシンガン!	18.0	0.108974	アゲイン!!	週刊少年マガジン	2011-05-25
CE00003	第233話妖精の輝き	20.0	0.147436	FAIRY TAIL	週刊少年マガジン	2011-05-25
CE00004	-BOUT 71- From Dark Zone	20.0	0.190171	A-BOUT!	週刊少年マガジン	2011-05-25
CE00005	第94話	22.0	0.232906	我間乱～GAMARAN～	週刊少年マガジン	2011-05-25

重複の処理#

Show code cell content Hide code cell content

# 人気投票結果を表示
df_bobobo

	キャラクター
順位
1	ボボボーボ・ボーボボ
2	ボボボーボ・ボーボボ
3	ボボボーボ・ボーボボ
4	ボボボーボ・ボーボボ
5	ボボボーボ・ボーボボ

Show code cell content Hide code cell content

# 重複していない行のみを表示
df_bobobo[~df_bobobo.duplicated()]

	キャラクター
順位
1	ボボボーボ・ボーボボ

Show code cell content Hide code cell content

# drop_duplicatedメソッドで重複行を削除
df_bobobo.drop_duplicates()

	キャラクター
順位
1	ボボボーボ・ボーボボ

Show code cell content Hide code cell content

# keep=Falseを指定することで全ての重複行を削除
df_bobobo.drop_duplicates(keep=False)

	キャラクター
順位

Show code cell content Hide code cell content

# 更新されたDataFrameを表示
df_bobobo

	キャラクター	得票数	コメント
順位
1	ボボボーボ・ボーボボ	5071	みんなありがとう
2	ボボボーボ・ボーボボ	3072	フン
3	ボボボーボ・ボーボボ	1802	神に感謝
4	ボボボーボ・ボーボボ	721	くっボーボボに負けた…
5	ボボボーボ・ボーボボ	514	順当な順位ですね

Show code cell content Hide code cell content

# drop_duplicatedメソッドで重複行を削除
df_bobobo.drop_duplicates()

	キャラクター	得票数	コメント
順位
1	ボボボーボ・ボーボボ	5071	みんなありがとう
2	ボボボーボ・ボーボボ	3072	フン
3	ボボボーボ・ボーボボ	1802	神に感謝
4	ボボボーボ・ボーボボ	721	くっボーボボに負けた…
5	ボボボーボ・ボーボボ	514	順当な順位ですね

Show code cell content Hide code cell content

# drop_duplicatedメソッドで「キャラクター」列が重複している行を削除
df_bobobo.drop_duplicates(subset=["キャラクター"])

	キャラクター	得票数	コメント
順位
1	ボボボーボ・ボーボボ	5071	みんなありがとう

各行へのカスタム処理#

Show code cell content Hide code cell content

# dateに基づき、曜日情報をweekday列として追加
df["weekday"] = pd.to_datetime(df["date"]).dt.weekday
# 変換後のDataFrameの一部を表示
df.head()

	cename	pages	page_start_position	ccname	mcname	date	weekday
ceid
CE00000	第238話/この世代	22.0	0.021368	ダイヤのA	週刊少年マガジン	2011-05-25	2
CE00001	#134 話の続き	18.0	0.070513	君のいる町	週刊少年マガジン	2011-05-25	2
CE00002	第5話チア・ザ・マシンガン!	18.0	0.108974	アゲイン!!	週刊少年マガジン	2011-05-25	2
CE00003	第233話妖精の輝き	20.0	0.147436	FAIRY TAIL	週刊少年マガジン	2011-05-25	2
CE00004	-BOUT 71- From Dark Zone	20.0	0.190171	A-BOUT!	週刊少年マガジン	2011-05-25	2

Show code cell content Hide code cell content

# weekdayと曜日を対応付ける辞書
weekday2yobi = {0: "月", 1: "火", 2: "水", 3: "木", 4: "金", 5: "土", 6: "日"}
# weekdayを元に、weekday2yobiを用いてyobi列に曜日表現を格納
df["yobi"] = df["weekday"].map(weekday2yobi)

# 変換後のDataFrameの一部を表示
df.head()

	cename	pages	page_start_position	ccname	mcname	date	weekday	yobi
ceid
CE00000	第238話/この世代	22.0	0.021368	ダイヤのA	週刊少年マガジン	2011-05-25	2	水
CE00001	#134 話の続き	18.0	0.070513	君のいる町	週刊少年マガジン	2011-05-25	2	水
CE00002	第5話チア・ザ・マシンガン!	18.0	0.108974	アゲイン!!	週刊少年マガジン	2011-05-25	2	水
CE00003	第233話妖精の輝き	20.0	0.147436	FAIRY TAIL	週刊少年マガジン	2011-05-25	2	水
CE00004	-BOUT 71- From Dark Zone	20.0	0.190171	A-BOUT!	週刊少年マガジン	2011-05-25	2	水

Show code cell content Hide code cell content

# DataFrameの形状を再確認
df_bobobo

	キャラクター	得票数	コメント
順位
1	ボボボーボ・ボーボボ	5071	みんなありがとう
2	ボボボーボ・ボーボボ	3072	フン
3	ボボボーボ・ボーボボ	1802	神に感謝
4	ボボボーボ・ボーボボ	721	くっボーボボに負けた…
5	ボボボーボ・ボーボボ	514	順当な順位ですね

Show code cell content Hide code cell content

# summarize_ranking関数の定義
# 行ごとにキャラクター名、得票数、コメントをまとめた文字列を作成
def summarize_ranking(row):
    # 各行の'キャラクター'、'得票数'、'コメント'列の値を使用して、フォーマットされた文字列を返す
    return f"{row['キャラクター']}({row['得票数']}票)「{row['コメント']}」"


# df_boboboデータフレームの各行に対してsummarize_ranking関数を適用し、'まとめ'列として結果を追加
# 各行ごとのデータに対して関数を適用するため axis=1 を指定
df_bobobo["まとめ"] = df_bobobo.apply(summarize_ranking, axis=1)

# 結果のデータフレームを表示
df_bobobo

	キャラクター	得票数	コメント	まとめ
順位
1	ボボボーボ・ボーボボ	5071	みんなありがとう	ボボボーボ・ボーボボ(5071票)「みんなありがとう」
2	ボボボーボ・ボーボボ	3072	フン	ボボボーボ・ボーボボ(3072票)「フン」
3	ボボボーボ・ボーボボ	1802	神に感謝	ボボボーボ・ボーボボ(1802票)「神に感謝」
4	ボボボーボ・ボーボボ	721	くっボーボボに負けた…	ボボボーボ・ボーボボ(721票)「くっボーボボに負けた…」
5	ボボボーボ・ボーボボ	514	順当な順位ですね	ボボボーボ・ボーボボ(514票)「順当な順位ですね」

データのソートと集計#

ソート#

Show code cell content Hide code cell content

# dateで昇順にソートして冒頭5行を表示
df.sort_values("date").head()

	cename	pages	page_start_position	ccname	mcname	date	weekday	yobi
ceid
CE00499	第92話 a man-made mountain:人の造り給いし山	20.0	0.063953	エデンの檻	週刊少年マガジン	2011-01-08	5	土
CE00498	第310話風待ち	21.0	0.021318	あひるの空	週刊少年マガジン	2011-01-08	5	土
CE00496	第65話伝統シー・ロール	8.0	0.974206	だぶるじぇい	週刊少年マガジン	2011-01-15	5	土
CE00471	第221話/Progress	22.0	0.021825	ダイヤのA	週刊少年マガジン	2011-01-15	5	土
CE00472	#117 ・・・・ね?	18.0	0.065476	君のいる町	週刊少年マガジン	2011-01-15	5	土

Show code cell content Hide code cell content

# dateで降順にソートして冒頭5行を表示
df.sort_values("date", ascending=False).head()

	cename	pages	page_start_position	ccname	mcname	date	weekday	yobi
ceid
CE00000	第238話/この世代	22.0	0.021368	ダイヤのA	週刊少年マガジン	2011-05-25	2	水
CE00012	Round 935 未見の強振	18.0	0.579060	はじめの一歩	週刊少年マガジン	2011-05-25	2	水
CE00001	#134 話の続き	18.0	0.070513	君のいる町	週刊少年マガジン	2011-05-25	2	水
CE00022	第109話 Pyramid:第三の塔	20.0	0.959402	エデンの檻	週刊少年マガジン	2011-05-25	2	水
CE00021	第22話震える世界。	20.0	0.916667	振り向くな君は	週刊少年マガジン	2011-05-25	2	水

Show code cell content Hide code cell content

# date、pagesで昇順にソートして冒頭5行を表示
df.sort_values(["date", "pages"]).head()

	cename	pages	page_start_position	ccname	mcname	date	weekday	yobi
ceid
CE00499	第92話 a man-made mountain:人の造り給いし山	20.0	0.063953	エデンの檻	週刊少年マガジン	2011-01-08	5	土
CE00498	第310話風待ち	21.0	0.021318	あひるの空	週刊少年マガジン	2011-01-08	5	土
CE00493	#116　／　朝一コール　／　キリッ　／　つぶやき　／　気のせい　／　雪と戯れ　／　先生の日...	4.0	0.890873	生徒会役員共	週刊少年マガジン	2011-01-15	5	土
CE00482	373 歳末とむろみさん	6.0	0.501984	波打際のむろみさん	週刊少年マガジン	2011-01-15	5	土
CE00497	File.290 西本、「劇団四季」に入門!?	6.0	0.990079	もう、しませんから。	週刊少年マガジン	2011-01-15	5	土

基礎集計#

Show code cell content Hide code cell content

# （算出可能な列に対して）基本的な統計量を一括算出
df.describe()

	pages	page_start_position	weekday
count	500.000000	500.000000	500.00000
mean	17.138000	0.540504	2.49800
std	7.621491	0.291936	1.11736
min	1.000000	0.006263	2.00000
25%	16.000000	0.285873	2.00000
50%	20.000000	0.559800	2.00000
75%	20.000000	0.791845	2.00000
max	66.000000	1.000000	5.00000

Show code cell content Hide code cell content

# pagesとpage_start_positionの相関行列を算出
df[["pages", "page_start_position"]].corr()

	pages	page_start_position
pages	1.000000	-0.424604
page_start_position	-0.424604	1.000000

データの結合とマージ#

結合#

Show code cell content Hide code cell content

# 週刊少年ジャンプに関するDataFrameの中身を確認
df_jump

	mcname	miname	ccname	ccid
0	週刊少年ジャンプ	週刊少年ジャンプ 1983年表示号数3	スキャンドール	C88521
1	週刊少年ジャンプ	週刊少年ジャンプ 1983年表示号数3	風魔の小次郎	C89489
2	週刊少年ジャンプ	週刊少年ジャンプ 1983年表示号数3	キャッツ・アイ CATS・EYE	C88386
3	週刊少年ジャンプ	週刊少年ジャンプ 1983年表示号数3	やぶれかぶれ	C89747
4	週刊少年ジャンプ	週刊少年ジャンプ 1983年表示号数3	キン肉マン	C88427

Show code cell content Hide code cell content

# 週刊少年ジャンプに関するDataFrameの中身を確認
df_sunday

	mcname	miname	ccname	ccid
0	週刊少年サンデー	週刊少年サンデー 1971年表示号数3	怒りよさらば	C92147
1	週刊少年サンデー	週刊少年サンデー 1971年表示号数3	ケンカの聖書	C92340
2	週刊少年サンデー	週刊少年サンデー 1971年表示号数3	烈火	C93935
3	週刊少年サンデー	週刊少年サンデー 1971年表示号数3	男どアホウ甲子園	C92472
4	週刊少年サンデー	週刊少年サンデー 1971年表示号数3	ダメおやじ	C92856

Show code cell content Hide code cell content

# df_jumpとdf_sundayをconcatメソッドを用いて結合
# ignore_index=Trueとすることで、インデックスを新たに振り直す
pd.concat([df_jump, df_sunday], ignore_index=True)

	mcname	miname	ccname	ccid
0	週刊少年ジャンプ	週刊少年ジャンプ 1983年表示号数3	スキャンドール	C88521
1	週刊少年ジャンプ	週刊少年ジャンプ 1983年表示号数3	風魔の小次郎	C89489
2	週刊少年ジャンプ	週刊少年ジャンプ 1983年表示号数3	キャッツ・アイ CATS・EYE	C88386
3	週刊少年ジャンプ	週刊少年ジャンプ 1983年表示号数3	やぶれかぶれ	C89747
4	週刊少年ジャンプ	週刊少年ジャンプ 1983年表示号数3	キン肉マン	C88427
5	週刊少年サンデー	週刊少年サンデー 1971年表示号数3	怒りよさらば	C92147
6	週刊少年サンデー	週刊少年サンデー 1971年表示号数3	ケンカの聖書	C92340
7	週刊少年サンデー	週刊少年サンデー 1971年表示号数3	烈火	C93935
8	週刊少年サンデー	週刊少年サンデー 1971年表示号数3	男どアホウ甲子園	C92472
9	週刊少年サンデー	週刊少年サンデー 1971年表示号数3	ダメおやじ	C92856

マージ#

Show code cell content Hide code cell content

# SPY×FAMILYを例に、forger家を表現するDataFrameを作成
df_forger = pd.DataFrame(
    {
        "名前": ["ロイド", "ヨル", "アーニャ"],
        "役割": ["父", "母", "娘"],
        "秘密": ["スパイ", "殺し屋", "超能力者"],
    }
)

# 内容を表示
df_forger

	名前	役割	秘密
0	ロイド	父	スパイ
1	ヨル	母	殺し屋
2	アーニャ	娘	超能力者

Show code cell content Hide code cell content

# アーニャが所属するイーデン校を表現するDataFrameを作成
df_eden = pd.DataFrame(
    {
        "名前": ["アーニャ", "ダミアン", "ベッキー", "ビル"],
        "クラス": ["1年3組", "1年3組", "1年3組", "1年4組"],
    }
)

# 内容を表示
df_eden

	名前	クラス
0	アーニャ	1年3組
1	ダミアン	1年3組
2	ベッキー	1年3組
3	ビル	1年4組

Show code cell content Hide code cell content

# onで名前をキーとして指定し、how="inner"で内部結合を指定
pd.merge(df_forger, df_eden, on="名前", how="inner")

	名前	役割	秘密	クラス
0	アーニャ	娘	超能力者	1年3組

Show code cell content Hide code cell content

# onで名前をキーとして指定し、how="outer"で外部結合を指定
pd.merge(df_forger, df_eden, on="名前", how="outer")

	名前	役割	秘密	クラス
0	ロイド	父	スパイ	NaN
1	ヨル	母	殺し屋	NaN
2	アーニャ	娘	超能力者	1年3組
3	ダミアン	NaN	NaN	1年3組
4	ベッキー	NaN	NaN	1年3組
5	ビル	NaN	NaN	1年4組

Show code cell content Hide code cell content

# onで名前をキーとして指定し、how="left"で左外部結合を指定
pd.merge(df_forger, df_eden, on="名前", how="left")

	名前	役割	秘密	クラス
0	ロイド	父	スパイ	NaN
1	ヨル	母	殺し屋	NaN
2	アーニャ	娘	超能力者	1年3組

Show code cell content Hide code cell content

# onで名前をキーとして指定し、how="right"で右外部結合を指定
pd.merge(df_forger, df_eden, on="名前", how="right")

	名前	役割	秘密	クラス
0	アーニャ	娘	超能力者	1年3組
1	ダミアン	NaN	NaN	1年3組
2	ベッキー	NaN	NaN	1年3組
3	ビル	NaN	NaN	1年4組

データのグルーピングとピボット#

グルーピング#

Show code cell content Hide code cell content

# ccidごとにグループ化し、それぞれのceidのユニーク数を集約して冒頭5行を表示
df_ce.groupby("ccid")["ceid"].nunique().reset_index().head()

	ccid	ceid
0	C102235	1
1	C109295	10
2	C109296	19
3	C109297	1
4	C110879	1

Show code cell content Hide code cell content

# まず、dateでソートすることで、発売日順に並ぶように調整
df_ce = df_ce.sort_values(["ccid", "date"], ignore_index=True)

# その上で、マンガ作品（ccid）ごとに冒頭8話を抽出
# 代表的な列のみ選択肢、最初の10行を表示
df_ce.groupby("ccid").head(8)[["ccname", "date", "cename"]].head(10)

	ccname	date	cename
0	さばげぶっ！	2014-08-06	出張編
1	マウンドの稲妻	1980-08-18	野性の鉄腕の巻
2	マウンドの稲妻	1980-08-25	●サンダーボンバー誕生の巻
3	マウンドの稲妻	1980-09-01	●エースのあかし!の巻●
4	マウンドの稲妻	1980-09-08	●ボンバーズ登場!!の巻●
5	マウンドの稲妻	1980-09-15	●戦りつのマフィアリーグの巻●
6	マウンドの稲妻	1980-09-22	●マフィアリーグへの出発の巻●
7	マウンドの稲妻	1980-09-29	●マフィアリーグ開戦の巻●
8	マウンドの稲妻	1980-10-06	黒い罠に勝て!の巻
11	SCRAP三太夫	1988-10-03	NaN

ピボット#

Show code cell content Hide code cell content

# df_ceに曜日情報を追加
df_ce["weekday"] = pd.to_datetime(df_ce["date"]).dt.weekday

# マンガ雑誌（mcname）別に曜日（weekday）別の発売巻号（miid）数を集計
# 行（index）としてmcname、列（columns）としてweekdayを指定
# valuesで指定した列（miid）をaggfuncで指定した集約関数（nunique）で集約
df_ce.pivot_table(index="mcname", columns="weekday", values="miid", aggfunc="nunique")

weekday	0	1	2	3	4	5	6
mcname
週刊少年サンデー	9	9	1706	22	16	15	530
週刊少年ジャンプ	2177	25	25	22	22	15	20
週刊少年チャンピオン	554	9	5	1298	444	5	6
週刊少年マガジン	11	13	1673	26	26	20	539

Pandasの基本

Contents

Pandasの基本#

基本的なデータ構造#

pandas.DataFrame型#

pandas.Series型#

pandas.DataFrame型とpandas.Series型の相互変換#

データの読み込みと書き出し#

読み込み#

書き出し#

データの選択とフィルタリング#

カラムの選択#

行の選択#

条件に基づくフィルタリング#

データの整形と操作#

欠損値の処理#

カラム名の変更#

データ型の変換#

カラムの追加・削除#

重複の処理#

各行へのカスタム処理#

データのソートと集計#

ソート#

基礎集計#

データの結合とマージ#

結合#

マージ#

データのグルーピングとピボット#

グルーピング#

ピボット#

`pandas.DataFrame`型#

`pandas.Series`型#

`pandas.DataFrame`型と`pandas.Series`型の相互変換#