マンガデータの前処理

マンガデータの前処理#

本書の再現に、前処理の再実行は不要

前処理後のデータは全てvizbook-jupyter/data/*以下に格納されています。本書の再現のため、前処理を再実行頂く必要はありません。（仮に再実行したとしても、同じファイルが出力されるだけですので問題はありません。）

準備#

Import#

変数#

関数#

出力先の生成#

`DIR_TMP`への一時的な出力#

zipファイルの解凍#

入力ファイルのサイズ圧縮#

対象#

`cm105`#

`cm102`#

`cm106`#

`DIR_INTERIM`への中間出力#

`cc.csv`#

Show code cell content Hide code cell content

# head()メソッドを利用し、df_ccの先頭5行を表示する
df_cc.head()

	ccid	ccname
0	C102235	さばげぶっ！
1	C109295	マウンドの稲妻
2	C109296	SCRAP三太夫
3	C109297	IN THE TRAIN
4	C110879	[編集後記]

`crt.csv`#

Show code cell content Hide code cell content

# df_crtの先頭5行を`head()`メソッドを使って確認
df_crt.head()

	crtid	crtname
0	CCRT00000
1	CCRT00001	AKU
2	CCRT00002	AOKO
3	CCRT00003	AR-V
4	CCRT00004	Applibot

`cc_crt.csv`#

Show code cell content Hide code cell content

# 先頭5行を`head()`メソッドを使って確認
df_cc_crt.head()

	ccid	crtid
0	C87429	CCRT01604
1	C87430	CCRT02117
2	C87430	CCRT03152
3	C87431	CCRT01415
4	C87432	CCRT01979

`mi.csv`#

Show code cell content Hide code cell content

# head()メソッドで先頭5行を確認
df_mi.head()

	miid	miname	mcid	mcname	date	price
0	M616363	週刊少年ジャンプ 1970年表示号数31	C119459	週刊少年ジャンプ	1970-07-27	80.0
1	M558279	週刊少年チャンピオン 1970年表示号数14	C120282	週刊少年チャンピオン	1970-07-27	80.0
2	M579286	週刊少年サンデー 1970年表示号数32	C117607	週刊少年サンデー	1970-08-02	80.0
3	M537473	週刊少年マガジン 1970年表示号数32	C119033	週刊少年マガジン	1970-08-02	80.0
4	M544796	週刊少年ジャンプ 1970年表示号数32	C119459	週刊少年ジャンプ	1970-08-03	80.0

`ce.csv`#

Show code cell content Hide code cell content

# head()メソッドで先頭5行を確認
df_ce.head()

	ceid	cename	ccid	miid	page_start	page_end	pages	page_start_position	two_colored	four_colored
0	CE00000	第238話/この世代	C90829	M535428	10.0	31.0	22.0	0.021368	False	True
1	CE00001	#134 話の続き	C90482	M535428	33.0	50.0	18.0	0.070513	False	False
2	CE00002	第5話チア・ザ・マシンガン!	C90297	M535428	51.0	68.0	18.0	0.108974	False	False
3	CE00003	第233話妖精の輝き	C89978	M535428	69.0	88.0	20.0	0.147436	False	False
4	CE00004	-BOUT 71- From Dark Zone	C89929	M535428	89.0	108.0	20.0	0.190171	False	False

`DIR_OUTPUT`への最終出力#

`cm_ce.csv`#

Show code cell content Hide code cell content

# head()メソッドで先頭5行を確認
df_cm_ce.head()

	ceid	cename	ccid	miid	page_start	page_end	pages	page_start_position	two_colored	four_colored	miname	mcid	mcname	date	price	ccname
0	CE00000	第238話/この世代	C90829	M535428	10.0	31.0	22.0	0.021368	False	True	週刊少年マガジン 2011年表示号数24	C119033	週刊少年マガジン	2011-05-25	248.0	ダイヤのA
1	CE00001	#134 話の続き	C90482	M535428	33.0	50.0	18.0	0.070513	False	False	週刊少年マガジン 2011年表示号数24	C119033	週刊少年マガジン	2011-05-25	248.0	君のいる町
2	CE00002	第5話チア・ザ・マシンガン!	C90297	M535428	51.0	68.0	18.0	0.108974	False	False	週刊少年マガジン 2011年表示号数24	C119033	週刊少年マガジン	2011-05-25	248.0	アゲイン!!
3	CE00003	第233話妖精の輝き	C89978	M535428	69.0	88.0	20.0	0.147436	False	False	週刊少年マガジン 2011年表示号数24	C119033	週刊少年マガジン	2011-05-25	248.0	FAIRY TAIL
4	CE00004	-BOUT 71- From Dark Zone	C89929	M535428	89.0	108.0	20.0	0.190171	False	False	週刊少年マガジン 2011年表示号数24	C119033	週刊少年マガジン	2011-05-25	248.0	A-BOUT!

`cm_cc_crt.csv`#

Show code cell content Hide code cell content

# head()メソッドで先頭5行を確認
df_cm_cc_crt.head()

	ccid	crtid	ccname	n_ce	n_4c	first_date	last_date	mcid	mcname	crtname
0	C87429	CCRT01604	交通安全'76	1	0	1976-09-06	1976-09-06	C119459	週刊少年ジャンプ	山止たつひこ
1	C87430	CCRT02117	好敵手室伏広治物語	1	0	2000-10-02	2000-10-02	C119459	週刊少年ジャンプ	柳田東一郎
2	C87430	CCRT03152	好敵手室伏広治物語	1	0	2000-10-02	2000-10-02	C119459	週刊少年ジャンプ	門脇正法
3	C87431	CCRT01415	鋼鉄の殺人者	1	0	1979-12-10	1979-12-10	C119459	週刊少年ジャンプ	富沢順
4	C87432	CCRT01979	硬派山崎銀次郎	1	1	1974-04-29	1974-04-29	C119459	週刊少年ジャンプ	本宮ひろ志

マンガデータの前処理

Contents

マンガデータの前処理#

準備#

Import#

変数#

関数#

出力先の生成#

DIR_TMPへの一時的な出力#

zipファイルの解凍#

入力ファイルのサイズ圧縮#

対象#

cm105#

cm102#

cm106#

DIR_INTERIMへの中間出力#

cc.csv#

crt.csv#

cc_crt.csv#

mi.csv#

ce.csv#

DIR_OUTPUTへの最終出力#

cm_ce.csv#

cm_cc_crt.csv#

`DIR_TMP`への一時的な出力#

`cm105`#

`cm102`#

`cm106`#

`DIR_INTERIM`への中間出力#

`cc.csv`#

`crt.csv`#

`cc_crt.csv`#

`mi.csv`#

`ce.csv`#

`DIR_OUTPUT`への最終出力#

`cm_ce.csv`#

`cm_cc_crt.csv`#