アニメデータの前処理

アニメデータの前処理#

本書の再現に、前処理の再実行は不要

前処理後のデータは全てvizbook-jupyter/data/*以下に格納されています。本書の再現のため、前処理を再実行頂く必要はありません。（仮に再実行したとしても、同じファイルが出力されるだけですので問題はありません。）

準備#

Import#

変数#

関数#

出力先の生成#

`DIR_TMP`への一時的な出力#

zipファイルの解凍#

入力ファイルのサイズ圧縮#

対象#

`an207`#

`an201`#

Wikipedia声優データの前処理#

`DIR_INTERIM`への中間出力#

`ac.csv`#

`ae.csv`#

Show code cell content Hide code cell content

# head()メソッドを利用し、先頭5行を表示する
df_ae.head()

	aeid	aename	date	aeno	acid
0	M19760	アトム誕生の巻＊	1963-01-01	第1話	C7163
1	M19761	フランケンの巻＊	1963-01-08	第2話	C7163
2	M19762	火星探険の巻＊	1963-01-15	第3話	C7163
3	M19763	ゲルニカの巻＊	1963-01-22	第4話	C7163
4	M19764	スフィンクスの巻＊	1963-01-29	第5話	C7163

`act.csv`#

Show code cell content Hide code cell content

# head()メソッドを利用し、先頭5行を表示する
df_act.head()

	actid	actname	wiki_size	gender
0	ACT00000	AIRI_(声優)	2597	female
1	ACT00001	AKIKO_(声優)	4359	female
2	ACT00002	AYA_(声優)	4471	female
3	ACT00003	Ashir	2057	female
4	ACT00004	Ayami_(アニソン歌手)	6910	female

`crt.csv`#

Show code cell content Hide code cell content

# head()メソッドを利用して、先頭5行の内容を確認
df_crt.head()

	crtid	crtname
0	ACRT00000	29
1	ACRT00001	5pb./Nitroplus
2	ACRT00002	6pack
3	ACRT00003	ACQUIRE
4	ACRT00004	AIC

`ac_act.csv`#

Show code cell content Hide code cell content

# head()メソッドを利用し、先頭5行を表示
df_ac_act.head()

	acid	actid
0	C7158	ACT06218
1	C7158	ACT01691
2	C7158	ACT02696
3	C7162	ACT00975
4	C7162	ACT06522

`ac_crt.csv`#

Show code cell content Hide code cell content

# head()メソッドを利用し、先頭5行を表示
df_ac_crt.head()

	acid	crtid
0	C7158	ACRT00664
1	C7158	ACRT00837
2	C7158	ACRT00937
3	C7160	ACRT00799
4	C7162	ACRT00778

`DIR_OUTPUT`への最終出力#

an_ae.csv#

Show code cell content Hide code cell content

# head()メソッドで先頭5行を確認
df_an_ae.head()

	aeid	aename	date	aeno	acid	acname	asid
0	M19760	アトム誕生の巻＊	1963-01-01	第1話	C7163	鉄腕アトム	C979
1	M19761	フランケンの巻＊	1963-01-08	第2話	C7163	鉄腕アトム	C979
2	M19762	火星探険の巻＊	1963-01-15	第3話	C7163	鉄腕アトム	C979
3	M19763	ゲルニカの巻＊	1963-01-22	第4話	C7163	鉄腕アトム	C979
4	M19764	スフィンクスの巻＊	1963-01-29	第5話	C7163	鉄腕アトム	C979

an_ac_crt.csv#

Show code cell content Hide code cell content

# head()メソッドで先頭5行を表示
df_an_ac_crt.head()

	acid	acname	asid	n_ae	first_date	last_date	crtid	crtname
0	C10010	グラビテーション	C2336	13	2000-10-04	2001-01-10	ACRT00944	村上真紀
1	C12657	ヒピラくん原作/大友克洋	C3943	10	2009-12-21	2009-12-24	ACRT00733	大友克洋
2	C12663	カウボーイビバップ[WOWOW放送版]	C2111	26	1998-10-24	1999-04-24	ACRT01173	矢立肇
3	C12681	ドラえもん［新］	NaN	224	1999-12-03	2005-03-18	ACRT01283	藤子・F・不二雄
4	C13191	HUNTER × HUNTER[新]	C2136	149	2011-10-02	2014-09-24	ACRT00647	冨樫義博

an_ac_act.csv#

Show code cell content Hide code cell content

# head()メソッドで先頭5行を確認
df_an_ac_act.head()

	acid	acname	asid	n_ae	first_date	last_date	actid	actname	wiki_size	gender
0	C10001	ギャラクシーエンジェル	C2483	24	2001-04-08	2001-09-30	ACT00102	かないみか	116003.0	female
1	C10001	ギャラクシーエンジェル	C2483	24	2001-04-08	2001-09-30	ACT05700	保村真	45464.0	male
2	C10001	ギャラクシーエンジェル	C2483	24	2001-04-08	2001-09-30	ACT06001	吉野裕行	149454.0	male
3	C10001	ギャラクシーエンジェル	C2483	24	2001-04-08	2001-09-30	ACT01887	山口眞弓	19635.0	female
4	C10001	ギャラクシーエンジェル	C2483	24	2001-04-08	2001-09-30	ACT02359	新谷良子	73259.0	female

アニメデータの前処理

Contents

アニメデータの前処理#

準備#

Import#

変数#

関数#

出力先の生成#

DIR_TMPへの一時的な出力#

zipファイルの解凍#

入力ファイルのサイズ圧縮#

対象#

an207#

an201#

Wikipedia声優データの前処理#

DIR_INTERIMへの中間出力#

ac.csv#

ae.csv#

act.csv#

crt.csv#

ac_act.csv#

ac_crt.csv#

DIR_OUTPUTへの最終出力#

an_ae.csv#

an_ac_crt.csv#

an_ac_act.csv#

`DIR_TMP`への一時的な出力#

`an207`#

`an201`#

`DIR_INTERIM`への中間出力#

`ac.csv`#

`ae.csv`#

`act.csv`#

`crt.csv`#

`ac_act.csv`#

`ac_crt.csv`#

`DIR_OUTPUT`への最終出力#