準備

pipやAnacondaを使うなどして、適宜ご自身の環境にインストール。

pip install pandas-profiling

あとはインポートするだけ。

import pandas as pd
import pandas_profiling as pdp

実行

みんな大好きTitanicのtrainデータを使用。なんの前処理もかけずに実行してみる。

df = pd.read_csv('train.csv')
pdp.ProfileReport(df)

こんな感じでデータの全体像をHTMLで出力してくれます。便利。

画像

gif

データフレームの構造に、データ型別の基本統計量とグラフ、数値データはピアソンの積率相関とスピアマンの順位相関といったところでしょうか。

膨大な説明変数があると大変そうですが、 1行のコードでここまで出してくれるのはEDAが捗りそうですねぇ。

また、以下でHTMLファイルの作成も可能。

profile = pdp.ProfileReport(df)
profile.to_file(outputfile="myoutputfile.html")

Colaboratoryでやると表示、挙動が不安定でした。 Kaggle KernelはOK。

Colaboratoryでは何か方法があるかもしれません。 IT詳しい方、ご存知でしたら教えてください。

プロフェッショナルの方がcolaboratory挙動の解決策記事を書いてくれています！ HTMLファイルを生成して、埋め込む感じでうまくいくようです！