pandasでデータの欠損を確認する
機械学習において収集したデータを使おうと思ったとき、ほとんどのケースでデータに欠損があります。 そんなときは、もっともらしい値で穴埋めをするなどの対処が必要ですが、 それより前にどのパラメータのデータがどれだけ欠損しているかを確認したいです。
pandasなら以下のようにしてパラメータごとのデータ欠損数を出力することができます。 (サンプルのデータにはkaggleのtitanic問題を使わせていただいてます)
Titanic: Machine Learning from Disaster | Kaggle
import pandas as pd df_train = pd.read_csv("train.csv") df_train.isnull().sum()
出力
PassengerId 0 Survived 0 Pclass 0 Name 0 Sex 0 Age 177 SibSp 0 Parch 0 Ticket 0 Fare 0 Cabin 687 Embarked 2 dtype: int64
isnull()
で欠損確認をして sum()
で合計です。
pandasが思った以上に簡単にやりたいことを実現してくれるのでビビります。