こけこっこー

がんばる

pandasでデータの欠損を確認する

機械学習において収集したデータを使おうと思ったとき、ほとんどのケースでデータに欠損があります。 そんなときは、もっともらしい値で穴埋めをするなどの対処が必要ですが、 それより前にどのパラメータのデータがどれだけ欠損しているかを確認したいです。

pandasなら以下のようにしてパラメータごとのデータ欠損数を出力することができます。 (サンプルのデータにはkaggleのtitanic問題を使わせていただいてます)

Titanic: Machine Learning from Disaster | Kaggle

import pandas as pd

df_train = pd.read_csv("train.csv")
df_train.isnull().sum()

出力

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

isnull() で欠損確認をして sum() で合計です。 pandasが思った以上に簡単にやりたいことを実現してくれるのでビビります。