第4回 抜け漏れ・異常値・表記の揺れにどう対処するか
数値化や再分類を阻む「データの汚れ」前節では日付やフリーワード、「あまりに細かすぎる区分をするID」などは、数値化や再分類といった加工をすれば「活用のためのデータ」に採用できることを学びました。この作業を困難にし、活用の際に意図しない誤りを生み出すのが、「データの汚れ」です。データが抜けていたり、異常値が含まれていたり、表記が揺れていたりする場合に、問題が生じます。本節でこの問題について詳しくみていきましょう。
データの抜け漏れが生みだす問題と対処方法第1回目の記事で、最終