シティズンデータサイエンスラボ

「シティズンデータサイエンス」とは、統計学の専門家ではない一般の人々がツールを用いて手軽にデータを活用すること。データ分析の世界をより身近にします。株式会社データビークルから株式会社ソウジョウデータに運営を引き継ぎました。https://www.soujoudata.com/

シティズンデータサイエンスラボ

「シティズンデータサイエンス」とは、統計学の専門家ではない一般の人々がツールを用いて手軽にデータを活用すること。データ分析の世界をより身近にします。株式会社データビークルから株式会社ソウジョウデータに運営を引き継ぎました。https://www.soujoudata.com/

マガジン

  • 市民データサイエンスの現場を訪ねて

    データビークルの最高製品責任者であり統計家の西内啓がデータ活用で成果をあげている企業・組織のキーパーソンの方とデータサイエンスの現実について語り合う対談シリーズ。

  • データサイエンス入門講座

    データを活用してエビデンスに基づいた経営判断を行いたいと考えるすべての人に。「データでもっと儲ける方法 ~経営とマーケティングのためのアナリティクスデザイン~(著:西内啓/発行:翔泳社)」の全文を公開します。

記事一覧

第4回 抜け漏れ・異常値・表記の揺れにどう対処するか

第3回 数値化と再分類でデータをもっとリッチに

第4回 抜け漏れ・異常値・表記の揺れにどう対処するか

数値化や再分類を阻む「データの汚れ」前節では日付やフリーワード、「あまりに細かすぎる区分をするID」などは、数値化や再分類といった加工をすれば「活用のためのデータ」に採用できることを学びました。この作業を困難にし、活用の際に意図しない誤りを生み出すのが、「データの汚れ」です。データが抜けていたり、異常値が含まれていたり、表記が揺れていたりする場合に、問題が生じます。本節でこの問題について詳しくみていきましょう。 データの抜け漏れが生みだす問題と対処方法第1回目の記事で、最終

第3回 数値化と再分類でデータをもっとリッチに

活用できるデータの項目前節では「顧客ごと」「レシート1行ごと」という粒度の異なる形式のデータを結合し、集計することで「活用のためのデータ」に加工する考え方を学びました。「活用のためのデータ」は顧客ごとあるいは商品ごとに一行ずつ、という形式にそろえた1枚の表となる必要があり、こうした作業が必要になります。 また、1枚の表になっているというだけではなく、データ分析で使える説明変数やAIで活用できる特徴量は、基本的に「(大小が意味を持つ)数値」であるか「(数十個程度への)分類」と