シティズンデータサイエンスラボ

「シティズンデータサイエンス」とは、統計学の専門家ではない一般の人々がツールを用いて手軽にデータを活用すること。データ分析の世界をより身近にします。株式会社データビークルから株式会社ソウジョウデータに運営を引き継ぎました。https://www.soujoudata.com/

シティズンデータサイエンスラボ

「シティズンデータサイエンス」とは、統計学の専門家ではない一般の人々がツールを用いて手軽にデータを活用すること。データ分析の世界をより身近にします。株式会社データビークルから株式会社ソウジョウデータに運営を引き継ぎました。https://www.soujoudata.com/

マガジン

  • 市民データサイエンスの現場を訪ねて

    データビークルの最高製品責任者であり統計家の西内啓がデータ活用で成果をあげている企業・組織のキーパーソンの方とデータサイエンスの現実について語り合う対談シリーズ。

  • データサイエンス入門講座

    データを活用してエビデンスに基づいた経営判断を行いたいと考えるすべての人に。「データでもっと儲ける方法 ~経営とマーケティングのためのアナリティクスデザイン~(著:西内啓/発行:翔泳社)」の全文を公開します。

記事一覧

第20回 社内政治を乗り越えろ(1)

第19回 ズルのできない予測精度の検証方法(2)

第20回 社内政治を乗り越えろ(1)

実はここまでで、まだ道半ば ここまで、皆さんは、データを整備し、分析や予測、AIの開発といったデータの活用の仕方を学んできました。本書の内容を活かせば「どこから手をつけていいかわからない」とか「何をしたらいいかわからない」という状態から抜け出る、最初の一歩を踏み出すことができるはずです。また、ナンセンスな分析しか得られない、お金を払う人のいないAIを作ってしまうというリスクも避けられるはずです。 しかしここまでの話はデータ活用全体でいえば「ようやく道半ばまで来たところ」で

第19回 ズルのできない予測精度の検証方法(2)

過学習を見抜くためのフェアな評価方法過学習がなぜ問題になるかというと、今あるデータに対してもっとも予測値と実際の値のズレが小さくなるように計算した状態で、その計算に使ったデータにおける「予測値と実際の値のズレ」を評価しようとしていたからでした。本当に知りたいことは「いまあるデータにおけるズレ」ではなく、新たに開発された商品のように「次に得られるデータ」において、できるだけ正確に予測できる状態であるはずです。このギャップが、過学習の生じている予測モデルやAIにおいて「実際に使