シティズンデータサイエンスラボ
データビークルの最高製品責任者であり統計家の西内啓がデータ活用で成果をあげている企業・組織のキーパーソンの方とデータサイエンスの現実について語り合う対談シリーズ。
データを活用してエビデンスに基づいた経営判断を行いたいと考えるすべての人に。「データでもっと儲ける方法 ~経営とマーケティングのためのアナリティクスデザイン~(著:西内啓/発行:翔泳社)」の全文を公開します。
実はここまでで、まだ道半ば ここまで、皆さんは、データを整備し、分析や予測、AIの開発といったデータの活用の仕方を学んできました。本書の内容を活かせば「どこから手をつけていいかわからない」とか「何をしたらいいかわからない」という状態から抜け出る、最初の一歩を踏み出すことができるはずです。また、ナンセンスな分析しか得られない、お金を払う人のいないAIを作ってしまうというリスクも避けられるはずです。 しかしここまでの話はデータ活用全体でいえば「ようやく道半ばまで来たところ」で
過学習を見抜くためのフェアな評価方法過学習がなぜ問題になるかというと、今あるデータに対してもっとも予測値と実際の値のズレが小さくなるように計算した状態で、その計算に使ったデータにおける「予測値と実際の値のズレ」を評価しようとしていたからでした。本当に知りたいことは「いまあるデータにおけるズレ」ではなく、新たに開発された商品のように「次に得られるデータ」において、できるだけ正確に予測できる状態であるはずです。このギャップが、過学習の生じている予測モデルやAIにおいて「実際に使
「精度100%の予測」といわれたら、まず疑うべきこと適切な課題を設定できれば、予測モデルもAIも開発できるようになります。ここまでの具体化ができていれば、統計解析や機械学習の専門家でなくても、日本国内だけで100社以上あるという機械学習の開発を請け負う会社に依頼すれば、少なくとも何のアウトプットも出てこないということはありません。 最後の問題は、社内の技術者であれ社外の技術者であれ、あるいは自分自身でも、どのぐらいの精度で予測し、どの程度最適な選択肢を提示できるかを確認す
総負荷量とトレードオフになる安定性と有効性このように総負荷量という考え方を持って「どれだけの煩わしさを解決できるか」「もっと範囲を広げて考えられないか」というのはAIの課題設定を行う上で最初に検討すべき重要な視点です。しかし総負荷量が大きくなるようにとにかく範囲を広げさえすればよい、というわけでもないのが難しいところです。 なぜなら課題の範囲を広げれば広げるほど「安定性」が減少する傾向にあります。予測モデルの時にも言及しましたが、機械学習とは「このデータが得られた状態がず
省力化に着目したAIの課題設定 「予測精度の改善価値」にフォーカスする予測モデルについては「現状の1.05倍の精度で予測してどの程度のコスト削減効果があるか」と考えればよいことを学びました。また「データを収集したような状態」がどれだけ安定的に続くかというのも重要なポイントです。 では、もう一つの機械学習の使い方である、(多少人間より精度が低くてもよいので)自動化/省力化することを価値とするAIについてはどのように課題設定をしたらよいでしょうか?AIすなわち人工知能が「人間
前回の記事はこちら 1.05倍の予測精度の向上価値なぜ「感覚的に1.05倍」か、という点について説明しておきましょう。おおむね現在行っている経験や勘による意思決定から、短期間でデータを活用して改善できる予測の精度についての私たちの経験的な改善余地ですが、ただの経験則というだけではありません。MITスローン経営大学院のBrynjolfssonらの論文によれば、「データに基づいて意思決定する企業は5~6%生産性が高い」という結果が示されています。私たちの経験則と、経営学者の分析