見出し画像

[イベントレポート]4時間半でロジスティック回帰まで!「統計マラソン」を走りぬく

シティズンデータサイエンスラボは「AI技術を今役に立つ形で」を掲げる株式会社ソウジョウデータ(https://www.soujoudata.com/ )が運営する公式noteです。

このイベントは、「データ分析をしたいがなかなか手につかないし分からない…」「データドリブンのマーケティングに興味がある」といったビジネスに携わる方々を対象として、実際に手を動かしながら統計学を学ぶというもの。

これまで西内はユーザ企業さまやパートナー企業さまに向けて、統計学やデータサイエンスの研修を実施していますが、今回はこの内容をぐっと煮詰めてnoteのユーザーさんにご提供させていただいた、超絶お得な企画なのです!

3月3日、雨の降る外苑前のピースオブケイクさんの新オフィスに十数名の参加者の方が集まりました。

開口一番、西内から「今日は東京マラソンが開催されていますが、ここは統計学マラソンですですね」との言葉。通常4日間かけて学ぶ内容を数時間に容赦なく詰め込んだとのことで、かなりのボリュームが想定されます。

はじめは助走という感じで、やさしくスタート。統計学とは「まとめる」「はかる」「学問」であること。最小値、最大値、中央値などの基礎知識からはじまります。

そこから「標準偏差」、「数量型」と「分類型」のデータの違い、「アウトカム」や「説明変数」の話題と続きます。

「デミングのビーズ実験」のトピックでは「たまたまの差を体感する」ために、エクセルの関数を使って、実際に「たまたまの結果」のデータを作成し、集計しました。エクセルの使い方に慣れていない方でも戸惑わないよう実習にはかなり時間をとっています。

さらにエクセルを使って「t検定」を行なって「p値」を表示。「ttest」なんてエクセル関数、いままで知らなかった…。エクセルでもがんばればある程度は統計的な分析をすることができるんだ…。目からウロコが落ちまくりです。単回帰分析のレクチャーで、ダミーデータから散布図を作り線形近似や数式が表示されたときには、思わず心のなかで「おお、これが線形近似か」と感動した参加者の方も多かったのでは?

お昼休みを挟み、午後もハイスピード&ハイテンションで講義は進みます。西内曰く、「ここは統計マラソン30キロ地点」とのこと。マラソンであれば一番苦しいところです。たしかにスピードも中身の厚さもより増してきます。

最後はロジスティック回帰で締めです。対数、ネイピア数、最尤法…なかなか手ごわい概念がポンポンと登場。「log」って高校の数学でやったっけ……と遠い遠い昔の記憶を掘り起こしながら学習を続けます。

このあたりになると膨大な情報量に意識が薄らいできた中の人でしたが、ディープラーニングでも同様の考え方を応用できるというグリッドサーチを「エクセルで実現する方法」(西内考案)の解説のときだけは、アナログの手法でここまでやるか!というで驚きで目が覚めました。

相当駆け足ではありましたが、「アウトカムが数値のときは重回帰分析を使おう。アウトカムが分類のときはロジスティック回帰でOK!」というビジネスで使う統計の全体像を知るところまで、4時間半でなんとかたどり着くことができました。まさに統計マラソン。

ピースオブケイクのスタッフの方も、「1日でロジスティック回帰までたどり着くとは」と驚いていらっしゃいました。相当高濃度のワークショップでしたね。参加者のみなさん、お疲れ様でした!

写真:玉置敬大(ピースオブケイク)