「データの可視化のメリットと限界」Takram 櫻井稔×西内啓
統計学の学者も「グラフの使い方」を習わない
櫻井 本日のTakram Castは「データとデザイン」第1回目ということで、「データの可視化のメリットと限界」というテーマでTakramの櫻井と…。
西内 西内がお話をしたいと思います。
櫻井 よろしくお願いします。西内くんは2012年ぐらいからTakramとお仕事をたくさんしていて、データが関わるお仕事というのは西内くんと櫻井がタッグを組んで行うことが多いですね。
データビークルという西内君の会社の「dataDiver」というプロダクトも、僕がいろいろお手伝いさせていただいたりだとか、データビークルのブランディングみたいなこともやらせていただいています。
今回このTakram Castでは、3回ぐらいに分けてお話をしていこうかなと思うんですけれども、西内君は(統計学という)データ畑で育ってきた人間で、僕はデザイン畑で育った人間です。その中でもお互いの仕事がオーバーラップする部分が多くて「データとデザイン」という、世の中にジャンルとしてあるのかないのかの境界線みたいなことをやっているので、ここら辺で一度、僕らがやってきたことがなんだったのかということを振り返っていきたいです。
第1回目のテーマは「データビジュアライゼーション」について。どういったところがいい部分で、どういったところが限界なのかについて話します。まずは、お互いこれまでどのようにデータの見える化にアプローチしてきたのかというところから入っていきましょう。せっかくなので、西内くんからお願いします。
西内 統計学でもグラフは使いますが、実は学校ではあまり習わないんですよ。なので、学者の発表のスライドでも、「そのグラフの使い方おかしくないか?」みたいなことがあってですね。
私がいわゆるグラフ…エクセルで書けるようなグラフの使い方というのをはじめて整理して学んだのは、「マッキンゼー流 図解の技術」という書籍がきっかけでした。
この本には、たとえば、時系列だったら折れ線グラフで表現するんだよとか、全体のうちどれぐらいの割合を占めているのかを見たければ円グラフを使うべきだけど、円グラフは比較してどちらの角度が広いかを見るようなものではないよね、といった話が書いてあります。
中学校や小学校で使用する地理の年鑑でさえ、日本の農作物生産量の構成比の前年と今年の変化を、円グラフで比較するような明らかに間違っているグラフが採用されていたりするんです。
だからそういうグラフの正しい知識がもっと普及すればいいのにな…というのが、自分の中のビジュアライゼーションに関する最初のとっかかりだったように思います。
櫻井 データビジュアライゼーションの歴史を調べると、もともとは星の位置を記録するのに使ったり、物を比べるのに使ったりしていたそうです。その過程で、棒グラフや円グラフの発見があったり、グラフの誤った利用についての歴史も刻まれていたりするのですが、西内さんの今のお話からはデータビジュアライゼーションの歴史の中で繰り返されてきた間違いが、今もまだ繰り返されているということを強く感じます。
西内 いろいろな方のパワーポイントの会議資料を見て思うんですが、パワポのデフォルトで設定されているグラフの色をそのまま使うことで混乱することってありませんか?銀行のシェアを表現するグラフで、みずほ銀行が赤いとかはやめたほうがいい(笑)。
櫻井 それぞれの業界で(コーポレートカラーに)大体似たような色を採用するから、それに合わせてグラフ化全部同じ色になってしまいますよね。
西内 そうそう。確かにデータサイエンス系のソフトウェア企業も(コーポレートカラーが)青い会社が多いです(笑)。
櫻井 ロゴを集めると大体青い色になるという(笑)。
私たちもデータビジュアライゼーションについては、学術的なところから入っていったわけではなく、「このデータを見るためにはどうすればいいのか?」という企業さんのお手伝いの中から学んできたことが非常に多かったと思います。特にビッグデータが登場して、それを見るためにはものすごいコンピューティングリソースが必要という状況から、必要に駆られてデータビジュアライゼーションをやってきました。
ですから、西内くんも僕も、お互いまっとうにビジュアライゼーションを学んだかというと、別にそういうわけではないと。お互いがビジネスの中でどうやって使っていくのかみたいなところで必要に駆られて勉強したというのがはじまりなんですね。
統計家である西内さんとや違和感なく一緒に仕事ができているのは、そこら辺が理由なのかも知れません。
データを可視化する道具は統計学の中で発達した
櫻井 今回はトピックを3つ挙げているんですが、1つ目が今お話いただいたデータビジュアライゼーションをどうやって学んできたかというお話。2つ目として、統計学側とデザイン側でデータを可視化する意義はどこにあるのかを、まず統計学側からおうかがいしたいと思います。
西内 いろいろなグラフというのは、統計学から生まれています。これらは「探索的データ分析」といわれる領域から生まれました。
昔はデータを見るときに、基本的に手書きでした。いろいろな指標を調べるための箱ひげ図(※)とか、データの値そのものを用いてヒストグラムに似た図を描く「幹葉図(みきはず)(※)」など、さまざまなグラフがあります。
※箱ひげ図:
出典:https://ja.wikipedia.org/wiki/%E7%AE%B1%E3%81%B2%E3%81%92%E5%9B%B3
※幹葉図:
西内 余談ですが「フェイスチャート(※)」というのもあるんですよ。私も教科書以外で見たことがないんですが、なぜか一応Rのパッケージもあるらしいです。18次元ぐらいの情報を表現するのは大変ですが、人間の眉毛の形とか傾きとか、上下の位置とか分解していくって、顔の18要素にグラフをマッピングするんだそうです。
※フェイスチャート:
出典:https://en.wikipedia.org/wiki/Chernoff_face
西内 仮にいろいろな国の統計を18までピックアップして比較することを考えましょう。「この日本の顔と近いのはどれだろう?お、イギリスは意外と近いぞ」というような使い方をするそうです。18次元のデータを処理するのが難しい時代に、顔にすることによって似てるものを探しやすくするというものです。人間はなぜか顔を見分けるのは得意ですから。
昔は分析コストがとても高かったので、なんでもかんでも全てのデータを使って分析するということが厳しかったのです。そこで、統計学の中では本格的にデータ分析に入る前に、データを可視化する道具が発達したわけです。
櫻井 今話を伺っていて、記憶のフタが1つ1つ開いたんですが、そういえば私がデータビジュアライゼーションをはじめた理由も、探索的データ分析を、本当の意味でやりたいというのがスタート地点だったと思います。
大学時代、データビジュアライゼーションの研究をやっているという人にたくさん会ってきましたが、最終結果をどう美しく見せるかという、アウトプットのためのデータの可視化をやっている人が非常に多かったんですね。だけど、成果物をよく見せるためにお手伝いをお願いしますと言われると、そもそもそのデータの可視化にどういう意味があるんだろうと考えてしまって、お断りばかりしていたんです。
その後、まずはビッグデータを俯瞰して神の目から見たい、探索的データ分析を目で見てやりたい、というオーダーがあったことがすごく大きかったかなと感じています。
BIツールが招く「ネタ切れ・グラフに溺れる問題」
櫻井 では、3つ目の話に行きましょう。ビジネスの現場は、今何をどう困っているのか。どうやってビジュアライゼーションをなめらかに導入し、使いこなしていくべきなのかというテーマです。
西内 現在多くのBI(Business Intelligence)ツールが普及していて、企業でも導入しているところが増えてきているのですが、そこでは大きく分けて2つの問題が起こっています。
1つは「ネタ切れ問題」というものです。BIツールは何でも見れるということで、みなさん最初はテンション高く、男女別・年代別・地域別・月別などで売上を見てみるのですが、その4つぐらいを見たらネタ切れをしてしまうんですね。
もう1つが、「グラフに溺れる問題」です。BIツールは蓄積されたデータについてどんな項目についても好きなように可視化することができます。なのでうっかりすると、何百何十枚とつくられるグラフの量に対して見る側が追いつかないんですね。そうした、ネタ切れをするかグラフに溺れるかという両極端の地獄が今我々の周りで起こっていて、ここからどうしたらいいですかという相談がたくさん寄せられます。
櫻井 ビジネスの現場で、データの可視化という意味でBIツールが話題に上がってくるんですが、可視化イコールBIツールなのでしょうか。
西内 ほぼそれに近いですね。BIツールが普及する前は、そうしたダッシュボードをつくるのは会社を上げて取り組む話だったんですよ。
海外の企業には自社でダッシュボードをつくるという文化があったそうですが、多くの日本企業にはそういった文化はありません。そうなると、ビッグデータを扱うときに、一番わかりやすいのが可視化をすることになって、BIツールを買ってきてデータウェアハウスにつなげるだけでそれができてしまうんですね。
櫻井 データを見えるようにしなければいけないという意味で、ファーストステップとしてはデータの可視化は成功だったのかも知れないですね。
西内 そうです。
櫻井 もしかすると、少なくとも私がデータビジュアライゼーションに入ったのは、実はそうしたファーストステップがひととおり終わったところだったのかなと思っています。
今までグラフなどで可視化してきた中に位置情報というものがなかったために、最適化されていないデータウェアハウスやデータベースからジオデータ(地理情報データ)を引っ張ってきて地図上にマッピングするというニッチなところから入ったんです。
西内 BIツールの位置情報は、都道府県別にヒートマップを色分けするか、バブルの大きさでデータを表示するものが多いですね。
櫻井 そういう意味では、私たちがやっている地図上へのデータの可視化というのは、今まで脈々と続いてきた、情報を圧縮してグラフにすることの地理版という、今まで触れられてこなかったところかもしれません。そこを丁寧にやり直しているというのがTakramのデータビジュアライゼーションの1つの形なのかなと思います。
可視化のごく一部に過ぎないBIツールの限界
櫻井 西内さんにとって、データの可視化のメリットと限界とはなんだと思いますか。
西内 メリットとしては、まったくよく分からないデータが見えるようになったというところに大きな意味があると考えています。限界は、BIツールで表示できるのは可視化という領域の中のごく一部に限られているというところですね。
グラフは便利な道具ですが、一方で、仮に1億人が5本の棒グラフになった場合、だいぶいろんな情報が失われているという側面があります。その失われた部分側に大事なインサイト(洞察)があるのであれば、それ用の見せ方をしなければいけないというのが1つ。そして、そもそも横軸を何にするかという問題はまた別の話になるかと思います。
櫻井 まず(データが)見えるようになったことが非常に大きいが、一方で軸を何にするかというところが限界であるということですね。
私も、データが見えるようになったことはメリットである、というのはまったく同じだなと思うんですよ。レントゲンのない時代に生まれたら触診だけで治療されていたと思うと怖いですよね。まずレントゲンが揃うことが重要で、世の中にレントゲンが生まれる瞬間をわれわれがつくっているのかなと思います。
西内 レントゲンがなかった時代の医療って、ギリシャ時代ぐらいにつくられた理論に基づいていたんですね。ビジネスでも同じことをやっていて、値引きすれば本当に売上は上がるのか、それでトータルして利益は取れているのかといったところだけでも、データを見てリアルタイムで意志決定できれば違ってきます。
櫻井 私もメリットはデータが見えるようになったと言うことで一致しています。一方で、データを見ただけで何が起こっているのかを正しく理解するには粒度が荒すぎて、次のアクションを決めるに至らないという点に限界を感じています。そういう意味で、西内さんと2人でそこを突破したいと考えています。
というわけで、第1回はデータの可視化のメリットと限界ということでお送りしました。
(続きます)