STEP2「データ探索」 ~そのデータはどの程度使えるのかを見極める~
「エラー」に真剣に向き合った人物がいます。もっとも、統計学のエラーではなく野球のエラーです。『マネーボール』という本の中にビル・ジェイムズさんという野球データの分析に情熱を燃やしている人物の話が出てきます。彼は、エラーが少ない選手ほど優秀という守備力の評価方法に憤り、「エラーをしない才能など、メジャーリーガーにとっては重要ではない。極端な話、もしエラーを記録されたくなければ、動作を少し緩慢にしてボールに追いつかなければいい」とさえ考えます。ヒット性の当たりの打球に三塁手がヘタに飛びついて、ある確率でエラーになるよりも、あきらめて見送る方が守備力は「優秀」ということになってしまう、というわけです。
野球の「ボックススコア」という記録方法に限界を感じた彼は、過激な提案を行います。プロジェクトを立ち上げて、スコアラーを球場に送り込み、すべての選手の動きを細かく解剖する型破りなスコアブックを自力で作るのです。このプロジェクト自体は期待通りにはいかなかったものの、後にウォールストリート上がりのアナリストによる「野球派生データ分析」や、それを応用したオークランド・アスレチックスの成功につながっていきます。
ここで特筆すべきは、アナリティクスで野球を改革したいという情熱と、その目的のために必要なデータがないと判断したら自力で作る労力を厭わない姿勢です。
使えるデータか見極める、そしてデータを「作る」こと
企業におけるアナリティクスに立ち戻ってみますと、最初のステップ1「企画」の段階で目的が明確になり、どんなデータが必要なのか、候補を出しているはずですね。ステップ1「データ探索」では、そのデータがどれだけ実際に「使える」のか見てみる活動となります。
「使える」のかどうかは以下の2つの要素から判断できます。
- 分析に適するデータ形式にできるかどうか(顧客分析ならば顧客IDに紐付けられるか)
- 分析作業をする価値のあるデータかどうか(例えば先ほどの離反分析ならば、離反という事象にどれだけ相関のあるデータを含むか)
さらに、データを「作る」こともあわせてご検討いただきたいと思います。手元にデータがなければ何らかの形でどこかにデータ素材がないか(例:製薬企業の営業モデルに過去のドクター訪問履歴が必要と分かっていながらそれがデータベースになかった場合、ワープロ・フォーマットの営業日報が使えないか)、それを使えるデータの形に変換できないか(例:そのワープロ営業日報をデータベースの形に変換する)、などです。
大変そうだと思われるかもしれません。でも、『マネーボール』の例のような、ゼロからデータを作る大変さに比べたら、すでにあるデータの素材を成型することは楽なことと言えます。まったく別な視点で言うと、データ素材を使える形に持っていく大変さや、そうすることのメリットこそが、ビッグ・データの存在理由なのです。
アナリティクス読書のすすめ
以上、駆け足でアナリティクス本格的成功に至る10のステップと、最初の2ステップについて触れました。この連載第2回が公開されるころは東京も梅雨に入っているころかと思います。室内で過ごすことが多い時節、雨だれを聞きながらのアナリティクス読書はいかがでしょうか。私も味読している初心者の方にも親切な本をいくつかご紹介いたします。梅雨明けまでにボディーも頭もシャープにして思い切り夏に突入しましょう!
アナリティクス関連おすすめ書籍
- 『統計学が最強の学問である』西内 啓 著(ダイヤモンド社)
- 『その数学が戦略を決める』 イアン・エアーズ 著(文藝春秋)
- 『分析力を武器とする企業』 トーマス・H・ダベンポート 著, ジェーン・G・ハリス 著(日経BP社)
- 『データ・サイエンティストに学ぶ「分析力」』ディミトリー・マークス、 ポール・ブラウン 著(日経BP社)
- 『図解入門 よくわかる多変量解析の基本と仕組み』 山口 和範、高橋 淳一、竹内 光悦 著(秀和システム)
- 『現場で使える統計学』豊田 裕貴 著(阪急コミュニケーションズ)
- 『大ヒットの方程式 ソーシャルメディアのクチコミ効果を数式化する』 吉田 就彦、石井 晃、新垣 久史 著(ディスカヴァー・トゥエンティワン)
- 『マネーボール』 マイケル・ルイス 著(早川書房、Kindle版)
- 『データマイニングがマーケティングを変える!』 SASインスティチュートジャパン 著(PHP研究所)
