データ解析に重要な4つのS
統計の学習を進めていく中で、ややもするとExcelなどソフトの機能に頼りすぎ、データをざっと眺めて、性急に各分析手法のボタンを押し、ちょこちょこっとグラフを作成して、答えを出した気になることがあります。また、思うような解析結果が得られない原因は、データを取得する際、あるいは分析を行う際の単純なエラーによるものも少なくありません。
データを正しい手順で効率よく採集し、解析するために、特に注意していただきたいのが以下の4つです。日本語の頭文字をとって以下、4つのSと呼びます。いずれもごく当たり前のことですが、案外おろそかになりがちなことですので、精度の高い分析を行うためにも、4つのSを頭の中に入れておいてください。
- 採集
- 視覚化
- 層別
- 相関
[採集]データは適切に集めること!
――データの入力、転記ミスはないか
統計の世界では、「garbage in, garbage out」という言葉があります。garbageとは「ゴミ」の意味です。解析するデータにゴミデータが入っていれば、どんなに適切なデータ解析を行っても、ゴミ(有用な情報ではない)しかアウトプットできないという意味です。
実務の世界でも、この種の人為的なミスによるエラーが一番多いのです。どうすれば必要なデータを正しい手順で効率よく収集できるか、意識しましょう。
[視覚化]数値データだけをみて判断しない!
──グラフ、ヒストグラム、パレート図、散布図……etc.
入門者よりも、慣れてきた中級者の方によく見られますが、データを見てExcelの統計関数や分析ツールで答えを出し、判断してしまいがちです。関数やツールを使う前に、まずは視覚的にデータを捉えることで、次の2つを行うようにしてください。
- 極端に集団から外れたデータがないかどうか見て確認する(外れ値の検出)
- データ解析を行う前に、ある程度の仮説を立てる
最近の統計ソフトはよくできているので、とにかくいろんな変数を取り込んで、解析のボタンを押すとそれなりの結果を出すことができます。しかし、レポートとしてある程度の体裁は整えることができたとしても、本当にビジネスの現場に役に立つでしょうか?
解析を行う前に(さらに言うとデータを採取する前の、設計の段階で)自分なりの仮説を立ててから解析を行う癖をつけましょう。仮説は外れても全く問題ありません。なぜ仮説が外れたのか。そこに問題解決のための新しいヒントがあるはずです。
[層別]データをいろいろな角度から見よう!
──男女別、年代別、月別、曜日別、天候別、工程別、季節別、国別、ランク別、材料タイプ別……etc.
データ全体から出したある結論が、「男性と女性に分けてみた場合」「年代ごとに分けてみた場合」「地域ごと分けてみた場合」で、変わってくることがよくあります。データという1つの事実に対して、いろいろな角度からアプローチする癖をつけましょう。
問題解決ができる人は、プロの料理人にも似ています。データが食材だとすると、1つの食材で1つの調理法しかできないのであれば、プロの料理人としては厳しいと思います。
居酒屋などの飲食店に行く機会があったら、お店の「お客さまアンケート」の質問や回答の書かせ方をぜひ見てください。そして、「自分がここの店長だったら?」と想定してシミュレーションします。「作成者はこのリサーチで何を知りたいのか」「自分が解析者だったら、◯◯な分析手法を使おう!」これを繰り返すことで、皆さんの問題解決能力は飛躍的に高まるはずです。
[相関]2種類のデータの関係性を見つけよう!
──年齢と年収、経済成長率と失業率、営業の訪問回数と受注金額……etc.
さまざまな社会現象や自然現象、ビジネスデータの中に存在している「未知の法則性」を見い出すことができれば、データ解析はより楽しく有意義なものになるでしょう。
ただし注意が必要なのは、相関関係と因果関係は別の概念ということです。相関関係があるとついつい因果関係があると結論づけたくなるものですが、相関関係があっても因果関係がないものはよくあります。ここを間違えると判断に狂いが生じるので注意してください。
相関関係とは、「AとBのデータに何らかの関係があるかどうか」ということで、因果関係はそれに加えて、「原因と結果という関係性」がなければ成り立ちません。
例えば、日本の少子化と現役世代の年金負担アップには高い相関がありそうですが、因果関係とは異なるでしょう。というのも、年金負担が増えるのは少子化が直接の問題ではなく、年金システムの問題だとも言えるからです。一方、営業の訪問回数(原因)と受注金額(結果)はには、因果関係も相関関係もありそうです。
次回は、実際に問題を使いながら、統計と基礎となる「平均」「分散」「標準偏差」を学んでいきます。
