見せかけの相関には要注意
統計関数を使いこなせるようになると、データからすぐに相関係数を求めて、その結果のみで結論づけてしまう人が多くなるようです。しかしながら、相関係数はデータの関連性を直線関係で表したものにすぎません。「相関係数が低い=関連性がない」とは必ずしもいえないので注意しましょう。
以下、見せかけの相関の事例を2つあげます。
事例1:外れ値による見せかけの相関

セル(C13)にCORREL関数を使うと、相関係数は「0.60」となります。相関があるといっていいのでしょうか? いいえ、散布図による視覚化が欠かせません。上記を散布図に表すと、以下のようになります。

10番目のデータ(x=9, y=16)のデータは、外れ値の可能性が高いといえます。この場合、10番目のデータを除いた表を作成し、改めて相関係数を求めると、次のようになります。

セル(C34)にCORREL関数を使うと「-0.04」となり、ほぼ相関はないといった結果になります。
事例2:線形でない場合の相関
散布図で描いてみると、放物線を描く2次曲線になっており、xとyの間に何らかの関連性は認められます(接線の傾きが変わるx=3,000付近を境に左右対称に分布)。しかし、相関係数の値はほぼゼロになっています。
以上から、相関係数だけで判断するのは危険だということがお分かりかと思います。相関係数は、2つのデータの関係をどこまで直線で表わせているかの指標になります。すべての関連性を網羅しているわけではないので注意しましょう。
補足
事例2ででてきた「3.67E-17」とは、3.67×10のマイナス17乗という意味です。3.67×10のマイナス2乗だと、ゼロの桁が2つ左に移動するので、「0.0367」になります。3.67E-17は、3.67からコンマの桁が左に17も移動するわけですから、限りなくゼロに近いということになります。Excelでは、このE-◯◯という表記がよく出てきますので、この解釈をしっかり覚えておきましょう。
はてぶでいただいたコメントを踏まえて、筆者が加筆しました。
⇒「相関の目安ではしっくりこないという方へ」(Evernote)
本連載のコンセプトは、初心者にわかりやすくビジネス統計を伝えるというものです。そのため、上級者の方にとっては厳密に表現していないと感じられる箇所もあるかと思います。しかし、コンセプトを全うするため、本記事はこのまま掲載させていただきます。いただいたご意見については、今後の記事作りの参考にさせていただきます。たくさんのコメントありがとうございました。