単回帰分析を始める前に、因果関係と相関関係をチェック!
最高気温とアイスコーヒーの注文数のデータをザッと見てみると、最高気温が上がるのに伴ってアイスコーヒーの注文数も増加しているようです。つまり、暑くなればなるほどアイスコーヒーが売れるという関係、すなわち前回学んだ「正の相関」がありそうです。
また、これらの関係を別の見方で表すなら、「最高気温」という「原因系データ」によって「アイスコーヒーの注文数」という「結果系データ」が変動していると捉えることができます。これらの関係を利用して、最高気温30℃の時のアイスコーヒーの注文数を予測します。
- 2変数のデータの因果関係(どちらが「原因系」で、どちらが「結果系」なのか)を把握します。
- 2変数のデータの関係を散布図や相関係数で確認し、単回帰式を求めることの妥当性をチェックします。
- 単回帰式(y=ax+b)を求めます。
- 単回帰式の精度を確認します。
- 単回帰式に値を代入し、予測します。
それでは、ここから実際の分析を行なっていきます。
単回帰分析を行う大前提として、2群のデータの間に「因果関係(原因系と結果系)」と「相関関係」が必要です! データを予測したいと思っても、そもそも単回帰分析を行う妥当性が無いようなデータでは意味がありません。単回帰分析は、2群のデータの間に「原因と結果」の関係があり、なおかつ「相関」が認められる場合に有効な分析手法です。
まず、2変数データを散布図で視覚化することにより、外れ値等の極端に離れたデータがないかどうかチェックします。また表を描くときは、「原因となるデータは左の列に、結果となるデータは右の列に」配置します。そうすると、散布図の横軸(x軸)には原因データが、縦軸(y軸)には結果データが表記されますので、続いて単回帰式を求める際にも有効です。
「散布図」は、[挿入]タブの[グラフ]の[散布図]から作成します。

散布図より、外れ値等の異常データが含まれていないことが確認できたので、このまま分析を進めていきます。
「相関係数」を求めます。CORREL関数を用いる場合、結果を表記させたいセルに「=CORREL(範囲1, 範囲2)」と入力します。

最高気温とアイスコーヒーの注文数の相関係数は0.943となりました。これより、最高気温と注文数の間には非常に強い相関がありそうなので、これらのデータをもとに単回帰分析を行う意義はありそうです。
単回帰分析、ここがポイント
分析したいデータの間に、以下の3点について事前に確認しておきましょう。
- 「原因と結果」の関係があるか
- 「相関」が認められるか
- 外れ値等の異常データが存在しないか
この確認は、単回帰分析を行う大前提として必要不可欠なステップです。これら3つを網羅しないデータに対しては、単回帰分析を行うと解釈を誤る恐れがあります。
確認したデータに不適合な点が認められた場合は、まずは単回帰分析に相応しいデータを準備する作業(データ収集方法の見直しや、既存データの整理等)に取り掛かりましょう。
次はいよいよ、単回帰式を求めます。散布図を利用する場合、分析ツールを利用する場合、2つの方法を紹介します。
