回帰分析の醍醐味! 「y=ax+b」を使って予測しよう
前回は、2つのデータの関連性を相関係数でとらえる手法を学びました。しかし、相関係数の値を求めて相関の有無が分かっただけでは、せっかくのビジネスデータに発展性が見られません。
そこで次に、相関がありそうな2変数のデータを「原因系」と「結果系」の関係でとらえ、それらの関係を「回帰直線」で表します。その直線の式である「単回帰式:y=ax+b」を求める「単回帰分析」を行うことにより、2つのデータの関係を数式で記述することができ、「予測」が可能となります。これが回帰分析の醍醐味です。
今回は、以下の「最高気温」と「アイスコーヒーの注文数」のデータから、最高気温30℃の時のアイスコーヒーの注文個数を予測するために、単回帰分析を行います。
単回帰分析とは
- 2つのデータ群を「原因系」と「結果系」の関係でとらえ、それらの関係を「回帰直線」で表す
- 得られた回帰直線から「単回帰式:y=ax+b」を求める
単回帰分析のメリット
- 「原因と結果」の関係がありそうな2群のデータの関係を数式で記述することより、データの「予測」ができる
単回帰分析の注意点
- 2つのデータ群の間に「原因系」と「結果系」の関係がありそうな場合、単回帰分析が利用できる
- まず散布図を描き、2変数の相関関係や外れ値などを確認する
- 単回帰式を求めたら、式の「精度」を必ず確かめてから予測に用いる
事例)最高気温とアイスコーヒーの注文個数
懐かしの「y=ax+b」は仕事にどう使えるのか
単回帰分析とは、2つのデータ群を「原因」と「結果」の関係でとらえたとき、それらの関係を「回帰直線」で表すことのできる分析手法です。得られた回帰直線から「単回帰式:y=ax+b」を求めることで、点(データ)のない部分でも値を予測することができるようになります。
単回帰式「y=ax+b」の2変数(xとy)のうち、原因系データであるxのことを「説明変数」といい、結果系データであるyのことを「目的変数」といいます。aはいわゆる直線の傾きを表しますが、統計学では「回帰係数」と呼びます。bは「切片」です。それぞれの値は、後述する「最小二乗法」という数学的考え方にもとづいて求められます。
カンに頼らない! 2015年8月26日「Excel徹底活用!アンケート設計と分析」講座開催
Webの記事を読むのもいいけれど、リアル末吉正成さんに会って直接講義を受けませんか?
「プッシュ型リサーチの代表「アンケート」を効果的に活用するために必須の、ビジネス統計を学びます。論理的なアンケート設計、マーケティングに必須の統計の知識、Excelを使ったデータ分析の三本柱を身につければ、あなたも明日からデータに強いマーケターになれるはず!