分析したら、駅からの距離が遠いほどマンション価格が高くなった?
重回帰分析を行うとき、「説明変数の数がたくさんあればあるほど、より精度の高い分析ができる」というものでもありません。あまりに相関の高いデータ同士が含まれていると、1つのことを複数の説明変数で重複して説明していることになり、重回帰式の解釈を誤るリスクがあります。
具体例を見てみましょう。ここに、都市部のマンション価格に影響している要因を調べたデータがあります。説明変数、目的変数は以下のとおりです。
説明変数
- 駅からの徒歩時間
- 駅からの距離
- 築後年数
- 土地面積
目的変数
- 価格
ここから、ある中古物件の価格を考えたいとします。重回帰分析をそのまま行なってもよいのでしょうか?
STEP1:とりあえず、回帰分析してみる
まずは、このまま回帰分析にかけてみます。
[データ]タブの[データ分析]をクリックし、[分析ツール]を開きます。[分析ツール]の[回帰分析]を選択し[OK]をクリックします。2003の場合は、[メニューバー]の[ツール]を選択し、[分析ツール]をクリックし、[回帰分析]を選択し[OK]をクリックします。
ダイアログに従い、[入力Y範囲]に価格のデータを、[入力X範囲]に駅からの徒歩時間から土地面積までのデータを指定し、[ラベル]にチェックを入れて[OK]をクリックします。
出力結果
結果を見て、何か気づきませんか? そう、説明変数「駅からの距離」の回帰係数の符号が「(正)の6.832」となっています。これは、「駅からの距離が遠くなるほど、価格にプラスの効果を与えている」を意味します。一般的に考えて、都市部では駅から離れるほど立地の面でマイナスになるためマンションの価格は低くなりそうですが、なぜか逆の結果が出ています。
原因はどこにあるのでしょうか。調べてみましょう。
カンに頼らない! 2015年8月26日「Excel徹底活用!アンケート設計と分析」講座開催
Webの記事を読むのもいいけれど、リアル末吉正成さんに会って直接講義を受けませんか?
「プッシュ型リサーチの代表「アンケート」を効果的に活用するために必須の、ビジネス統計を学びます。論理的なアンケート設計、マーケティングに必須の統計の知識、Excelを使ったデータ分析の三本柱を身につければ、あなたも明日からデータに強いマーケターになれるはず!