重回帰式をそのまま使わず、「最適な回帰モデル」を探す
前回、コンビニの売上高に影響を与えている要因として、「接客」「品揃え」「面積」「立地」の4つの説明変数を全部採用して、以下の重回帰式を得ました。
売上高=130.20+(132.92×接客)+(90.87×品揃え)-(3.49×面積)-(42.65×立地)
渋谷エリアを統括するマネージャーは、このデータをもとに、新たに初台への出店を考えています。
接客と品揃えは「やや満足している」4点をキープするよう努力するとして、店舗の面積と立地はそれぞれ25平方メートル、0.5kmの物件を考えています。この場合の、売上高はいくらぐらいになると予測できるでしょうか?
単回帰式同様に、重回帰式でも式に予測データを代入することで、予測を行うことができます。上の式から、以下のように求めます。
しかし、本当にこの数値を予測分析に使っていいのでしょうか?
前回、売上高に効いている要因として、「接客」「品揃え」「面積」「立地」の4つの説明変数を全部採用しました。しかし実は、重回帰分析には変数選択の問題といって、必ずしも全部の変数を取り込まない方がより精度の回帰式(最適な回帰モデルといいます)ができることがあります。
どの説明変数を採用して回帰式を作るのが一番精度の高いモデルになるか、検証する方法にはいろいろなやり方がありますが、ここでは変数減少法というやり方を紹介します。簡単にいうと、説明変数を4つ全部取り込んだ時、3つの場合、2つの場合、1つの場合で、それぞれどれが一番精度が高いか判断するというものです。
精度の高さを判断する指標として、自由度調整済寄与率(補正R2)、赤池弘次の情報量規準(AIC)などいろいろありますが、ここではExcelの回帰分析結果から簡単に計算できる上田太一郎の説明変数選択規準(Ru)を紹介します。
カンに頼らない! 2015年8月26日「Excel徹底活用!アンケート設計と分析」講座開催
Webの記事を読むのもいいけれど、リアル末吉正成さんに会って直接講義を受けませんか?
「プッシュ型リサーチの代表「アンケート」を効果的に活用するために必須の、ビジネス統計を学びます。論理的なアンケート設計、マーケティングに必須の統計の知識、Excelを使ったデータ分析の三本柱を身につければ、あなたも明日からデータに強いマーケターになれるはず!