なぜ統計量を確認する必要があるのか
仮に100人いるとして、背が低い順番に並んでもらったとしましょう。それぞれの意味は次の通りになります。
- 1番目の最も背が低い人の身長がMin つまり最小値
- 25番目の人の身長が1st Quであり第1四分位(つまり25%目の値)
- 50番目の人の身長がMedianであり中央値(つまり50%目の値)
- 75番目の人の身長が3rd Quであり第3四分位(つまり75%目の値)
- 100番目の最も背が高い人の身長がMax つまり最大値
となります。では、何故このような統計量を確認する必要があるのでしょうか?
ちょっと大事なお話です。データ分析に取り掛かる前に
- 扱っているデータは本当に正しいか?
- 意図していない異常値が紛れ込んでいないか?
といった観点からチェックすることはとても大事です。一生懸命分析して結論を導いたとしても、それが誤ったデータに基づくものであったのなら……。ちょっと想像したくないですね。
と、いうわけで今回の数字を確認してみましょう! 純広告のインプレッション数は、最小値が48,507回、最大値が128,640回でした。最小値の2.65倍のインプレッションが出ていたということになります。
中央値(Median)と平均値(Mean)を比較してみると、平均値の方が約4,000回多くなっています。つまり、
- インプレッション数が通常の状態と比較して極端に多い日があったか
- キャンペーン等で出稿を強化していた時期とそうでない時期があった可能性
を示唆しています。前回の連載記事で時系列の折れ線グラフを書きました。
こちらのグラフを純広告のインプレッション数は1/20までは高い傾向にありましたが、以降は減少しており、1/20までと1/20より後では平均値が異なっていることが伺えます。先ほどの推測の2が該当しそうです。
平均値、中央値、外れ値について
平均値(Mean)は外れ値(データの中で他の値から大きくはずれた値)の影響を受けやすい性質があります。
例えば、10人の年収の平均値を計算する時に飛び抜けて年収が高い人が1人入ってしまった場合、平均値は中央値(Median)よりも大きくなります。この平均値がグループの平均的な姿を表しているのか? というと疑問が出ますよね。
その他の変数についても確認していきましょう!リスティングでは中央値と平均値の大きな違いはないようです。続いて最小値、最大値を見てみましょう。
CV_純広告、CV_リスティングを比較すると中央値、平均値共に2回ほどリスティングの方のCV数が多いことが示されています。また、それぞれの最大値を最小値で割ると(24÷6=4,27÷7=3.857…)、4倍ほどの開きがあることが確認できます。
うーん、何というか細かい数値はわかったが……直観的にも確認してみたいですよね!ね! と言うわけで下記のコードをコピペしてみましょう。
par(mfrow=c(2,2))
hist(sample$純広告)
hist(sample$リスティング)
hist(sample$CV_純広告)
hist(sample$CV_リスティング)

par(mfrow=c(2,2))
は、2×2のグラフを書く準備でしたね(参考)。すると…お! なにやらまた新たなグラフが描かれました。
簡単! 2015年2月10日「3つ」覚えて分析から視覚化まで即実践!Rでできるデータ分析講座開催
Rをインストールしたが、無骨なUIに「今日はこのへんで……」と、そっと閉じてしまった方にオススメです!
本講座では実機を使って「できるだけわかりやすく」グラフ化&データ分析をワークショップ形式で簡単に身に付けることができます。