単位を持たないバラツキの指標「分散」 単位を持つのが「標準偏差」
前回は、データの構造を理解するためにデータの真ん中である「平均値」というものを学びました。今回は、データのバラつき具合を理解するための指標としての「分散」と「標準偏差」について学びます。
まずは考え方を理解したうえで、実際にExcelを使って分析していきましょう。
例題:来月の発注計画を立てるため、30日分のデータの「分散」「標準偏差」を見る
コンビニショップ初台店の店長は、ある商品の売上が毎月どれくらいあるのか調べています。30日分のデータをもとに、毎月どれくらい売れていて、次月以降どれくらい発注すればいいのかおおまかな判断材料となる指標を探しています。
平均を求める
30日分の売上データの平均は、AVERAGEという関数を用いて求めると以下となります。
=AVERAGE(売上高の範囲)
=25.990(千円)
この商品は、月に平均26,000円近く売上があることが分かりました。そして、一番売上が多い日で42,300円、少ない日で16,300円と幅があります。
さらに、実際の売上データに平均(赤線)を加えてみると、下の図のようになります。
平均と日々の売上高を見ることによっても、「今日は儲かった」「さっぱりだった」等の判断はすることはできます。
しかし、もっと深く、売上の変動に何か規則性(月末には売上が増える等)はないかなどの情報を知りたい場合、データ全体の傾向を知る必要があります。
分散を求める
個々のデータから平均を引いたバラツキ(偏差といいます)を使うと、見えてきそうです。しかし単純に合計してしまうと、そもそも平均からどれだけバラツキがあるかを出したものなので、プラスとマイナスが相殺されてゼロになってしまいます。
実際のデータと平均(25.990)との差
偏差は平均値からの差なので、平均値より大きければプラスに、小さければマイナスになります。当然ながら偏差を足し合わせるとゼロになります。これでは、バラツキの比較ができなくなるので、プラスの影響とマイナスの影響が出ないように二乗して考えます。
偏差の二乗を足し合わた数値、1858.767(偏差の平方和といいます)はそのままは使えません。そこで、この総和をデータ数で割ってみます。これが分散です。
=1858.767(偏差の二乗の合計)÷30(データの個数)
=61.959
分散は、平均を中心としてデータがどれくらいばらついているかを見る指標です。とはいえ、商品の1日の売上高の平均は25,990円で、バラツキ(分散)は61.959といってもなかなか感覚がつかみにくいかと思います。
標準偏差を求める
少しさかのぼって考えると、分散を求める際、計算の都合上、偏差を二乗しました。これではもはや、「円」という単位をつける数値ではありません。
分散からルート(√)をとると、単位をつけることができます。これが標準偏差なのです。
=標準偏差=√分散
=√61.959=7.871(Excelで求める時は、=(61.959)^0.5 または、=SQRT(61.959))
この商品の1日の売上高の平均は25,990円で、バラツキ(標準偏差)は±7,871円(←単位を持ちます!)と表現することができます。
カンに頼らない! 2015年8月26日「Excel徹底活用!アンケート設計と分析」講座開催
Webの記事を読むのもいいけれど、リアル末吉正成さんに会って直接講義を受けませんか?
「プッシュ型リサーチの代表「アンケート」を効果的に活用するために必須の、ビジネス統計を学びます。論理的なアンケート設計、マーケティングに必須の統計の知識、Excelを使ったデータ分析の三本柱を身につければ、あなたも明日からデータに強いマーケターになれるはず!