共通のモノサシで測るために、データを基準化する
今回は、手順1のデータの基準化の方法を見ていきます。
前回の身長(cm)と体重(kg)の関係のように、データの単位が揃っていない場合、単純に数値通しを比較することが望ましくないので、基準化という方法を使って、共通のモノサシで評価を行います。基準化は、データから平均値を引いたものを標準偏差で割って計算します。
各缶コーヒーを「コク」「香り」「酸味」の3つの特色で5段階評価のアンケートをとりました。以下の表は、各缶コーヒーの評価点の平均をとっています。

5段階評価なので単位が揃っているかどうかあまり気にする必要はありませんが、5点と4点をつけた差が、3点と2点の差に本当に等しいかどうか(意識の等間隔性)保証しにくいので、データを基準化して扱うことにします。
ここがポイント!
データを基準化せず、生のデータで解析する場合(もとの分散の情報をいかす方法)、相関係数ではなく共分散を使って共分散行列を求めます。共分散は本連載では扱いませんが、Excelでは[データ分析]の[共分散]ツールを使うと簡単に計算できます。
平均点が違う国語と化学の80点、同じモノサシで評価するには?
まずは、単純な例でデータの基準化を学びます。
以下のような試験の成績のデータがあったとします。Aさんの国語の点数80点と、Dさんの化学の点数80点は同じ価値があるといえるのでしょうか。平均や標準偏差(バラツキ)を見ると、どうやらここでもデータの基準化が必要そうです。

基準化は、データから平均値を引いたものを標準偏差で割って計算すると述べました。これにより、基準値が出てきます。標準偏差1あたりのバラツキを示す値なので、「基準」値と言います。
式にすると、以下のとおりです。
基準値=(データ- 平均値)÷ 標準偏差

式に数字を当てはめると、以下のように求められます。
Aさんの国語の点数80点の基準値……1.525
Dさんの化学の点数80点の基準値……-0.183
基準値の簡単な目安は、以下のとおりです。
基準値=0 平均値に等しい
基準値>0 平均値より大きい(1より大きければかなり大きい)
基準値<0 平均値より小さい(-1より小さければかなり小さい)


今回は、手順1のデータの基準化をお伝えします。