変数の数に注目:解析手法の分類
前ページでは、データをどう料理するか判断する基準の1つとして、データの特性に注目しました。先にも記したように、数えられるデータか数えられないデータであるかで、どう処理するかが変わってきます。
次に、データの項目である変数に注目します。こちらも変数の数によって、分析する手法が変わってきますので、しっかり理解しましょう。
変数が1つの場合
例)東京都の高校3年生の身長のデータ
「ヒストグラム」「基本統計量」などを用いて、データ群が持つ特徴・構造(平均、分散、標準偏差など)をつかみます。
ヒストグラム
基本統計量
変数が2つの場合
例)「サンドイッチの売上」と「紅茶の売上」の関係
「散布図」「相関」などを用いて、2つのデータ同士の関係性を見ます。また、「単回帰分析」を使うことで、データのない部分の“予測”を求めることができます。
散布図
変数が3つ以上の場合
例)「マンション価格」と「築年数」「面積」「駅からの徒歩時間」など
3つ以上のデータの関係を分析します。目的に応じて「要因・予測分析」(目的変数(価格)に影響を与えている要因の大きさを比較分析する)など、さまざまな解析手法があります。
特に、変数が3つ以上あるデータのことを「多変量データ」と呼びます。多変量データを分析する方法を「多変量解析」と言います。変量とは、ある変数に対して実際に測定されたデータのことを意味します。
