新しい軸を見つける、それが主成分分析
情報の次元を少なく要約できるところに主成分分析のメリットがあります。ここでは、理解を深めてもらうために、2次元のデータを使ってもう少し詳しく説明します。
今、ここに身長と体重のデータがあります。一般に身長と体重には正の相関(身長が高い人は体重も重い関係)があるといわれています。

横軸は、身長の分布、縦軸は体重の分布を表しています。このグラフを見ながら、首を左に傾けてグラフを眺めるとちょっと世界が変わって見えませんか?

グラフ上のA の方向にいくほど、「身長が高く体重が重い」→「大きい人」、B の方向にいくほど「身長が低く体重も軽い」→「小さい人」となります。つまり、A とB の赤い線は、「体格(大きいか小さいか)」に関する情報になっていると解釈できませんか。
もう1本の方はどうでしょうか。C の方向にいくほど「身長が低く体重が重い」→「太っている人」、D の方向にいくほど「身長が高く体重が軽い」→「やせている人」となります。C とD の線は「体型(太っているかやせているか)」に関する情報になっていると解釈できます。
元のデータにあった「身長」と「体重」という変数から、「体格」と「体型」という新しい変数が作りだされました。

ここで重要なのは、身長と体重が測定されたデータであるのに対して、体格と体型という新しい変数は加工されたデータである、ということです。今回は2 次元のデータなので、あまりありがたみがありませんが、複数の変数がある場合、少ない次元で情報を要約できればデータの構造・特色が非常にわかりやすくなります。
たくさんの情報を持つ散布図空間の中で、まずデータのバラツキが最大の方向(AB)を見つけ、それと直交(垂直に交わる)しながら、バラツキがその次に大きい方向(CD)を見つけることによって、データの持つ情報を効率的に理解することができます。このような新しい軸を見つける分析手法、これが「主成分分析」です。
分析の結果、新しく作った軸のことを 「主成分」と言います。主成分は、バラツキが最大の方向を示す主成分から順に、それぞれ第1 主成分、第2 主成分…と呼ばれます。数学的には変数の数だけ主成分は作ることができますが、同じ数だけ軸を作っては、情報の縮約になりません。本当に効いている少数の次元で情報を説明することが主成分分析の醍醐味になります。