主成分分析(しゅせいぶんぶんせき、principal component analysis)

主成分分析(しゅせいぶんぶんせき、principal component analysis)は、経済学の分野などが発祥の統計手法。複数の変数間の共分散(相関)を少数の合成変数で説明する手法。 共分散行列の固有値問題の解として得ることができる。

市町村の人口・学校数・商業施設数・進学率・第一次産業の就業率・水道の普及率などには通常高い相関がある。この相関を1つの変数が作った偽相関と仮定し、数学的に算出する。それを第一主成分と呼ぶ。第一主成分は数学的な計算結果に過ぎない。これの意味を分析者が解釈し、たとえば「都市化指数」などと想定し、都市化の指標とする。その残差に対して同じ計算を適用して、主成分は第二、第三、と作れるがその変数間の関係を説明する主成分負荷量が小さくなっていくので、解釈困難になっていく場合が多い。

心理学やマーケティングで使われる因子分析が主成分分析と同一の手法であるとの誤解が生じるのは統計ソフトにおいて類似のルーチンを用いるためである。詳しくは因子分析の項目を参照のこと。

-------------------------------------------------

○ 概要

 主成分分析・・・多種類の説明変数(定量的データ)があって目的変数はないときに,これらの説明変数をとりまとめて総合指標となる変数(定量的データ)を作り,資料間の差異をはっきりさせる.

 説明変数 x1,x2,・・・,xn から新しい変数

z = a1x1 + a2x2 + ・・・ + anxn

を定義する.zは(第1)主成分と呼ばれる.主成分は必要に応じて第2主成分,第3主成分,・・・と増やすことができる.

 (1) 採用試験において各学生の「在学時学習成績」「適性検査」「学科試験」「性格検査」「一般常識」などの評価項目から総合指標を求める.

 (2) 各会社の「成長性」「企業規模」「従業員数」「財務健全性」「資本金」「営業利益」などの評価項目から総合指標を求める.

○ 主成分の求め方(要点)

各変数(説明変数)の単位がそろっている場合などにおいては,

(ア) 分散が最大となる変数(実際は係数)を直接求めてもよい.

(イ) 分散共分散行列の固有値固有ベクトルから求めてもよい.

各変数(説明変数)の単位がそろっていない,数字のスケールが違うなど多くの場合は,

(ウ) 元のデータを基準化(規格化,標準化)して分散が最大となる変数を求めるとよい.

(エ) 相関係数行列の固有値を利用して求めることができる.