主成分分析とは 03 ( 情報要約までの流れ )

主成分分析は、多種類のデータを要約してデータを解釈する為のツールだが、
主成分軸からどうやればいいのか分からなくなったので引用まとめ。

 

1. 第 m 主成分軸を求める

以下が分かる。

固有値
分散。情報量。 1 以上ある主成分が、元データとの関連が深いとされている。

寄与率
元データの何割を説明することができるか、を表わしたもの。

累計寄与率
各主成分の寄与率を足した数値。
累積寄与率が 80 %以上となるまでの主成分を分析に使う。

 

2.因子負荷量を求める

主成分強く寄与している変数を見つけるため。

各主成分軸から求めるもよう。
-11 に近い因子ほど、主成分に強く寄与している。
因子負荷量をプロットすることにより、
主成分に寄与している因子を視覚的に捉えることができる

ex ) PC1 に強く寄与するが、PC2 にほとんど寄与しない因子などが分かる。

 

3. 主成分得点を求める

主成分軸に個々のデータを代入したものが主成分得点

1 つのサンプルは、第 m 主成分得点、第 n 主成分得点… という具合に
主成分軸分の得点が求められる。

 

4. 主成分得点をプロットする ( データの要約完了 )

プロットすることにより、個体の特徴や位置を把握分類できる。

 

 

https://statistics.co.jp/reference/software_R/statR_9_principal.pdf より。

標本数:166
変数の数:9 ( 国語、社会、理科… )
できるだけ少ない変数で生徒の特徴を捉えたい。

 

1. 第 m 主成分軸の各固定値、寄与率、累計寄与率が算出。

f:id:koshinRan:20190216074604p:plain

 

第 m 主成分の構成からデータ解釈。
f:id:koshinRan:20190216074841p:plainf:id:koshinRan:20190216074927p:plain

 

2. 因子負荷量を求めてプロットし、解釈。

f:id:koshinRan:20190216075322p:plainf:id:koshinRan:20190216075449p:plain

 

3. 4. 主成分得点を求めてプロット

f:id:koshinRan:20190216080830p:plain

主成分軸 PC1 に合わせて回転。
赤い線変数 ( 国語や数学 ) のもつ影響を図示したもの。

第 1 主成分の解釈:
筆記の総合得点。右のデータほど筆記の総合点が高い

第 2 主成分の解釈:
下にあるデータほど体育の成績が良い。( ※ベクトルの向きに注意 )

グラフより、( プロットされてる数値は出席番号 )
4 番は筆記が優れているが体育は平均、
8 番は筆記も体育も平均、
130 番は筆記は平均だが体育は得意とわかる。

 

「主成分軸 PC1 に合わせて回転」について。
https://logics-of-blue.com/principal-components-analysis/ より。
f:id:koshinRan:20190216081547p:plainf:id:koshinRan:20190216081239p:plain
PC 1 軸 を -45°程度回転して水平にすると、X は右下がりの赤い線が引ける。
同じ方向に伸びていると「ほぼ同じ意味持つ変数」と見なせる。

 

 

 

こちらから。
https://statistics.co.jp/reference/software_R/statR_9_principal.pdf
https://logics-of-blue.com/principal-components-analysis/

以上。