主成分分析とは 02 ( 寄与率など )

単語メモと化した。複数のサイト見ないと理解出来ん。そして飽きた。

 

変数という単語がたびたび出てくる…。
変数:属性の項目のこと。
観測・実験・調査では、通常個体の属性を複数の項目変数)に分けて記録する。

 

変数が少ない場合は、
簡単なグラフや基本統計量などでデータの構造を明らかにすることができるが、
変数が多くなるとデータの構造が複雑になり、
解析が難しくなる一方、変数の間には相関がある可能性も増える。

 

主成分分析は、
多くの変数により記述された量的データの変数間の相関を排除し、
できるだけ少ない情報の損失で、少数個の無相関な合成変数に縮約して、
分析を行う手法である。
合成変数:( 多分 ) 体長・年齢・色…など変数があれば、体長と色、がこれに当たるかと。
量的:量に関するさま。量の見地 ( 観点 ) から見るさま。

 

固定値

・各主成分が含んでいる情報の大きさを示す指標
  一般に固有値 1 以上ある主成分が、元データとの関連が深いとされている。

・個々データにおける主成分方向の、( 負の相関とかの方向 ? )
  情報量 ( 分散? ) の総和から出した 標準偏差の二乗のこと。

 

与率

主成分軸一つ元データ何割説明することができるか、を表わしたもの
  要約すると必ず漏れてしまう情報があるので、第 2 主成分以降が必要となる。

データの全情報量に対して
  どの程度の情報量を個々の主成分が集めたかを示す比率
  ex )
  3 種の観測データ。固有値全体の情報量は 3。
  第 1 主成分の固有値が 2.85 ならば、2.85 / 3 = 0.95 が寄与率
  第 1 主成分 に95 % の情報量が集まった。
  データの散布図は直線に似た分布となっていることが予想される。
https://statistics.co.jp/reference/software_R/statR_9_principal.pdf より。
f:id:koshinRan:20190216064457p:plain
第 i 固有値は分散。

 

累積寄与率

・第 2・第 3 …と続く主成分の寄与率足した数値
  一般的に累積寄与率が 80 %以上となるまでの主成分を分析に使う。

選択した主成分占める情報量割合
次元の縮約により失う情報量を測ることができる。

 

主成分負荷量

相関係数のこと。因子負荷量ともいう。

元データの各変数 ( 数値 ) に対して与えられる係数( 変数=項目 ? )
  この数値が大きいほど、各変数が主成分に与える影響力が大きいことを表す。

因子負荷量をプロットすることにより、
  主成分に寄与している因子を視覚的に捉えることができる。

 

主成分得点

主成分軸 y = a * x1 + b * x2 + … に個々のデータを代入したもの

・主成分軸を基に、データをぐるっと回転させたときの座標に相当する値
https://logics-of-blue.com/principal-components-analysis/ より。
f:id:koshinRan:20190216064814p:plain
 PC:Principal Component ( 主成分 ) 軸のことかと。

 

 

 

こちらから。
https://statistics.co.jp/reference/software_R/statR_9_principal.pdf
https://logics-of-blue.com/principal-components-analysis/
https://www.intage.co.jp/glossary/401/
https://qiita.com/NoriakiOshita/items/460247bb57c22973a5f0
https://www.cis.doshisha.ac.jp/mjin/R/24/24.html

以上。