主成分分析とは 01

「主成分分析とは」 → 「何が良いのか」 → 「情報量と分散」 → 「主成分軸」

 

 ・統計学上のデータ解析手法の一つ。
多種類のデータを要約する為の強力なツール。
・多次元データのもつ情報をできるだけ損なわずに低次元空間に
    情報を縮約する方法。
主成分:ある物質を構成している成分のうち主なもの。

 

分かりやすくいえば、
多くある次元 ( 指標 ) のデータから、全体を分かりやすく見通りのよい
1 ~ 3 程度の次元に要約すること。 次元の縮約と呼ばれる。
縮約:規模を小さくして簡潔なものにすること。

ex )
国語・数学・理科・社会・英語 → 総合点:
5 次元データから 1 次元データへの縮約

体重・身長 → BMI
2 次元データから 1 次元データへの縮約 

 

何が良いのか

データ全体の雰囲気を視覚化することができる。視覚化により、
データが持つ情報を解釈しやすくなる。( 度数分布でデータの可視化は重要って調べてたわ… )
データの特徴を判断しやすくなるので、カテゴリ分けなどにも応用が可能。 

ex )
ユーザをカテゴライズしたい時、
年齢・収入・性別・購買頻度など様々な要素から
収入が高く購買意欲が高いユーザ、など複数の要素を
一つのカテゴリとして扱える。

 

情報量と分散

2 次元のデータを 1 次元に縮約することを考える。
横軸に射影すると 縦軸の情報が損失し、
縦軸に射影すると 横軸の情報が損失する。

この時、射影したデータのばらつきが大きいほど
元データの情報を多く含んでいる ( 情報の損失が少ない ) と考えられる。
https://statistics.co.jp/reference/software_R/statR_9_principal.pdf より拝借。
f:id:koshinRan:20180820223613p:plain

故に、もとのデータの情報損失ができるだけ小さくなるような軸を探すには、
射影したデータの分散が最大となる軸を探せばよい。

 

主成分軸

主成分軸が引けると、データの概要をつかむことができる。

主成分分析を通してひかれた線を主成分軸という。
最も多くデータを反映した軸 1 主成分軸 ( 分散幅が最大 )、
2 番目に多くデータを反映した軸を第 2 主成分軸 ( 分散幅が 2 番目 ) という。

 

第 1 主成分軸

x が成分。

https://statistics.co.jp/reference/software_R/statR_9_principal.pdf より拝借。
f:id:koshinRan:20180824231808p:plain

 y1 = ax1 + bx2 の ab を探す。
a, b を実定数というらしい。x は実変数。

実定数:数学的な実数の値を近似したもの。
実数:無理数有理数複素数が実数と虚数 ( √の中が負 )。

 

第 2 主成分軸

第 1 主成分軸直交する軸の中において、
この軸上に射影したデータの分散が最大となる軸を探す。

f:id:koshinRan:20180824230044p:plain

y2 = cx1 + dx2 の cd を探す。 

 

 

3 次元空間から 2 次元空間の縮約

要素が増えたので軸を探す時、要素を追加するだけ。

y1 = ax1 + bx2 + cx3
y2 = dx1 + ex2 + fx3
a ~ f の値を探す。

 

 

 

こちらから。
https://statistics.co.jp/reference/software_R/statR_9_principal.pdf
https://logics-of-blue.com/principal-components-analysis/
https://www.intage.co.jp/glossary/401/
https://qiita.com/NoriakiOshita/items/460247bb57c22973a5f0
https://jp.xlsoft.com/documents/intel/cvf/vf-html/lr/lr03_01_02_01.htm

以上。

 

--単語メモ--

分散共分散行列 ( 相関行列 ) の固定値:
主成分の分散のこと。つまり主成分がもつ情報量。

主成分を構成する係数 ( 2x の 2 の部分 )
分散共分散行列( 相関行列 ) の固有ベクトルを求める手続きにより得られる
固有ベクトル = 主成分軸の係数

 

主成分分析では、
分散共分散行列から分析を行う場合と、相関行列から行う場合で結果が異なる。

データが異なる尺度 ( 単位 ) で測定されている場合には、
変数を基準化して分析を行う必要がある。