主成分分析 - 日本のものづくり～品質管理、生産管理、設備保全の解説匠の知恵

主成分分析（PCA）　　　　　　【イラスト図解】

主成分分析（PCA）　　　　　　【イラスト図解】

英語： principal component analysis; PCA　　中国語：主成分分析

主成分分析とは

互いに相関のある多数の変量を互いに無相関な少数の総合特性値(主成分と呼ばれる.)にまとめ，データを縮約する多変量解析手法．

主成分の値(主成分スコアと呼ばれる.)を座標とすることによって，多次元空間内のデータを低次元の空間に情報をあまり損なうことなく表示できる．

また，主成分ともとの変量の相関(因子負荷量と呼ぶ.)をプロットすることによって，変量間の構造が把握できる．

この意味で主成分分析は代表的なオーディネーションの手法といえる．

主成分はもとの変数の一次式で定義され，その各係数ベクトルは長さが1，という制約の下で次のように定められる．

第１主成分の係数ベクトルは，主成分の分散が最大となるように，第２主成分については，第1:主成分と無相関という条件の下で分散を最大とするように…．

主成分の計算は，数学的には対称行列の標準型を求めることにほかならず，固有値を求めるアルゴリズムによって数値的に求められる．

もとの変数をそのまま用いるか，分散１に基準化しておくか，あるいは分散が適当な値になるように重みを付けるかによって主成分分析の結果は変化する．

どのような方針を採用するかは解析目的に依存し，一概に論じられないが，通常は分散１に基準化し，相関行列から出発することが多い．

主成分がもとの情報をどれだけ保存しているかを示す尺度として寄与率がしばしば用いられる．

これは主成分の分散をもとの変量の分散の和で除したものでありこれが１以上になる主成分を「総合
指標として意味がある」として意味づけることが多い．

寄与率を第１主成分から当該の主成分まで加えたものを累積寄与率という．

引用先：クォリティーマネジメント用語辞典　日本規格協会

わかりすく主成分分析とは

主成分分析の一手法がマトリックスデータ解析法で新ＱＣ七つ道具の中で唯一の数値データ解析法である.

何かを予測する先生あり学習ではなく、先生なし学習にあたります。
主成分とはデータの特徴を表す要素のことで、「第一主成分、第二主成分・・・」という形で表現します。
具体例で解説します。
要素A~Eで構成されるデータがあります、5つも要素があると集計が大変なので、主成分分析で各要素をより少ない要素で表すことにしてみました。
分析の結果、全データを以下のように表すことができます。

重回帰分析　事例

5つの主成分がありますが第4と第5主成分はデータの構成要素のうち10%未満ですので、第1〜第3主成分で全データのほとんどの要素を表せることが分かりました。

このように主成分分析を実施すると、多くの変数(要素)で表されたデータをより少ない変数(要素)で表すことが可能です。

関連用語：マトリックスデータ解析法

主成分分析の利点

情報を集約しながら変数減少

主成分分析を使えばデータの情報量をなるべく減らさずに変数の数を減らすことが可能です。
主成分分析を使わずにデータの変数を絞りたい場合、いくつかの変数を切り捨てなければなりません。
しかしそれだと重要な変数も切り捨てなければならない場合が出てきます。
主成分分析は、各変数の情報をなるべく多く含むように第1主成分から順に主成分を生成していきます。
そのため通常よりも効率的に変数の数を減らすことができます。

データのグラフ化

第1主成分得点と第2主成分得点を使用することで、多くの変数を持つデータの可視化(グラフ化)ができます、通常は2変数以上含むデータを２次元でグラフ化することはできません。

しかし第1主成分と第2主成分に各変数の情報量を集約してしまえば、グラフ化が可能となります。

変数間の関係性　把握

各主成分の主成分負荷量をみることで、変数間の関係性を知ることが出来ます。
先ほどの例で上げた主成分負荷量をもう一度確認します。

第1主成分の主成分負荷量→｛要素A:1.1、要素B:0.3、要素C:0.9、要素D:-1.9、要素E:0.1｝
第2主成分の主成分負荷量→｛要素A:-1.1、要素B:1.2、要素C:0.3、要素D:0.2、要素E:1.1｝
第1、第2主成分をそれぞれx軸、y軸としてグラフ化すると以下のようになります。

要素Bと要素Eは近い位置にあり同じような性質を表す変数であることがわかります。
以上のように主成分負荷量をグラフ化することで、変数間の関係性を考察することも可能です。