2.11 PCA的算法原理和流程
基于最小投影距離為評(píng)價(jià)指標(biāo)推理:
假設(shè)數(shù)據(jù)集是個(gè)
維數(shù)據(jù),
,也就是默認(rèn)為
行
列的矩陣。這個(gè)矩陣的數(shù)據(jù)已經(jīng)進(jìn)行了中心化。經(jīng)過(guò)投影變換得到新坐標(biāo)為
,其中
是標(biāo)準(zhǔn)正交基,即
,
。
- 降維
?經(jīng)過(guò)降維后,新坐標(biāo)為,其中
是降維后的目標(biāo)維數(shù)。樣本點(diǎn)
在新坐標(biāo)系下的投影為
,其中
是
在低維坐標(biāo)系里第
維的坐標(biāo)值。
- 升維
?如果用去恢復(fù)
,則得到的恢復(fù)數(shù)據(jù)為
,其中
為標(biāo)準(zhǔn)正交基組成的矩陣。
?考慮到整個(gè)樣本集,樣本點(diǎn)到這個(gè)超平面的距離足夠近,目標(biāo)變?yōu)樽钚』? 。對(duì)此式進(jìn)行推理,可得:
?在推導(dǎo)過(guò)程中,用到了:
-
,
- 矩陣轉(zhuǎn)置公式
,
-
,
-
以及矩陣的跡。
最后兩步是將代數(shù)和轉(zhuǎn)為矩陣形式。 由于 的每一列向量
是標(biāo)準(zhǔn)正交基,
是數(shù)據(jù)集的協(xié)方差矩陣,
是一個(gè)常量(因?yàn)闅w一化了)。最小化
的問(wèn)題可以等價(jià)于
利用拉格朗日函數(shù)可得到
對(duì) 求導(dǎo),可得
,也即
。
是
個(gè)特征向量組成的矩陣,
為
的特征值。
即為我們想要的矩陣。 對(duì)于原始數(shù)據(jù),只需要
,就可把原始數(shù)據(jù)集降維到最小投影距離的
維數(shù)據(jù)集。
由上述分析,得到PCA的算法流程。
輸入: 維樣本集
,目標(biāo)降維的維數(shù)
。
輸出:降維后的新樣本集 。
主要步驟如下:
-
歸一化。對(duì)所有的樣本進(jìn)行中心化,
。
- 計(jì)算樣本的協(xié)方差矩陣
。
- 對(duì)協(xié)方差矩陣
進(jìn)行特征值分解。
- 取出最大的
個(gè)特征值對(duì)應(yīng)的特征向量
。
- 標(biāo)準(zhǔn)化特征向量,得到特征向量矩陣
。
- 轉(zhuǎn)化樣本集中的每個(gè)樣本
。
- 得到輸出矩陣
。
注:在降維時(shí),有時(shí)不明確目標(biāo)維數(shù),而是指定降維到的主成分比重閾值。假設(shè)
個(gè)特征值為
,則
可從
得到。
PCA算法主要優(yōu)缺點(diǎn)
優(yōu)點(diǎn):
- 僅僅需要以方差衡量信息量,不受數(shù)據(jù)集以外的因素影響。
- 各主成分之間正交,可消除原始數(shù)據(jù)成分間的相互影響的因素。
- 計(jì)算方法簡(jiǎn)單,主要運(yùn)算是特征值分解,易于實(shí)現(xiàn)。
缺點(diǎn):
- 主成分各個(gè)特征維度的含義具有一定的模糊性,不如原始樣本特征的解釋性強(qiáng)。
- 方差小的非主成分也可能含有對(duì)樣本差異的重要信息,因降維丟棄可能對(duì)后續(xù)數(shù)據(jù)處理有影響。
?