PCA

Principal Component Analysis, 主成分分析

原理?

機(jī)器學(xué)習(xí)P229

對(duì)于正交屬性空間中的樣本點(diǎn),用一個(gè)超平面對(duì)所有樣本點(diǎn)進(jìn)行恰當(dāng)?shù)谋磉_(dá),此超平面需要滿足兩個(gè)性質(zhì):

1. 最近重構(gòu)性:樣本點(diǎn)到這個(gè)超平面距離足夠近

2. 最大可分性:樣本點(diǎn)在這個(gè)超平面上的投影分得足夠開(kāi)

二者等價(jià),只需對(duì)協(xié)方差矩陣XX^T進(jìn)行特征值分解,求得特征值排序。

假設(shè)有N個(gè)維度,取前d個(gè)特征值對(duì)應(yīng)的特征向量構(gòu)成W^*=(w_1,w_2,...,w_u0z1t8os), 即是主成分分解式。

維度數(shù)d的選擇

1. 用累計(jì)方差貢獻(xiàn)率,不同d值下的累計(jì)方差值達(dá)到指定比例(python 中pca.explained_variance_ratio 解釋方差比例)。(Python數(shù)據(jù)科學(xué)手冊(cè)p382)

2. 設(shè)置重構(gòu)閾值t=95%,取 \frac{\Sigma _{i=1}^u0z1t8os \lambda_{i}}{\Sigma_{i=1}^{N}\lambda_{i}} >=t

3. 用開(kāi)銷小的學(xué)習(xí)器,采用不同的d值交叉驗(yàn)證,選取d

特征噪聲

1.被刪除的維度往往與噪聲有關(guān)

2.留下的主成分過(guò)濾的噪聲數(shù)據(jù),可以還原成原有的維度觀察數(shù)據(jù)變化

components = pca.transform(faces.data)

projected = pca.inverse_transform(components)

判斷特征共線性

1. 若某幾個(gè)原始變量的PCA系數(shù)較大,且十分相近,那么這幾個(gè)變量可能存在共線性。(數(shù)據(jù)挖掘與數(shù)據(jù)運(yùn)營(yíng)p123)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容