Principal Component Analysis, 主成分分析
原理?
對(duì)于正交屬性空間中的樣本點(diǎn),用一個(gè)超平面對(duì)所有樣本點(diǎn)進(jìn)行恰當(dāng)?shù)谋磉_(dá),此超平面需要滿足兩個(gè)性質(zhì):
1. 最近重構(gòu)性:樣本點(diǎn)到這個(gè)超平面距離足夠近
2. 最大可分性:樣本點(diǎn)在這個(gè)超平面上的投影分得足夠開(kāi)
二者等價(jià),只需對(duì)協(xié)方差矩陣進(jìn)行特征值分解,求得特征值排序。
假設(shè)有N個(gè)維度,取前d個(gè)特征值對(duì)應(yīng)的特征向量構(gòu)成, 即是主成分分解式。
維度數(shù)d的選擇
1. 用累計(jì)方差貢獻(xiàn)率,不同d值下的累計(jì)方差值達(dá)到指定比例(python 中pca.explained_variance_ratio 解釋方差比例)。(Python數(shù)據(jù)科學(xué)手冊(cè)p382)
2. 設(shè)置重構(gòu)閾值t=95%,取
3. 用開(kāi)銷小的學(xué)習(xí)器,采用不同的d值交叉驗(yàn)證,選取d
特征噪聲
1.被刪除的維度往往與噪聲有關(guān)
2.留下的主成分過(guò)濾的噪聲數(shù)據(jù),可以還原成原有的維度觀察數(shù)據(jù)變化
components = pca.transform(faces.data)
projected = pca.inverse_transform(components)
判斷特征共線性
1. 若某幾個(gè)原始變量的PCA系數(shù)較大,且十分相近,那么這幾個(gè)變量可能存在共線性。(數(shù)據(jù)挖掘與數(shù)據(jù)運(yùn)營(yíng)p123)