1、降維的目的
1)數(shù)據(jù)壓縮
將數(shù)據(jù)從多維數(shù)據(jù)降低為低維數(shù)據(jù),從而減小數(shù)據(jù)的規(guī)模,并使用較少的計算機內(nèi)存或磁盤空間。在機器學(xué)習(xí)中,通過降維也可以加快算法計算。
2)可視化
通過降維可以減小數(shù)據(jù)的特征數(shù),從而可以分析組成數(shù)據(jù)的基本結(jié)構(gòu),方便可視化數(shù)據(jù)。但是,降維后新的特征所代表的含義需要我們依據(jù)情況自己分析。
2、主成分分析(PCA)
PCA是一種常見的降維方法。它是通過正交變換將原數(shù)據(jù)中線性相關(guān)的特征轉(zhuǎn)化為少數(shù)幾個線性無關(guān)的特征,這幾個線性無關(guān)的特征表示的變量稱為主成分。
2.1 主成分的幾何解釋
在選定主成分個數(shù)k后,我們的目的是選擇k個兩兩正交的基坐標(biāo)系,將樣本點向這k個坐標(biāo)分別進行投影,使得所有樣本點在坐標(biāo)上的投影平方和最大(即樣本點距投影坐標(biāo)的距離—投影誤差的平方和最?。M队捌椒胶驮酱?,代表保留原始數(shù)據(jù)的信息成分越多。
2.3 主成分分析的協(xié)方差矩陣特征值分解法
設(shè)X表示n×m矩陣,代表n個樣本、每個樣本是m維向量。
1)算法流程
- (1)將樣本的特征進行規(guī)范化處理
- (2)計算相關(guān)系數(shù)矩陣(規(guī)范化后的數(shù)據(jù)協(xié)方差矩陣和相關(guān)系數(shù)矩陣相等)的特征值λk和特征向量αk=(α1k,α2k...αmk)T。相關(guān)系數(shù)矩陣R與X矩陣關(guān)系如下:
- (3)選擇累計方差貢獻率大于某一閾值的前K個特征值。
數(shù)學(xué)上可以證明,樣本第k個主成分的方差與特征值λk相等,因此,累計方差貢獻率為前r個特征值之和與K個特征值之和的比值(r<=K)。 - (4)每個特征值λk(k=1,2...K)對應(yīng)的特征向量αk進行線性變換后的值稱為樣本的第k個主成分。
2)因子負(fù)荷量
主成分yi與變量xj與的相關(guān)系數(shù)ρ(yi,xj)也稱為因子負(fù)荷量。計算公式為:
如果是規(guī)范化矩陣,則變?yōu)椋?img class="math-block" src="https://math.jianshu.com/math?formula=%5Crho%20(y_%7Bi%7D%2Cx_%7Bj%7D)%3D%5Csqrt%7B%5Clambda_%7Bi%7D%20%7D%5Calpha%20_%7Bji%7D" alt="\rho (y_{i},x_{j})=\sqrt{\lambda_{i} }\alpha _{ji}" mathimg="1">
K個主成分對原變量xj的貢獻率為:
2.4主成分分析的奇異值分解法
設(shè)X表示n×m矩陣,代表n個樣本、每個樣本是m維向量。X每一列數(shù)據(jù)進行了規(guī)范化處理。
算法流程如下: - (1)構(gòu)造新的矩陣X'
- (2)依據(jù)主成分個數(shù)k對矩陣X'進行截斷奇異值分解,得到:
其中,U為n×k矩陣,Σ為k×k對角矩陣,對角線元素為x'的k個奇異值,V為m×k矩陣。矩陣V的k列構(gòu)成k個樣本主成分。 - (3)求樣本主成分Y(k×n矩陣,列向量表示轉(zhuǎn)換后的一個樣本)
2.5 矩陣特征值分解和奇異值分解的比較
1)矩陣A特征值分解表示A=QΣQ-1,其中Σ為對角線元素為A的特征值的對角矩陣,Q為相應(yīng)特征向量組成的矩陣。要求矩陣A必須為方陣!??!
2)如果A不是方陣,是一個n×m矩陣(n≠m)。那么A的奇異值分解為A=UΣVT,其中U為n×n的正交矩陣,V為m×m正交矩陣。Σ為一個n×m的矩陣。
3)由于在主成分分析中,樣本特征的協(xié)方差矩陣為一個對稱陣,即是一個方陣,因此,可以通過兩種方式進行求解。
4)設(shè)X表示n×m矩陣,代表n個樣本、每個樣本是m維向量。X每一列數(shù)據(jù)進行了規(guī)范化處理。主成分矩陣分解方法中使用協(xié)方差矩陣1/(n-1)XTX作為矩陣A,而奇異值分解方法利用1/(n-1)X作為矩陣A,要注意區(qū)分。
3、應(yīng)用主成分分析的建議
主成分分析主要應(yīng)用與降維和發(fā)現(xiàn)數(shù)據(jù)的結(jié)構(gòu)關(guān)系,不要應(yīng)用主成分來解決數(shù)據(jù)模型的過擬合問題。因為,主成分丟失了原始數(shù)據(jù)的某些信息,而這些信息可能包含重要信息。解決過擬合用正則化方法。