筆記:降維與主成分分析

1、降維的目的

1)數(shù)據(jù)壓縮
將數(shù)據(jù)從多維數(shù)據(jù)降低為低維數(shù)據(jù),從而減小數(shù)據(jù)的規(guī)模,并使用較少的計算機內(nèi)存或磁盤空間。在機器學(xué)習(xí)中,通過降維也可以加快算法計算。
2)可視化
通過降維可以減小數(shù)據(jù)的特征數(shù),從而可以分析組成數(shù)據(jù)的基本結(jié)構(gòu),方便可視化數(shù)據(jù)。但是,降維后新的特征所代表的含義需要我們依據(jù)情況自己分析。

2、主成分分析(PCA)

PCA是一種常見的降維方法。它是通過正交變換將原數(shù)據(jù)中線性相關(guān)的特征轉(zhuǎn)化為少數(shù)幾個線性無關(guān)的特征,這幾個線性無關(guān)的特征表示的變量稱為主成分。
2.1 主成分的幾何解釋
在選定主成分個數(shù)k后,我們的目的是選擇k個兩兩正交的基坐標(biāo)系,將樣本點向這k個坐標(biāo)分別進行投影,使得所有樣本點在坐標(biāo)上的投影平方和最大(即樣本點距投影坐標(biāo)的距離—投影誤差的平方和最?。M队捌椒胶驮酱?,代表保留原始數(shù)據(jù)的信息成分越多。
2.3 主成分分析的協(xié)方差矩陣特征值分解法
設(shè)X表示n×m矩陣,代表n個樣本、每個樣本是m維向量。
1)算法流程

  • (1)將樣本的特征進行規(guī)范化處理
  • (2)計算相關(guān)系數(shù)矩陣(規(guī)范化后的數(shù)據(jù)協(xié)方差矩陣和相關(guān)系數(shù)矩陣相等)的特征值λk和特征向量αk=(α1k2k...αmk)T。相關(guān)系數(shù)矩陣R與X矩陣關(guān)系如下:
    R=[r_{ij}]_{m×m}=\frac{1}{n-1}X^{T}X
  • (3)選擇累計方差貢獻率大于某一閾值的前K個特征值。
    數(shù)學(xué)上可以證明,樣本第k個主成分的方差與特征值λk相等,因此,累計方差貢獻率為前r個特征值之和與K個特征值之和的比值(r<=K)。
  • (4)每個特征值λk(k=1,2...K)對應(yīng)的特征向量αk進行線性變換后的值稱為樣本的第k個主成分。y_{i}=\alpha _{i}\cdot x=\sum_{j=1}^{m}\alpha _{ji}x_{j} 2)因子負(fù)荷量
    主成分yi與變量xj與的相關(guān)系數(shù)ρ(yi,xj)也稱為因子負(fù)荷量。計算公式為:
    \rho (y_{i},x_{j})=\frac{\sqrt{\lambda_{i} }\alpha _{ji}}{\sqrt{\sigma _{jj}}}如果是規(guī)范化矩陣,則變?yōu)椋?img class="math-block" src="https://math.jianshu.com/math?formula=%5Crho%20(y_%7Bi%7D%2Cx_%7Bj%7D)%3D%5Csqrt%7B%5Clambda_%7Bi%7D%20%7D%5Calpha%20_%7Bji%7D" alt="\rho (y_{i},x_{j})=\sqrt{\lambda_{i} }\alpha _{ji}" mathimg="1">
    K個主成分對原變量xj的貢獻率為:
    \nu _{j}=\sum_{i=1}^{K}\rho (y_{i},x_{j})^{2}
    2.4主成分分析的奇異值分解法
    設(shè)X表示n×m矩陣,代表n個樣本、每個樣本是m維向量。X每一列數(shù)據(jù)進行了規(guī)范化處理。
    算法流程如下:
  • (1)構(gòu)造新的矩陣X'
    X^{'}= \frac{1}{\sqrt{n-1}}X
  • (2)依據(jù)主成分個數(shù)k對矩陣X'進行截斷奇異值分解,得到:
    X^{'}≈UΣV^{T}
    其中,U為n×k矩陣,Σ為k×k對角矩陣,對角線元素為x'的k個奇異值,V為m×k矩陣。矩陣V的k列構(gòu)成k個樣本主成分。
  • (3)求樣本主成分Y(k×n矩陣,列向量表示轉(zhuǎn)換后的一個樣本)
    Y=V^{T}×X^{T}
    2.5 矩陣特征值分解和奇異值分解的比較
    1)矩陣A特征值分解表示A=QΣQ-1,其中Σ為對角線元素為A的特征值的對角矩陣,Q為相應(yīng)特征向量組成的矩陣。要求矩陣A必須為方陣!??!
    2)如果A不是方陣,是一個n×m矩陣(n≠m)。那么A的奇異值分解為A=UΣVT,其中U為n×n的正交矩陣,V為m×m正交矩陣。Σ為一個n×m的矩陣。
    3)由于在主成分分析中,樣本特征的協(xié)方差矩陣為一個對稱陣,即是一個方陣,因此,可以通過兩種方式進行求解。
    4)設(shè)X表示n×m矩陣,代表n個樣本、每個樣本是m維向量。X每一列數(shù)據(jù)進行了規(guī)范化處理。主成分矩陣分解方法中使用協(xié)方差矩陣1/(n-1)XTX作為矩陣A,而奇異值分解方法利用1/(n-1)X作為矩陣A,要注意區(qū)分。
3、應(yīng)用主成分分析的建議

主成分分析主要應(yīng)用與降維和發(fā)現(xiàn)數(shù)據(jù)的結(jié)構(gòu)關(guān)系,不要應(yīng)用主成分來解決數(shù)據(jù)模型的過擬合問題。因為,主成分丟失了原始數(shù)據(jù)的某些信息,而這些信息可能包含重要信息。解決過擬合用正則化方法。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 西瓜書第10章講解的是降維和度量學(xué)習(xí)的相關(guān)內(nèi)容 image 維度 對于數(shù)組和Series而言,維度就是shape返...
    皮皮大閱讀 2,417評論 0 6
  • 轉(zhuǎn)自:主成分分析 - xiaoyu714543065的專欄 - 博客頻道 - CSDN.NET 問題...
    horu閱讀 1,330評論 1 3
  • 主成分分析(PCA)是一種常用的無監(jiān)督學(xué)習(xí)方法,這一方法利用正交變換把由現(xiàn)行相關(guān)變量表示的觀測數(shù)據(jù)轉(zhuǎn)化為少數(shù)幾個由...
    rosyxiao閱讀 4,701評論 0 4
  • 一.判別分析降維 LDA降維和PCA的不同是LDA是有監(jiān)督的降維,其原理是將特征映射到低維上,原始數(shù)據(jù)的類別也...
    wlj1107閱讀 12,327評論 0 4
  • 主成分分析一個非監(jiān)督學(xué)習(xí)算法,主要用于數(shù)據(jù)降維,通過降維可以發(fā)現(xiàn)數(shù)據(jù)更容易理解的特征,其他作用也有可視化、降噪等。...
    Chuck_Hu閱讀 5,486評論 0 10

友情鏈接更多精彩內(nèi)容