PCA算法推導

一、PCA降維

1.PCA簡介

PCA(主成分分析)是一種數(shù)據(jù)降維的方法,即用較少特征地數(shù)據(jù)表達較多特征地數(shù)據(jù)(數(shù)據(jù)壓縮,PCA屬于有損壓縮)
用最大化數(shù)據(jù)投影后的的方差(讓數(shù)據(jù)更分散)來推導PCA

PCA降維過程

由上述gif可以看出PCA降維實際上是對現(xiàn)有數(shù)據(jù)做了一個在新坐標系上做了一個投影。

2.前置知識

1)協(xié)方差矩陣

對于這樣的一組數(shù)據(jù)


數(shù)據(jù)x與y之間的協(xié)方差定義為:
Cov(x,y)=E[(x-E(x))(y-E(y))]=E(xy)-E(x)E(y)
(所以對于x=y的分布,cov(x,y)=var(x)=E(x2)-[E(x)]2)
如果我事先使得數(shù)據(jù)的E(x),E(y),E(z)=0,則cov(x,y)=E(xy)
那么協(xié)方差矩陣就等于:

2)矩陣的特征向量和特征值

以上,說明了矩陣的特征分解。

3)矩陣的奇異值分解(svd: singular value decomposition)

3.PCA推導

PCA的目標是找到一組新的正交基 {u1,u2,....uk}(從n維下降到k維),使得數(shù)據(jù)點在該正交基構(gòu)成的平面上投影后,數(shù)據(jù)間的距離最大,即數(shù)據(jù)間的方差最大。如果數(shù)據(jù)在每個正交基上投影后的方差最大,那么同樣滿足在正交基所構(gòu)成的平面上投影距離最大。



4.PCA的使用

  1. 初始化X,使得所有樣本之間的特征值均值為0,同時應用feature scaling,縮放到-0.5~0.5 ;
  2. 計算X的協(xié)方差矩陣S;
  3. 對S進行特征分解,得到特征向量和特征值矩陣;
  4. 按照特征值從大到小排序,要降低為k維,那么取前k個特征值對應的特征向量,就是新的k個坐標軸
  5. 把X映射到新的坐標系中,完整降維操作;

參考:https://zhuanlan.zhihu.com/p/55297233

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容