一、PCA降維
1.PCA簡介
PCA(主成分分析)是一種數(shù)據(jù)降維的方法,即用較少特征地數(shù)據(jù)表達較多特征地數(shù)據(jù)(數(shù)據(jù)壓縮,PCA屬于有損壓縮)。
用最大化數(shù)據(jù)投影后的的方差(讓數(shù)據(jù)更分散)來推導PCA

PCA降維過程
由上述gif可以看出PCA降維實際上是對現(xiàn)有數(shù)據(jù)做了一個在新坐標系上做了一個投影。
2.前置知識
1)協(xié)方差矩陣
對于這樣的一組數(shù)據(jù)

數(shù)據(jù)x與y之間的協(xié)方差定義為:
Cov(x,y)=E[(x-E(x))(y-E(y))]=E(xy)-E(x)E(y)
(所以對于x=y的分布,cov(x,y)=var(x)=E(x2)-[E(x)]2)
如果我事先使得數(shù)據(jù)的E(x),E(y),E(z)=0,則cov(x,y)=E(xy)
那么協(xié)方差矩陣就等于:

2)矩陣的特征向量和特征值

以上,說明了矩陣的特征分解。
3)矩陣的奇異值分解(svd: singular value decomposition)

3.PCA推導
PCA的目標是找到一組新的正交基 {u1,u2,....uk}(從n維下降到k維),使得數(shù)據(jù)點在該正交基構(gòu)成的平面上投影后,數(shù)據(jù)間的距離最大,即數(shù)據(jù)間的方差最大。如果數(shù)據(jù)在每個正交基上投影后的方差最大,那么同樣滿足在正交基所構(gòu)成的平面上投影距離最大。



4.PCA的使用
- 初始化X,使得所有樣本之間的特征值均值為0,同時應用feature scaling,縮放到-0.5~0.5 ;
- 計算X的協(xié)方差矩陣S;
- 對S進行特征分解,得到特征向量和特征值矩陣;
- 按照特征值從大到小排序,要降低為k維,那么取前k個特征值對應的特征向量,就是新的k個坐標軸
- 把X映射到新的坐標系中,完整降維操作;