- PCA是最受歡迎的降維算法。
- 思路:將數(shù)據(jù)集轉(zhuǎn)換到低維空間,同時(shí)盡可能的保護(hù)數(shù)據(jù)的信息。
- 應(yīng)用:常用字損失數(shù)據(jù)壓縮,特征提取,數(shù)據(jù)視覺(jué)化
- 是一種無(wú)監(jiān)督學(xué)習(xí)
- 通常數(shù)據(jù)很難被學(xué)習(xí)出特點(diǎn)時(shí),再使用PCA。
- 為什么需要降維?
- 為了數(shù)據(jù)視覺(jué)化,因?yàn)楦呔S數(shù)據(jù)太難視覺(jué)出來(lái)了。
- 數(shù)據(jù)壓縮;移除冗余和噪聲特征;減少內(nèi)存;加快訓(xùn)練速度
- variance、covariance、covariance matrix
-
方差:測(cè)量數(shù)據(jù)的分散程度
image.png -
協(xié)方差:測(cè)量?jī)蓚€(gè)變量如何一起變化
image.png -
協(xié)方差矩陣:
image.png
- PCA步驟
- 減去均值
- 計(jì)算協(xié)方差矩陣
- 計(jì)算特征值和特征向量
- 從特征值中選擇元素(特征值最大的那個(gè)特征向量),形成新的特征向量
-
造成新的數(shù)據(jù)集
image.png
- 在PCA中,到底選擇幾組特征向量?
Kaiser法,
-
Screen test,
image.png -
Percentage of variation explained.
image.png





