pca理解

http://blog.codinglabs.org/articles/pca-tutorial.html
看到一篇比較好的將pca的文章,將原理講得很清楚,但是理解還是花了不少時間,現(xiàn)在將理解過程記錄下來

整體思路

   原始特征矩陣     

為什么將方差最大的方向作為主要特征

  可以將一個特征上的很多樣本數(shù)據(jù),看成是一個隨機變量,方差就反映了這個隨機變量,相對期望的離散程度,如果方差小,說明,大多數(shù)樣本都在均值附近,那么在使用所有特征來對樣本進行分類時,這個特征的貢獻非常?。ㄒ驗樵谒袠颖局校@個特征都差不多,沒有什么區(qū)分度),所以就可以忽略掉這個特征,起到將維的作用。

既然是想要去掉有相關(guān)性的特征,為什么不能直接算原始特征矩陣的協(xié)方差矩陣,然后直接將協(xié)方差排序,然后找打大的協(xié)方差對應(yīng)的兩個特征,然后去掉一個呢

  這個我理解是,在原始特征矩陣中,可能各個特征直接沒有那么大的相關(guān)性,直接去掉一個特征,數(shù)據(jù)損失可能就太大了,只有將原始矩陣映射到一個完全正交的新矩陣后,這些組合特征的方差比較小,才反映出一些原始特征的存在一定程度的相關(guān)性,換句話說,正式因為某些原始特征的相關(guān)性,才使某個變換后的組合特征方差很小,數(shù)值都落到了相對集中的區(qū)域。

推導(dǎo)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容