機器學習讀書筆記 — PCA 主成分分析

1. pca的目標是最大化方差,方差指的是什么?

image.png

對于這個問題,方差指的是


image.png

2.不同的投影方式的方差有什么區(qū)別?

為了避免過于抽象的討論,我們?nèi)砸砸粋€具體的例子展開。假設我們的數(shù)據(jù)由五條記錄組成,將它們表示成矩陣形式:


image.png

其中每一列為一條數(shù)據(jù)記錄,而一行為一個字段。為了后續(xù)處理方便,我們首先將每個字段內(nèi)所有值都減去字段均值,其結果是將每個字段都變?yōu)榫禐?(這樣做的道理和好處后面會看到)。
我們看上面的數(shù)據(jù),第一個字段均值為2,第二個字段均值為3,所以變換后:


image.png

我們可以看下五條數(shù)據(jù)在平面直角坐標系內(nèi)的樣子:


image.png

如果使用pca把原來的二維的數(shù)據(jù)降低到一維,那么如果選擇一條向量,使得降維之后的點的方差最大?

舉個例子,將這五個點 分別投影到y(tǒng)=x (左圖)和 y=0(右圖)所示,那么他們的方差誰更大?


image.png

我將方差用紅色的線畫了出來,如下圖所示:

image.png

左圖的方差是 5.65:


注意,是絕對值求和 ! .png

右圖的方差是 4:


image.png

也就是說,按照左圖的投影方式,左圖的方差是5.65,比右圖更大。也就是說,左圖的投影的效果更好。

3.如何找到最大的投影方向?
這里面涉及到一個 協(xié)方差的概念,這個教程講的很好 :
http://blog.codinglabs.org/articles/pca-tutorial.html

簡單的說,對于要求的矩陣X,我們希望它的將它坐標軸旋轉到一個新的方向,(假設這個坐標的矩陣是P),這個方向可以使數(shù)據(jù)的方差最大。(也就是旋轉之后的新矩陣的協(xié)方差矩陣的對角線元素最大,同時非對角線上面的元素為0)

so,優(yōu)化的目標就變成了:


image.png

4. 小結一下pca算法

image.png

實例

image.png

接著上文
數(shù)據(jù)還原

參考教程:
http://blog.codinglabs.org/articles/pca-tutorial.html

http://www.cnblogs.com/jerrylead/archive/2011/04/18/2020209.html

最后編輯于
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容