1. pca的目標是最大化方差,方差指的是什么?

對于這個問題,方差指的是

2.不同的投影方式的方差有什么區(qū)別?
為了避免過于抽象的討論,我們?nèi)砸砸粋€具體的例子展開。假設我們的數(shù)據(jù)由五條記錄組成,將它們表示成矩陣形式:

其中每一列為一條數(shù)據(jù)記錄,而一行為一個字段。為了后續(xù)處理方便,我們首先將每個字段內(nèi)所有值都減去字段均值,其結果是將每個字段都變?yōu)榫禐?(這樣做的道理和好處后面會看到)。
我們看上面的數(shù)據(jù),第一個字段均值為2,第二個字段均值為3,所以變換后:

我們可以看下五條數(shù)據(jù)在平面直角坐標系內(nèi)的樣子:

如果使用pca把原來的二維的數(shù)據(jù)降低到一維,那么如果選擇一條向量,使得降維之后的點的方差最大?
舉個例子,將這五個點 分別投影到y(tǒng)=x (左圖)和 y=0(右圖)所示,那么他們的方差誰更大?

我將方差用紅色的線畫了出來,如下圖所示:

左圖的方差是 5.65:

右圖的方差是 4:

也就是說,按照左圖的投影方式,左圖的方差是5.65,比右圖更大。也就是說,左圖的投影的效果更好。
3.如何找到最大的投影方向?
這里面涉及到一個 協(xié)方差的概念,這個教程講的很好 :
http://blog.codinglabs.org/articles/pca-tutorial.html
簡單的說,對于要求的矩陣X,我們希望它的將它坐標軸旋轉到一個新的方向,(假設這個坐標的矩陣是P),這個方向可以使數(shù)據(jù)的方差最大。(也就是旋轉之后的新矩陣的協(xié)方差矩陣的對角線元素最大,同時非對角線上面的元素為0)
so,優(yōu)化的目標就變成了:

4. 小結一下pca算法

實例

接著上文
數(shù)據(jù)還原



參考教程:
http://blog.codinglabs.org/articles/pca-tutorial.html
http://www.cnblogs.com/jerrylead/archive/2011/04/18/2020209.html