統(tǒng)計學中均值、標準差、方差這些概念和例子都很常見。這些數(shù)字特征不是本文要重點探討的可以看看這篇對于概率論數(shù)字特征的理解
- 均值描述的是樣本集合中平衡點,因為信息是有限的。
- 標準差描述的是樣本集合中各個樣本點到均值之間距離的平均值
eg:[0, 8, 12, 20]和[8, 9, 11, 12],兩個集合的均值都是10,但顯然兩個集合的差別是很大的,計算兩者的標準差,前者是8.3后者是1.8,顯然后者較為集中,故其標準差小一些,標準差描述的就是這種“散布度”。之所以除以n-1而不是n,是因為這樣能使我們以較小的樣本集更好地逼近總體的標準差,即統(tǒng)計上所謂的“無偏估計”。(這個例子來源于網(wǎng)絡看到的,挺好的就引用過來,湊出均值相同)
而方差則僅僅是標準差的平方。方差是協(xié)方差的一種特殊情況,即當兩個變量是相同的情況 。
引出協(xié)方差
前面的標準差,方差一般用來描述一維的,現(xiàn)實中我們遇到的大多是多維的,這時候雖然可以每一維獨立計算出方差啥的,但信息單一,這就引出協(xié)方差。
簡單地說:協(xié)方差就是這樣一種用來度量兩個隨機變量關(guān)系的統(tǒng)計量
通俗的說:兩個變量之間是否同時偏離均值。

也可以寫成和期望有關(guān):

有了上面的定義我們就看看怎么來理解
p(x,y)是x,y的二維概率分布函數(shù),顏色深淺應該表示進概率密度的大小,p(x,y)整個區(qū)域二重積分得到1,這個就是下面圓的背景知識了。下面是協(xié)方差的三種不同意義情況



當X, Y 的聯(lián)合分布像上圖那樣時,我們可以看出:既不是X 越大Y 也越大,也不是 X 越大 Y 反而越小,這種情況我們稱為“不相關(guān)”。
怎樣將這3種相關(guān)情況,用一個簡單的數(shù)字表達出來呢?
- 在圖中的區(qū)域(1)中,有 X>EX ,Y-EY>0 ,所以(X-EX)(Y-EY)>0;
- 在圖中的區(qū)域(2)中,有 X<EX ,Y-EY>0 ,所以(X-EX)(Y-EY)<0;
- 在圖中的區(qū)域(3)中,有 X<EX ,Y-EY<0 ,所以(X-EX)(Y-EY)>0;
- 在圖中的區(qū)域(4)中,有 X>EX ,Y-EY<0 ,所以(X-EX)(Y-EY)<0。
當X 與Y ****正相關(guān)****時,它們的分布大部分在區(qū)域(****1****)和(****3****)中,小部分在區(qū)域(****2****)和(****4****)中,所以平均來說,有E(X-EX)(Y-EY)>0 。
當 X與 Y負相關(guān)時,它們的分布大部分在區(qū)域(2)和(4)中,小部分在區(qū)域(1)和(3)中,所以平均來說,有(X-EX)(Y-EY)<0 。
當 X與 Y不相關(guān)時,它們在區(qū)域(1)和(3)中的分布,與在區(qū)域(2)和(4)中的分布幾乎一樣多,所以平均來說,有(X-EX)(Y-EY)=0** 。
所以,我們可以定義一個表示X, Y 相互關(guān)系的數(shù)字特征,也就是協(xié)方差
cov(X, Y) = E(X-EX)(Y-EY)。
- 當 cov(X, Y)>0時,表明** X與Y **正相關(guān);
- **當 cov(X, Y)<0時,表明X與Y負相關(guān);
- **當 ****cov(X, Y)=0****時,表明X與Y不相關(guān)。
相關(guān)系數(shù)
如果X 與Y 是統(tǒng)計獨立的,那么二者之間的協(xié)方差就是0,這是因為
但是反過來并不成立,即如果X 與Y 的協(xié)方差為0,二者并不一定是統(tǒng)計獨立的。
取決于協(xié)方差的相關(guān)性η

相關(guān)系數(shù)也可以看成協(xié)方差:一種剔除了兩個變量量綱影響、標準化后的特殊協(xié)方差,它消除了兩個變量變化幅度的影響,而只是單純反應兩個變量每單位變化時的相似程度。
協(xié)方差表示線性相關(guān)的方向,相關(guān)系數(shù)不僅表示線性相關(guān)的方向,還表示線性相關(guān)的程度,取值[-1,1]。
協(xié)方差矩陣
協(xié)方差解決的也只是二維的問題,那么繼續(xù)維數(shù)上升呢,就要計算多個協(xié)方差,這個道理很好懂。

協(xié)方差矩陣是一個對稱的矩陣,而且對角線是各個維度上的方,對于機器學習領域的PCA來說,如果遇到的矩陣不是方陣,需要計算他的協(xié)方差矩陣來進行下一步計算,因為協(xié)方差矩陣一定是方陣,而特征值分解針對的必須是方陣,SVD針對的可以是非方陣情況。
協(xié)方差矩陣在主成分分析中主成分分析有關(guān)鍵作用。主成分分析就是把協(xié)方差矩陣做一個奇異值分解,求出最大的奇異值的特征方向。
協(xié)方差矩陣計算的是不同維度之間的協(xié)方差,而不是不同樣本之間的,這點要記牢了。
剩下可以參考下:
[轉(zhuǎn)]淺談協(xié)方差矩陣
[線性代數(shù)] 如何求協(xié)方差矩陣
詳解協(xié)方差與協(xié)方差矩陣
另外,我不是數(shù)學專業(yè)對這方面沒有過多研究,現(xiàn)階段只是簡單明白,在學習過程中會把好的精彩干練的整合起來,方便復習,就醬紫了,咱們可以發(fā)郵件討論,博客下面就是地址了。