Covariance&Matrix(協(xié)方差&矩陣)

統(tǒng)計學中均值、標準差、方差這些概念和例子都很常見。這些數(shù)字特征不是本文要重點探討的可以看看這篇對于概率論數(shù)字特征的理解

  • 均值描述的是樣本集合中平衡點,因為信息是有限的。
  • 標準差描述的是樣本集合中各個樣本點到均值之間距離的平均值

eg:[0, 8, 12, 20]和[8, 9, 11, 12],兩個集合的均值都是10,但顯然兩個集合的差別是很大的,計算兩者的標準差,前者是8.3后者是1.8,顯然后者較為集中,故其標準差小一些,標準差描述的就是這種“散布度”。之所以除以n-1而不是n,是因為這樣能使我們以較小的樣本集更好地逼近總體的標準差,即統(tǒng)計上所謂的“無偏估計”。(這個例子來源于網(wǎng)絡看到的,挺好的就引用過來,湊出均值相同)

而方差則僅僅是標準差的平方。方差是協(xié)方差的一種特殊情況,即當兩個變量是相同的情況 。

引出協(xié)方差

前面的標準差,方差一般用來描述一維的,現(xiàn)實中我們遇到的大多是多維的,這時候雖然可以每一維獨立計算出方差啥的,但信息單一,這就引出協(xié)方差。

簡單地說:協(xié)方差就是這樣一種用來度量兩個隨機變量關(guān)系的統(tǒng)計量
通俗的說:兩個變量之間是否同時偏離均值。

度量各個維度偏離其均值

也可以寫成和期望有關(guān):

協(xié)方差公式定義

有了上面的定義我們就看看怎么來理解

p(x,y)是x,y的二維概率分布函數(shù),顏色深淺應該表示進概率密度的大小,p(x,y)整個區(qū)域二重積分得到1,這個就是下面圓的背景知識了。下面是協(xié)方差的三種不同意義情況


來自**[http://bbs.mathchina.com/cgi-bin/topic.cgi?forum=5&topic=14444](http://bbs.mathchina.com/cgi-bin/topic.cgi?forum=5&topic=14444)**
來自**[http://bbs.mathchina.com/cgi-bin/topic.cgi?forum=5&topic=14444](http://bbs.mathchina.com/cgi-bin/topic.cgi?forum=5&topic=14444)**
來自**[http://bbs.mathchina.com/cgi-bin/topic.cgi?forum=5&topic=14444](http://bbs.mathchina.com/cgi-bin/topic.cgi?forum=5&topic=14444)**

當X, Y 的聯(lián)合分布像上圖那樣時,我們可以看出:既不是X 越大Y 也越大,也不是 X 越大 Y 反而越小,這種情況我們稱為“不相關(guān)”。

怎樣將這3種相關(guān)情況,用一個簡單的數(shù)字表達出來呢?

  • 在圖中的區(qū)域(1)中,有 X>EX ,Y-EY>0 ,所以(X-EX)(Y-EY)>0;
  • 在圖中的區(qū)域(2)中,有 X<EX ,Y-EY>0 ,所以(X-EX)(Y-EY)<0;
  • 在圖中的區(qū)域(3)中,有 X<EX ,Y-EY<0 ,所以(X-EX)(Y-EY)>0;
  • 在圖中的區(qū)域(4)中,有 X>EX ,Y-EY<0 ,所以(X-EX)(Y-EY)<0。

當X 與Y ****正相關(guān)****時,它們的分布大部分在區(qū)域(****1****)和(****3****)中,小部分在區(qū)域(****2****)和(****4****)中,所以平均來說,有E(X-EX)(Y-EY)>0 。

當 X與 Y負相關(guān)時,它們的分布大部分在區(qū)域(2)和(4)中,小部分在區(qū)域(1)和(3)中,所以平均來說,有(X-EX)(Y-EY)<0 。

當 X與 Y不相關(guān)時,它們在區(qū)域(1)和(3)中的分布,與在區(qū)域(2)和(4)中的分布幾乎一樣多,所以平均來說,有(X-EX)(Y-EY)=0** 。

所以,我們可以定義一個表示X, Y 相互關(guān)系的數(shù)字特征,也就是協(xié)方差
cov(X, Y) = E(X-EX)(Y-EY)。

  • 當 cov(X, Y)>0時,表明** XY **正相關(guān);
  • **當 cov(X, Y)<0時,表明X與Y負相關(guān);
  • **當 ****cov(X, Y)=0****時,表明X與Y不相關(guān)。

相關(guān)系數(shù)

如果XY統(tǒng)計獨立的,那么二者之間的協(xié)方差就是0,這是因為

E(X \cdot Y)=E(X) \cdot E(Y)=\mu\nu
E(X \cdot Y)=E(X) \cdot E(Y)=\mu\nu

但是反過來并不成立,即如果XY 的協(xié)方差為0,二者并不一定是統(tǒng)計獨立的。
取決于協(xié)方差的相關(guān)性η

相關(guān)系數(shù)也可以看成協(xié)方差:一種剔除了兩個變量量綱影響、標準化后的特殊協(xié)方差,它消除了兩個變量變化幅度的影響,而只是單純反應兩個變量每單位變化時的相似程度。
協(xié)方差表示線性相關(guān)的方向,相關(guān)系數(shù)不僅表示線性相關(guān)的方向,還表示線性相關(guān)的程度,取值[-1,1]。

協(xié)方差矩陣

協(xié)方差解決的也只是二維的問題,那么繼續(xù)維數(shù)上升呢,就要計算多個協(xié)方差,這個道理很好懂。

舉個例子

協(xié)方差矩陣是一個對稱的矩陣,而且對角線是各個維度上的方,對于機器學習領域的PCA來說,如果遇到的矩陣不是方陣,需要計算他的協(xié)方差矩陣來進行下一步計算,因為協(xié)方差矩陣一定是方陣,而特征值分解針對的必須是方陣,SVD針對的可以是非方陣情況。

協(xié)方差矩陣在主成分分析中主成分分析有關(guān)鍵作用。主成分分析就是把協(xié)方差矩陣做一個奇異值分解,求出最大的奇異值的特征方向。

協(xié)方差矩陣計算的是不同維度之間的協(xié)方差,而不是不同樣本之間的,這點要記牢了。

剩下可以參考下:
[轉(zhuǎn)]淺談協(xié)方差矩陣
[線性代數(shù)] 如何求協(xié)方差矩陣
詳解協(xié)方差與協(xié)方差矩陣

另外,我不是數(shù)學專業(yè)對這方面沒有過多研究,現(xiàn)階段只是簡單明白,在學習過程中會把好的精彩干練的整合起來,方便復習,就醬紫了,咱們可以發(fā)郵件討論,博客下面就是地址了。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容