協(xié)方差和相關(guān)系數(shù)

廢話寫在前頭

在學(xué)R的時(shí)候呢,R語言實(shí)戰(zhàn)基本的統(tǒng)計(jì)分析7.3章有講到相關(guān)的概念,相關(guān)系數(shù)可以用來描述定量變量之間的關(guān)系。相關(guān)系數(shù)的符號(+)(-)可以用來表明關(guān)系的方向(正相關(guān)或負(fù)相關(guān)),其值的大小表示強(qiáng)弱的關(guān)系(完全不相關(guān)時(shí)為0,完全相關(guān)時(shí)為1)。

但是看到這里我一頭霧水,定量變量的關(guān)系?關(guān)系的方向?關(guān)系的強(qiáng)弱?
本著看不懂就Google的原則,通過幾個(gè)博客,我大致的搞清楚了一點(diǎn)協(xié)方差和相關(guān)系數(shù)的概念,順手就記錄下來。

協(xié)方差

協(xié)方差可以通俗的理解為:兩個(gè)變量在變化過程中是同方向變化?還是反方向變化?同向或反向程度如何?
協(xié)方差公示

公式解讀:X, Y的協(xié)方差等于每一個(gè)X減去X平均值乘上每一個(gè)Y減去Y平均值的乘積的和的平均數(shù),關(guān)于E[]的用法,參考“在概率分布中,設(shè)X是一個(gè)離散型隨機(jī)變量,若E{[X-E(X)]^2} 存在,則稱E{[X-E(X)]^2}為X的方差,記為D(X),Var(X)或DX,其中E(X)是X的期望值,X是變量值,公式中的E是期望值expected value的縮寫,意為“變量值與其期望值之差的平方和”的期望值?!?/p>

說白了,在X=Y的情況下,協(xié)方差就是X=Y的方差。只不過在X不等于Y的情況下,這個(gè)協(xié)方差就可以用來衡量X和Y的變化情況的同步性,就想是兩個(gè)步子差不多的人在跳舞,如果兩個(gè)人步伐一致,那么我們就可以說這兩個(gè)人的變化類似,協(xié)方差為正值,且變化越類似,協(xié)方差值也越大,倘若是兩人合二為一了,那這個(gè)協(xié)方差就代表了每一步的步伐的變化趨勢,也就是方差了。
從數(shù)值來看,協(xié)方差的數(shù)值越大,兩個(gè)變量同向程度也就越大。反之亦然。

相關(guān)系數(shù)

相關(guān)系數(shù)公式

對于相關(guān)系數(shù),我們從它的公式入手。一般情況下,相關(guān)系數(shù)的公式為:
翻譯一下:就是用X、Y的協(xié)方差除以X的標(biāo)準(zhǔn)差和Y的標(biāo)準(zhǔn)差。
所以,相關(guān)系數(shù)也可以看成協(xié)方差:一種剔除了兩個(gè)變量量綱影響、標(biāo)準(zhǔn)化后的特殊協(xié)方差。

說白了,你也可以當(dāng)成標(biāo)準(zhǔn)差的定義來看,像是一男一女,兩個(gè)步子不一樣的人在跳舞,雖然步伐一下,變化情況一樣,但是由于步子的大小影響到了協(xié)方差的數(shù)值,這個(gè)時(shí)候我們再采用利用步子的大小消除差異的方法得到變化相關(guān)的情況。

由于它是標(biāo)準(zhǔn)化后的協(xié)方差,因此更重要的特性來了:它消除了兩個(gè)變量變化幅度的影響,而只是單純反應(yīng)兩個(gè)變量每單位變化時(shí)的相似程度。

R語言實(shí)戰(zhàn)

R語言提供了多種計(jì)算相關(guān)系數(shù)的方法,包括Pearson相關(guān)系數(shù),Spearman相關(guān)系數(shù),Kendall相關(guān)系數(shù),偏相關(guān)系數(shù),多分格等等。那我們來認(rèn)識一下cor()和cov()函數(shù)吧,cor()可以計(jì)算Pearson相關(guān)系數(shù),Spearman相關(guān)系數(shù),Kendall相關(guān)系數(shù),cov()可以計(jì)算協(xié)方差。

我們這邊使用R自帶的state.x77數(shù)據(jù),cov()和cor()函數(shù)默認(rèn)使用Pearson相關(guān)系數(shù)的計(jì)算方法,且將缺失數(shù)據(jù)的計(jì)算結(jié)果設(shè)為missing。下面為實(shí)戰(zhàn)示例:

> head(state.x77)
           Population Income Illiteracy Life Exp Murder HS Grad Frost   Area
Alabama          3615   3624        2.1    69.05   15.1    41.3    20  50708
Alaska            365   6315        1.5    69.31   11.3    66.7   152 566432
Arizona          2212   4530        1.8    70.55    7.8    58.1    15 113417
Arkansas         2110   3378        1.9    70.66   10.1    39.9    65  51945
California      21198   5114        1.1    71.71   10.3    62.6    20 156361
Colorado         2541   4884        0.7    72.06    6.8    63.9   166 103766

> cov(state.x77)
              Population        Income   Illiteracy      Life Exp       Murder       HS Grad        Frost          Area
Population 19931683.7588   571229.7796  292.8679592 -4.078425e+02  5663.523714  -3551.509551 -77081.97265  8.587917e+06
Income       571229.7796   377573.3061 -163.7020408  2.806632e+02  -521.894286   3076.768980   7227.60408  1.904901e+07
Illiteracy      292.8680     -163.7020    0.3715306 -4.815122e-01     1.581776     -3.235469    -21.29000  4.018337e+03
Life Exp       -407.8425      280.6632   -0.4815122  1.802020e+00    -3.869480      6.312685     18.28678 -1.229410e+04
Murder         5663.5237     -521.8943    1.5817755 -3.869480e+00    13.627465    -14.549616   -103.40600  7.194043e+04
HS Grad       -3551.5096     3076.7690   -3.2354694  6.312685e+00   -14.549616     65.237894    153.99216  2.298732e+05
Frost        -77081.9727     7227.6041  -21.2900000  1.828678e+01  -103.406000    153.992163   2702.00857  2.627039e+05
Area        8587916.9494 19049013.7510 4018.3371429 -1.229410e+04 71940.429959 229873.192816 262703.89306  7.280748e+09

> cor(state.x77)
            Population     Income  Illiteracy    Life Exp     Murder     HS Grad      Frost        Area
Population  1.00000000  0.2082276  0.10762237 -0.06805195  0.3436428 -0.09848975 -0.3321525  0.02254384
Income      0.20822756  1.0000000 -0.43707519  0.34025534 -0.2300776  0.61993232  0.2262822  0.36331544
Illiteracy  0.10762237 -0.4370752  1.00000000 -0.58847793  0.7029752 -0.65718861 -0.6719470  0.07726113
Life Exp   -0.06805195  0.3402553 -0.58847793  1.00000000 -0.7808458  0.58221620  0.2620680 -0.10733194
Murder      0.34364275 -0.2300776  0.70297520 -0.78084575  1.0000000 -0.48797102 -0.5388834  0.22839021
HS Grad    -0.09848975  0.6199323 -0.65718861  0.58221620 -0.4879710  1.00000000  0.3667797  0.33354187
Frost      -0.33215245  0.2262822 -0.67194697  0.26206801 -0.5388834  0.36677970  1.0000000  0.05922910
Area        0.02254384  0.3633154  0.07726113 -0.10733194  0.2283902  0.33354187  0.0592291  1.00000000

> cor(state.x77,method = "spearman")
           Population      Income Illiteracy   Life Exp     Murder    HS Grad      Frost        Area
Population  1.0000000  0.12460984  0.3130496 -0.1040171  0.3457401 -0.3833649 -0.4588526 -0.12067227
Income      0.1246098  1.00000000 -0.3145948  0.3241050 -0.2174623  0.5104809  0.1968638  0.05709484
Illiteracy  0.3130496 -0.31459482  1.0000000 -0.5553735  0.6723592 -0.6545396 -0.6831936 -0.25037208
Life Exp   -0.1040171  0.32410498 -0.5553735  1.0000000 -0.7802406  0.5239410  0.2983910  0.12750018
Murder      0.3457401 -0.21746230  0.6723592 -0.7802406  1.0000000 -0.4367330 -0.5438432  0.10642590
HS Grad    -0.3833649  0.51048095 -0.6545396  0.5239410 -0.4367330  1.0000000  0.3985351  0.43897520
Frost      -0.4588526  0.19686382 -0.6831936  0.2983910 -0.5438432  0.3985351  1.0000000  0.11228778
Area       -0.1206723  0.05709484 -0.2503721  0.1275002  0.1064259  0.4389752  0.1122878  1.00000000
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容