廢話寫在前頭
在學(xué)R的時(shí)候呢,R語言實(shí)戰(zhàn)基本的統(tǒng)計(jì)分析7.3章有講到相關(guān)的概念,相關(guān)系數(shù)可以用來描述定量變量之間的關(guān)系。相關(guān)系數(shù)的符號(+)(-)可以用來表明關(guān)系的方向(正相關(guān)或負(fù)相關(guān)),其值的大小表示強(qiáng)弱的關(guān)系(完全不相關(guān)時(shí)為0,完全相關(guān)時(shí)為1)。
但是看到這里我一頭霧水,定量變量的關(guān)系?關(guān)系的方向?關(guān)系的強(qiáng)弱?
本著看不懂就Google的原則,通過幾個(gè)博客,我大致的搞清楚了一點(diǎn)協(xié)方差和相關(guān)系數(shù)的概念,順手就記錄下來。
協(xié)方差
協(xié)方差可以通俗的理解為:兩個(gè)變量在變化過程中是同方向變化?還是反方向變化?同向或反向程度如何?

公式解讀:X, Y的協(xié)方差等于每一個(gè)X減去X平均值乘上每一個(gè)Y減去Y平均值的乘積的和的平均數(shù),關(guān)于E[]的用法,參考“在概率分布中,設(shè)X是一個(gè)離散型隨機(jī)變量,若E{[X-E(X)]^2} 存在,則稱E{[X-E(X)]^2}為X的方差,記為D(X),Var(X)或DX,其中E(X)是X的期望值,X是變量值,公式中的E是期望值expected value的縮寫,意為“變量值與其期望值之差的平方和”的期望值?!?/p>
說白了,在X=Y的情況下,協(xié)方差就是X=Y的方差。只不過在X不等于Y的情況下,這個(gè)協(xié)方差就可以用來衡量X和Y的變化情況的同步性,就想是兩個(gè)步子差不多的人在跳舞,如果兩個(gè)人步伐一致,那么我們就可以說這兩個(gè)人的變化類似,協(xié)方差為正值,且變化越類似,協(xié)方差值也越大,倘若是兩人合二為一了,那這個(gè)協(xié)方差就代表了每一步的步伐的變化趨勢,也就是方差了。
從數(shù)值來看,協(xié)方差的數(shù)值越大,兩個(gè)變量同向程度也就越大。反之亦然。
相關(guān)系數(shù)

對于相關(guān)系數(shù),我們從它的公式入手。一般情況下,相關(guān)系數(shù)的公式為:
翻譯一下:就是用X、Y的協(xié)方差除以X的標(biāo)準(zhǔn)差和Y的標(biāo)準(zhǔn)差。
所以,相關(guān)系數(shù)也可以看成協(xié)方差:一種剔除了兩個(gè)變量量綱影響、標(biāo)準(zhǔn)化后的特殊協(xié)方差。
說白了,你也可以當(dāng)成標(biāo)準(zhǔn)差的定義來看,像是一男一女,兩個(gè)步子不一樣的人在跳舞,雖然步伐一下,變化情況一樣,但是由于步子的大小影響到了協(xié)方差的數(shù)值,這個(gè)時(shí)候我們再采用利用步子的大小消除差異的方法得到變化相關(guān)的情況。
由于它是標(biāo)準(zhǔn)化后的協(xié)方差,因此更重要的特性來了:它消除了兩個(gè)變量變化幅度的影響,而只是單純反應(yīng)兩個(gè)變量每單位變化時(shí)的相似程度。
R語言實(shí)戰(zhàn)
R語言提供了多種計(jì)算相關(guān)系數(shù)的方法,包括Pearson相關(guān)系數(shù),Spearman相關(guān)系數(shù),Kendall相關(guān)系數(shù),偏相關(guān)系數(shù),多分格等等。那我們來認(rèn)識一下cor()和cov()函數(shù)吧,cor()可以計(jì)算Pearson相關(guān)系數(shù),Spearman相關(guān)系數(shù),Kendall相關(guān)系數(shù),cov()可以計(jì)算協(xié)方差。
我們這邊使用R自帶的state.x77數(shù)據(jù),cov()和cor()函數(shù)默認(rèn)使用Pearson相關(guān)系數(shù)的計(jì)算方法,且將缺失數(shù)據(jù)的計(jì)算結(jié)果設(shè)為missing。下面為實(shí)戰(zhàn)示例:
> head(state.x77)
Population Income Illiteracy Life Exp Murder HS Grad Frost Area
Alabama 3615 3624 2.1 69.05 15.1 41.3 20 50708
Alaska 365 6315 1.5 69.31 11.3 66.7 152 566432
Arizona 2212 4530 1.8 70.55 7.8 58.1 15 113417
Arkansas 2110 3378 1.9 70.66 10.1 39.9 65 51945
California 21198 5114 1.1 71.71 10.3 62.6 20 156361
Colorado 2541 4884 0.7 72.06 6.8 63.9 166 103766
> cov(state.x77)
Population Income Illiteracy Life Exp Murder HS Grad Frost Area
Population 19931683.7588 571229.7796 292.8679592 -4.078425e+02 5663.523714 -3551.509551 -77081.97265 8.587917e+06
Income 571229.7796 377573.3061 -163.7020408 2.806632e+02 -521.894286 3076.768980 7227.60408 1.904901e+07
Illiteracy 292.8680 -163.7020 0.3715306 -4.815122e-01 1.581776 -3.235469 -21.29000 4.018337e+03
Life Exp -407.8425 280.6632 -0.4815122 1.802020e+00 -3.869480 6.312685 18.28678 -1.229410e+04
Murder 5663.5237 -521.8943 1.5817755 -3.869480e+00 13.627465 -14.549616 -103.40600 7.194043e+04
HS Grad -3551.5096 3076.7690 -3.2354694 6.312685e+00 -14.549616 65.237894 153.99216 2.298732e+05
Frost -77081.9727 7227.6041 -21.2900000 1.828678e+01 -103.406000 153.992163 2702.00857 2.627039e+05
Area 8587916.9494 19049013.7510 4018.3371429 -1.229410e+04 71940.429959 229873.192816 262703.89306 7.280748e+09
> cor(state.x77)
Population Income Illiteracy Life Exp Murder HS Grad Frost Area
Population 1.00000000 0.2082276 0.10762237 -0.06805195 0.3436428 -0.09848975 -0.3321525 0.02254384
Income 0.20822756 1.0000000 -0.43707519 0.34025534 -0.2300776 0.61993232 0.2262822 0.36331544
Illiteracy 0.10762237 -0.4370752 1.00000000 -0.58847793 0.7029752 -0.65718861 -0.6719470 0.07726113
Life Exp -0.06805195 0.3402553 -0.58847793 1.00000000 -0.7808458 0.58221620 0.2620680 -0.10733194
Murder 0.34364275 -0.2300776 0.70297520 -0.78084575 1.0000000 -0.48797102 -0.5388834 0.22839021
HS Grad -0.09848975 0.6199323 -0.65718861 0.58221620 -0.4879710 1.00000000 0.3667797 0.33354187
Frost -0.33215245 0.2262822 -0.67194697 0.26206801 -0.5388834 0.36677970 1.0000000 0.05922910
Area 0.02254384 0.3633154 0.07726113 -0.10733194 0.2283902 0.33354187 0.0592291 1.00000000
> cor(state.x77,method = "spearman")
Population Income Illiteracy Life Exp Murder HS Grad Frost Area
Population 1.0000000 0.12460984 0.3130496 -0.1040171 0.3457401 -0.3833649 -0.4588526 -0.12067227
Income 0.1246098 1.00000000 -0.3145948 0.3241050 -0.2174623 0.5104809 0.1968638 0.05709484
Illiteracy 0.3130496 -0.31459482 1.0000000 -0.5553735 0.6723592 -0.6545396 -0.6831936 -0.25037208
Life Exp -0.1040171 0.32410498 -0.5553735 1.0000000 -0.7802406 0.5239410 0.2983910 0.12750018
Murder 0.3457401 -0.21746230 0.6723592 -0.7802406 1.0000000 -0.4367330 -0.5438432 0.10642590
HS Grad -0.3833649 0.51048095 -0.6545396 0.5239410 -0.4367330 1.0000000 0.3985351 0.43897520
Frost -0.4588526 0.19686382 -0.6831936 0.2983910 -0.5438432 0.3985351 1.0000000 0.11228778
Area -0.1206723 0.05709484 -0.2503721 0.1275002 0.1064259 0.4389752 0.1122878 1.00000000