皮爾遜相關(guān)系數(shù)

兩種最常用的相關(guān)系數(shù):皮爾遜person相關(guān)系數(shù)和斯皮爾曼spearman等級(jí)相關(guān)系數(shù)。
他可以用來(lái)衡量?jī)蓚€(gè)變量之間相關(guān)性的大小,根據(jù)數(shù)據(jù)滿足不同的條件,我們要選擇不同的相關(guān)系數(shù)進(jìn)行計(jì)算和分析。
注:用皮爾遜相關(guān)系數(shù)進(jìn)行分析時(shí),選取兩兩變量,需要 通過(guò)作圖 看出兩兩變量 有線性相關(guān)性 才可進(jìn)一步獲知其相關(guān)系數(shù)。
若上述滿足了,得出了皮爾遜相關(guān)系數(shù),還要看每個(gè)相關(guān)系數(shù)是否顯著異于0,這樣之后才能看出兩兩變量線性相關(guān)性有多大。
但是此時(shí)樣本數(shù)據(jù)需要滿足 正態(tài)分布,若不滿足不可進(jìn)行假設(shè)檢驗(yàn)。因此有幾種檢驗(yàn)數(shù)據(jù)是否正態(tài)分布的方法。
若滿足正態(tài)分布,得出了p值矩陣,和顯著性比較后可以知道是否顯著異于0,用*表示出來(lái),這才完成了相關(guān)性檢驗(yàn)的步驟,得出了這個(gè)兩兩變量間是顯著正相關(guān)還是負(fù)相關(guān),或者是不顯著的相關(guān)。
皮爾遜相關(guān)系數(shù)介紹
總體 ——所要考察對(duì)象的全部個(gè)體叫做總體.
我們總是希望得到總體數(shù)據(jù)的一些特征(例如均值方差等)
樣本 ——從總體中所抽取的一部分個(gè)體叫做總體的一個(gè)樣本.
1. 總體皮爾遜相關(guān)系數(shù)
- 先算均值
- 再算協(xié)方差
- 再算標(biāo)準(zhǔn)差(方差)
- 最后算相關(guān)系數(shù)

2. 樣本皮爾遜相關(guān)系數(shù)

兩者的區(qū)別只在于n變成了n-1.
相關(guān)性可視化
通過(guò)繪制散點(diǎn)圖可以很容易地判定兩個(gè)數(shù)據(jù)對(duì)象x和y之間的相關(guān)性。
- x與y趨勢(shì)相反為負(fù)相關(guān)
- x與y趨勢(shì)相同為正相關(guān)
- 相關(guān)系數(shù)絕對(duì)值越接近1,相關(guān)性越大

皮爾遜相關(guān)系數(shù)的一些誤區(qū)
-
相關(guān)系數(shù)很大,但是圖像不是線性相關(guān)
- 非線性相關(guān)也會(huì)導(dǎo)致線性相關(guān)系數(shù)很大,例如圖2。
- 離群點(diǎn)對(duì)相關(guān)系數(shù)的影響很大,例如圖3,去掉離群點(diǎn)后,相關(guān)系數(shù)為0.98。
- 如果兩個(gè)變量的相關(guān)系數(shù)很大也不能說(shuō)明兩者相關(guān),例如圖4,可能是受到了異常值的影響。

-
圖像有相關(guān)性,但是相關(guān)系數(shù)很小
- 相關(guān)系數(shù)計(jì)算結(jié)果為0,只能說(shuō)不是線性相關(guān),但說(shuō)不定會(huì)有更復(fù)雜的相關(guān)關(guān)系(非線性相關(guān))

因此:
- 必須先確定兩個(gè)變量是線性相關(guān)的,然后才能通過(guò)相關(guān)系數(shù)知道相關(guān)程度如何。
- 在不確定兩個(gè)變量是什么關(guān)系的情況下,即使算出皮爾遜相關(guān)系數(shù),發(fā)現(xiàn)很大,也不能說(shuō)明那兩個(gè)變量線性相關(guān),甚至不能說(shuō)他們相關(guān),我們一定要畫出散點(diǎn)圖來(lái)看才行。
描述性統(tǒng)計(jì)
對(duì)整體的數(shù)據(jù)進(jìn)行不同角度的統(tǒng)計(jì)。
用matlab統(tǒng)計(jì)

用Excel統(tǒng)計(jì)
數(shù)據(jù)-數(shù)據(jù)分析

用SPSS統(tǒng)計(jì)

矩陣散點(diǎn)圖:兩兩變量間作圖
用于查看兩兩變量間的關(guān)系,看看是否有線性關(guān)系

求皮爾遜相關(guān)系數(shù)的函數(shù)corrcoef()
可以對(duì)一個(gè)矩陣兩兩列求相關(guān)系數(shù),也可以求給的兩向量的相關(guān)系數(shù)。

美化相關(guān)系數(shù)矩陣
這里用excel來(lái)做
對(duì)獲得的矩陣復(fù)制到excel中,調(diào)整行高,使他為正方形
然后選中數(shù)據(jù),然后條件格式|色階即可


- 條件格式|管理規(guī)則里修改改規(guī)則,把最小值設(shè)為數(shù)值-1,最大值設(shè)為數(shù)值1,因?yàn)橄嚓P(guān)系數(shù)在[-1,1]之間。這樣的圖才準(zhǔn)確
假設(shè)檢驗(yàn)
假設(shè)檢驗(yàn)一般步驟:

假設(shè)檢驗(yàn)-p值:

對(duì)皮爾遜相關(guān)系數(shù)進(jìn)行假設(shè)檢驗(yàn),得顯著性水平
手動(dòng)計(jì)算出檢驗(yàn)值和臨界值,進(jìn)行假設(shè)檢驗(yàn)
第一步:提出原假設(shè)和備擇假設(shè)
- 已知皮爾遜相關(guān)系數(shù)
,我們想檢驗(yàn)他是否顯著地異于0
第二步:在原假設(shè)成立的前提下,利用要檢驗(yàn)的量()構(gòu)造符合某一分布的統(tǒng)計(jì)量
? 對(duì)于皮爾遜相關(guān)系數(shù)r而言,在滿足一定的條件下,我們可以構(gòu)造出統(tǒng)計(jì)量:
? 是服從自由度為n-2的
分布。至此我們根據(jù)
構(gòu)造出了一個(gè)
分布(證明略)
第三步:將要檢驗(yàn)的值帶入該統(tǒng)計(jì)量,得到特定值
? 如相關(guān)系數(shù),樣本數(shù)量為30,則
第四步:根據(jù)分布和置信水平找到臨界值,就可以找到接受域和拒絕域
- 方法:
- 查表:t分布,置信水平0.95,則右側(cè)累積置信水平0.975,自由度28,找到臨界值2.048
- 函數(shù)計(jì)算:臨界值=tinv(0.975,28) % 這個(gè)函數(shù)是累積密度函數(shù)tcdf的反函數(shù)
- 判斷結(jié)果
- 檢驗(yàn)值>臨界值,拒絕原假設(shè)-->相關(guān)系數(shù)r和0有顯著差異(即可以視這個(gè)相關(guān)系數(shù)為0)
- 檢驗(yàn)值<臨界值,接受原假設(shè)-->相關(guān)系數(shù)r和0沒(méi)有顯著差異
計(jì)算p值檢驗(yàn)
單個(gè)相關(guān)系數(shù)檢驗(yàn)顯著性:
已知檢驗(yàn)值為3.055,自由度28,雙側(cè)檢驗(yàn),求其p值:
p=(1-tcdf(3.055,28))*2
% tcdf:t分布的累計(jì)概率密度函數(shù)
?
另一種便捷方法:直接得出相關(guān)系數(shù)矩陣及其p值矩陣:
[R,P]=corrcoef(X)
% R 為相關(guān)系數(shù)矩陣
% P 為p值矩陣
相關(guān)系數(shù)的顯著性水平表示方法
看p值和顯著性水平的關(guān)系(p在哪個(gè)段里):
- 0-0.01:r和0有很大顯著區(qū)別,三星
- 0.01-0.05:r和0有較大顯著區(qū)別,二星
- 0.05-0.10:r和0有顯著區(qū)別,一星

代碼篩選:
star3=P<0.01
star2=(P>0.01) .* (P<0.05)
star1=(P>0.05) .* (P<0.1)

皮爾遜相關(guān)系數(shù)假設(shè)檢驗(yàn)的條件
要進(jìn)行假設(shè)檢驗(yàn),你這個(gè)實(shí)驗(yàn)數(shù)據(jù)要符合一些條件,才能進(jìn)行檢驗(yàn),得顯著水平:

這里只要保證第一個(gè):實(shí)驗(yàn)數(shù)據(jù)符合正態(tài)分布即可。
那么,
如何檢驗(yàn)數(shù)據(jù)是否是正態(tài)分布?
雅克貝拉檢驗(yàn)JB檢驗(yàn)(Jarque-bera test)
要求大樣本,n>30。
matlab:[h,p] = jbtest(x,alpha)
h為結(jié)果,1拒絕原假設(shè),0接受原假設(shè)。
p為p值,與alpha顯著水平比較,小于則拒絕原假設(shè),大于接受原假設(shè)
x為一個(gè)向量
alpha為顯著水平,一般為
0.05,此時(shí)置信水平為0.95
如:
[h,p]=jbtest(Test(:,1),0.05)
夏皮洛-威爾克檢驗(yàn) (Shapiro‐wilk)
小樣本 3≤n≤50。
這里用SPSS檢驗(yàn)。

Q-Q圖
要求數(shù)據(jù)量很大,500以上吧,不然會(huì)有偏差。而且QQ圖不太常用。

matlab使用:
qqplot(x)
% x為向量