[數(shù)學(xué)建模第五講] 皮爾遜相關(guān)系數(shù)

皮爾遜相關(guān)系數(shù)

目錄

兩種最常用的相關(guān)系數(shù):皮爾遜person相關(guān)系數(shù)和斯皮爾曼spearman等級(jí)相關(guān)系數(shù)。

他可以用來(lái)衡量?jī)蓚€(gè)變量之間相關(guān)性的大小,根據(jù)數(shù)據(jù)滿足不同的條件,我們要選擇不同的相關(guān)系數(shù)進(jìn)行計(jì)算和分析。

注:用皮爾遜相關(guān)系數(shù)進(jìn)行分析時(shí),選取兩兩變量,需要 通過(guò)作圖 看出兩兩變量 有線性相關(guān)性 才可進(jìn)一步獲知其相關(guān)系數(shù)。

若上述滿足了,得出了皮爾遜相關(guān)系數(shù),還要看每個(gè)相關(guān)系數(shù)是否顯著異于0,這樣之后才能看出兩兩變量線性相關(guān)性有多大。

但是此時(shí)樣本數(shù)據(jù)需要滿足 正態(tài)分布,若不滿足不可進(jìn)行假設(shè)檢驗(yàn)。因此有幾種檢驗(yàn)數(shù)據(jù)是否正態(tài)分布的方法。

若滿足正態(tài)分布,得出了p值矩陣,和顯著性比較后可以知道是否顯著異于0,用*表示出來(lái),這才完成了相關(guān)性檢驗(yàn)的步驟,得出了這個(gè)兩兩變量間是顯著正相關(guān)還是負(fù)相關(guān),或者是不顯著的相關(guān)。

皮爾遜相關(guān)系數(shù)介紹

總體 ——所要考察對(duì)象的全部個(gè)體叫做總體.
我們總是希望得到總體數(shù)據(jù)的一些特征(例如均值方差等)
樣本 ——從總體中所抽取的一部分個(gè)體叫做總體的一個(gè)樣本.

1. 總體皮爾遜相關(guān)系數(shù)

  • 先算均值
  • 再算協(xié)方差
  • 再算標(biāo)準(zhǔn)差(方差)
  • 最后算相關(guān)系數(shù)
image.png

2. 樣本皮爾遜相關(guān)系數(shù)

image.png

兩者的區(qū)別只在于n變成了n-1.

相關(guān)性可視化

通過(guò)繪制散點(diǎn)圖可以很容易地判定兩個(gè)數(shù)據(jù)對(duì)象x和y之間的相關(guān)性。

  • x與y趨勢(shì)相反為負(fù)相關(guān)
  • x與y趨勢(shì)相同為正相關(guān)
  • 相關(guān)系數(shù)絕對(duì)值越接近1,相關(guān)性越大
image.png

皮爾遜相關(guān)系數(shù)的一些誤區(qū)

  1. 相關(guān)系數(shù)很大,但是圖像不是線性相關(guān)

    • 非線性相關(guān)也會(huì)導(dǎo)致線性相關(guān)系數(shù)很大,例如圖2。
    • 離群點(diǎn)對(duì)相關(guān)系數(shù)的影響很大,例如圖3,去掉離群點(diǎn)后,相關(guān)系數(shù)為0.98。
    • 如果兩個(gè)變量的相關(guān)系數(shù)很大也不能說(shuō)明兩者相關(guān),例如圖4,可能是受到了異常值的影響。
image.png
  1. 圖像有相關(guān)性,但是相關(guān)系數(shù)很小

    • 相關(guān)系數(shù)計(jì)算結(jié)果為0,只能說(shuō)不是線性相關(guān),但說(shuō)不定會(huì)有更復(fù)雜的相關(guān)關(guān)系(非線性相關(guān))
image.png

因此:

  1. 必須先確定兩個(gè)變量是線性相關(guān)的,然后才能通過(guò)相關(guān)系數(shù)知道相關(guān)程度如何。
  2. 在不確定兩個(gè)變量是什么關(guān)系的情況下,即使算出皮爾遜相關(guān)系數(shù),發(fā)現(xiàn)很大,也不能說(shuō)明那兩個(gè)變量線性相關(guān),甚至不能說(shuō)他們相關(guān),我們一定要畫出散點(diǎn)圖來(lái)看才行。

描述性統(tǒng)計(jì)

對(duì)整體的數(shù)據(jù)進(jìn)行不同角度的統(tǒng)計(jì)。

用matlab統(tǒng)計(jì)

image.png

用Excel統(tǒng)計(jì)

數(shù)據(jù)-數(shù)據(jù)分析

image.png

用SPSS統(tǒng)計(jì)

image.png

矩陣散點(diǎn)圖:兩兩變量間作圖

用于查看兩兩變量間的關(guān)系,看看是否有線性關(guān)系

image.png

求皮爾遜相關(guān)系數(shù)的函數(shù)corrcoef()

可以對(duì)一個(gè)矩陣兩兩列求相關(guān)系數(shù),也可以求給的兩向量的相關(guān)系數(shù)。

image.png

美化相關(guān)系數(shù)矩陣

這里用excel來(lái)做

  1. 對(duì)獲得的矩陣復(fù)制到excel中,調(diào)整行高,使他為正方形

  2. 然后選中數(shù)據(jù),然后條件格式|色階即可

image.png
image.png
  1. 條件格式|管理規(guī)則里修改改規(guī)則,把最小值設(shè)為數(shù)值-1,最大值設(shè)為數(shù)值1,因?yàn)橄嚓P(guān)系數(shù)在[-1,1]之間。這樣的圖才準(zhǔn)確

假設(shè)檢驗(yàn)

假設(shè)檢驗(yàn)一般步驟:

image.png

假設(shè)檢驗(yàn)-p值:

image.png

對(duì)皮爾遜相關(guān)系數(shù)進(jìn)行假設(shè)檢驗(yàn),得顯著性水平

手動(dòng)計(jì)算出檢驗(yàn)值和臨界值,進(jìn)行假設(shè)檢驗(yàn)

第一步:提出原假設(shè)H_0和備擇假設(shè)H_1

  • 已知皮爾遜相關(guān)系數(shù)r,我們想檢驗(yàn)他是否顯著地異于0
  • H_0:r=0 \,\,r和0沒(méi)有顯著差異\,\, H_1:r!=0 \,\,r和0有顯著差異

第二步:在原假設(shè)成立的前提下,利用要檢驗(yàn)的量(r)構(gòu)造符合某一分布的統(tǒng)計(jì)量

? 對(duì)于皮爾遜相關(guān)系數(shù)r而言,在滿足一定的條件下,我們可以構(gòu)造出統(tǒng)計(jì)量:
t=r\sqrt{{n-2}\over{1-r^2}}
? t是服從自由度為n-2的t分布。至此我們根據(jù)r構(gòu)造出了一個(gè)t分布(證明略)

第三步:將要檢驗(yàn)的r值帶入該統(tǒng)計(jì)量,得到特定值

? 如相關(guān)系數(shù)r=0.5,樣本數(shù)量為30,則t^*=0.5\sqrt{{30-2}\over{1-0.5^2}}=3.055

第四步:根據(jù)分布和置信水平找到臨界值,就可以找到接受域和拒絕域

  • 方法:
    • 查表:t分布,置信水平0.95,則右側(cè)累積置信水平0.975,自由度28,找到臨界值2.048
    • 函數(shù)計(jì)算:臨界值=tinv(0.975,28) % 這個(gè)函數(shù)是累積密度函數(shù)tcdf的反函數(shù)
  • 判斷結(jié)果
    • 檢驗(yàn)值>臨界值,拒絕原假設(shè)-->相關(guān)系數(shù)r和0有顯著差異(即可以視這個(gè)相關(guān)系數(shù)為0)
    • 檢驗(yàn)值<臨界值,接受原假設(shè)-->相關(guān)系數(shù)r和0沒(méi)有顯著差異

計(jì)算p值檢驗(yàn)

單個(gè)相關(guān)系數(shù)檢驗(yàn)顯著性:

已知檢驗(yàn)值為3.055,自由度28,雙側(cè)檢驗(yàn),求其p值:

p=(1-tcdf(3.055,28))*2 
% tcdf:t分布的累計(jì)概率密度函數(shù)

?

另一種便捷方法:直接得出相關(guān)系數(shù)矩陣及其p值矩陣:

[R,P]=corrcoef(X)
% R 為相關(guān)系數(shù)矩陣
% P 為p值矩陣

相關(guān)系數(shù)的顯著性水平表示方法

看p值和顯著性水平的關(guān)系(p在哪個(gè)段里):

  • 0-0.01:r和0有很大顯著區(qū)別,三星
  • 0.01-0.05:r和0有較大顯著區(qū)別,二星
  • 0.05-0.10:r和0有顯著區(qū)別,一星
image.png

代碼篩選:

star3=P<0.01

star2=(P>0.01) .* (P<0.05)

star1=(P>0.05) .* (P<0.1)
image.png

皮爾遜相關(guān)系數(shù)假設(shè)檢驗(yàn)的條件

要進(jìn)行假設(shè)檢驗(yàn),你這個(gè)實(shí)驗(yàn)數(shù)據(jù)要符合一些條件,才能進(jìn)行檢驗(yàn),得顯著水平:

image.png

這里只要保證第一個(gè):實(shí)驗(yàn)數(shù)據(jù)符合正態(tài)分布即可。

那么,

如何檢驗(yàn)數(shù)據(jù)是否是正態(tài)分布?

雅克貝拉檢驗(yàn)JB檢驗(yàn)(Jarque-bera test)

要求大樣本,n>30。

matlab:[h,p] = jbtest(x,alpha)

  • h為結(jié)果,1拒絕原假設(shè),0接受原假設(shè)。

  • p為p值,與alpha顯著水平比較,小于則拒絕原假設(shè),大于接受原假設(shè)

  • x為一個(gè)向量

  • alpha為顯著水平,一般為0.05,此時(shí)置信水平為0.95

如:

[h,p]=jbtest(Test(:,1),0.05)

夏皮洛-威爾克檢驗(yàn) (Shapiro‐wilk)

小樣本 3≤n≤50。

這里用SPSS檢驗(yàn)。

image.png

Q-Q圖

要求數(shù)據(jù)量很大,500以上吧,不然會(huì)有偏差。而且QQ圖不太常用。


image.png

matlab使用:

qqplot(x)
% x為向量
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容