《Discovering Statistics Using R》筆記8-Spearman相關(guān)系數(shù)和Kendall’s tau相關(guān)系數(shù)

筆記說明

讀《Discovering Statistics Using R》第六章 Correlation中的6.5.5-6.5.6節(jié)做的筆記。主要是介紹Spearman相關(guān)系數(shù)和Kendall’s tau相關(guān)系數(shù)。

示例數(shù)據(jù)

設(shè)我們想要驗證一個理論:創(chuàng)造力更強的人可以講出更厲害的故事。有這么一個比賽“the World's Biggest Liar competition”每年舉辦一次。作者收集了68個參賽者的比賽名次數(shù)據(jù)并讓他們做了一份考察創(chuàng)造力的量表,滿分60分。數(shù)據(jù)在這里:The Biggest Liar.dat

library(rio)
liarData <- import("data/The Biggest Liar.dat")
str(liarData)
## 'data.frame':    68 obs. of  3 variables:
##  $ Creativity: int  53 36 31 43 30 41 32 54 47 50 ...
##  $ Position  : int  1 3 4 2 4 1 4 1 2 2 ...
##  $ Novice    : int  0 1 0 0 1 0 0 1 1 0 ...

Position即為比賽名次,Creativity即為創(chuàng)造力評分。
由于position變量為定序變量,而Pearson相關(guān)系數(shù)要求數(shù)據(jù)為定距變量,不適合使用Pearson相關(guān)系數(shù)。
仍然是先做一個散點圖看一下數(shù)據(jù)情況:

#散點圖
library(ggplot2)
scatter <- ggplot(liarData, aes(Creativity, Position)) + geom_point()

Spearman相關(guān)系數(shù)

Spearman相關(guān)系數(shù) r_s是一個非參數(shù)統(tǒng)計量,也稱為Spearman's rho,可用于數(shù)據(jù)違反參數(shù)假設(shè)(例如正態(tài)性假設(shè))的情形。計算Spearman相關(guān)系數(shù)時首先將原始數(shù)據(jù)從小到達(dá)排序編秩,對排序后的秩次計算Pearson相關(guān)系數(shù)即為原數(shù)據(jù)的Spearman相關(guān)系數(shù)。
和Pearson相關(guān)系數(shù)一樣,Spearman相關(guān)系數(shù)可以使用cor()、cor.test()進行計算和檢驗,只需指定method='spearman'即可:

cor(liarData$Creativity, liarData$Position, method = 'spearman')
## [1] -0.3732184
cor.test(liarData$Creativity, liarData$Position,method = 'spearman')
##  Spearman's rank correlation rho
## 
## data:  liarData$Creativity and liarData$Position
## S = 71948, p-value = 0.00172
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##        rho 
## -0.3732184 
## 
## Warning message:
## In cor.test.default(liarData$Creativity, liarData$Position, method = "spearman") :
##   無法給連結(jié)計算精確p值

cor.test()對Spearman相關(guān)系數(shù)的結(jié)果和Pearson相關(guān)系數(shù)的很像。但沒有置信區(qū)間(如果需要計算置信區(qū)間可以用bootstrap法,見之后章節(jié)的筆記)

Kendall's tau相關(guān)系數(shù)

Kendall's tau, \tau,也是一個非參數(shù)相關(guān)系數(shù),當(dāng)樣本量較小,排序編秩時相同秩次的數(shù)又比較多時使用。
Spearman相關(guān)系數(shù)和Kendall's tau相關(guān)系數(shù)都是非參數(shù)相關(guān)系數(shù),雖然Spearman相關(guān)系數(shù)更多見,有文獻(Howell,1997)表明Kendall's tau相關(guān)系數(shù)實際上是總體相關(guān)關(guān)系更好的估計。
示例數(shù)據(jù)中Position變量有很多值都是編秩時秩次相同的,上面用cor.test()計算并檢驗Spearman相關(guān)系數(shù)時結(jié)果中有一條warning中所說的“連結(jié)”就是指tied ranks,秩次相同的情況有些多。
和之前介紹的其他兩個相關(guān)系數(shù)一樣,Kendall's tau相關(guān)系數(shù)可以使用cor()、cor.test()進行計算和檢驗,只需指定method='kendall'即可:

#Kendall's tau相關(guān)系數(shù)
cor(liarData$Creativity, liarData$Position, method = 'kendall')
cor.test(liarData$Creativity, liarData$Position,method = 'kendall')
##  Kendall's rank correlation tau
## 
## data:  liarData$Creativity and liarData$Position
## z = -3.2252, p-value = 0.001259
## alternative hypothesis: true tau is not equal to 0
## sample estimates:
##        tau 
## -0.3002413 
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容