筆記說明
讀《Discovering Statistics Using R》第六章 Correlation中的6.5.5-6.5.6節(jié)做的筆記。主要是介紹Spearman相關(guān)系數(shù)和Kendall’s tau相關(guān)系數(shù)。
示例數(shù)據(jù)
設(shè)我們想要驗證一個理論:創(chuàng)造力更強的人可以講出更厲害的故事。有這么一個比賽“the World's Biggest Liar competition”每年舉辦一次。作者收集了68個參賽者的比賽名次數(shù)據(jù)并讓他們做了一份考察創(chuàng)造力的量表,滿分60分。數(shù)據(jù)在這里:The Biggest Liar.dat
library(rio)
liarData <- import("data/The Biggest Liar.dat")
str(liarData)
## 'data.frame': 68 obs. of 3 variables:
## $ Creativity: int 53 36 31 43 30 41 32 54 47 50 ...
## $ Position : int 1 3 4 2 4 1 4 1 2 2 ...
## $ Novice : int 0 1 0 0 1 0 0 1 1 0 ...
Position即為比賽名次,Creativity即為創(chuàng)造力評分。
由于position變量為定序變量,而Pearson相關(guān)系數(shù)要求數(shù)據(jù)為定距變量,不適合使用Pearson相關(guān)系數(shù)。
仍然是先做一個散點圖看一下數(shù)據(jù)情況:
#散點圖
library(ggplot2)
scatter <- ggplot(liarData, aes(Creativity, Position)) + geom_point()

Spearman相關(guān)系數(shù)
Spearman相關(guān)系數(shù) 是一個非參數(shù)統(tǒng)計量,也稱為Spearman's rho,可用于數(shù)據(jù)違反參數(shù)假設(shè)(例如正態(tài)性假設(shè))的情形。計算Spearman相關(guān)系數(shù)時首先將原始數(shù)據(jù)從小到達(dá)排序編秩,對排序后的秩次計算Pearson相關(guān)系數(shù)即為原數(shù)據(jù)的Spearman相關(guān)系數(shù)。
和Pearson相關(guān)系數(shù)一樣,Spearman相關(guān)系數(shù)可以使用cor()、cor.test()進行計算和檢驗,只需指定method='spearman'即可:
cor(liarData$Creativity, liarData$Position, method = 'spearman')
## [1] -0.3732184
cor.test(liarData$Creativity, liarData$Position,method = 'spearman')
## Spearman's rank correlation rho
##
## data: liarData$Creativity and liarData$Position
## S = 71948, p-value = 0.00172
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## -0.3732184
##
## Warning message:
## In cor.test.default(liarData$Creativity, liarData$Position, method = "spearman") :
## 無法給連結(jié)計算精確p值
cor.test()對Spearman相關(guān)系數(shù)的結(jié)果和Pearson相關(guān)系數(shù)的很像。但沒有置信區(qū)間(如果需要計算置信區(qū)間可以用bootstrap法,見之后章節(jié)的筆記)
Kendall's tau相關(guān)系數(shù)
Kendall's tau, ,也是一個非參數(shù)相關(guān)系數(shù),當(dāng)樣本量較小,排序編秩時相同秩次的數(shù)又比較多時使用。
Spearman相關(guān)系數(shù)和Kendall's tau相關(guān)系數(shù)都是非參數(shù)相關(guān)系數(shù),雖然Spearman相關(guān)系數(shù)更多見,有文獻(Howell,1997)表明Kendall's tau相關(guān)系數(shù)實際上是總體相關(guān)關(guān)系更好的估計。
示例數(shù)據(jù)中Position變量有很多值都是編秩時秩次相同的,上面用cor.test()計算并檢驗Spearman相關(guān)系數(shù)時結(jié)果中有一條warning中所說的“連結(jié)”就是指tied ranks,秩次相同的情況有些多。
和之前介紹的其他兩個相關(guān)系數(shù)一樣,Kendall's tau相關(guān)系數(shù)可以使用cor()、cor.test()進行計算和檢驗,只需指定method='kendall'即可:
#Kendall's tau相關(guān)系數(shù)
cor(liarData$Creativity, liarData$Position, method = 'kendall')
cor.test(liarData$Creativity, liarData$Position,method = 'kendall')
## Kendall's rank correlation tau
##
## data: liarData$Creativity and liarData$Position
## z = -3.2252, p-value = 0.001259
## alternative hypothesis: true tau is not equal to 0
## sample estimates:
## tau
## -0.3002413