將“二八法則”運(yùn)用到我們的統(tǒng)計(jì)學(xué)習(xí)中,就是用20%的時(shí)間精力去習(xí)得最重要最常用80%的技巧和能力。統(tǒng)計(jì)學(xué)的東西很多很繁雜,如果面面俱到的話,精力不夠,時(shí)間不足,還不一定能用的到。所以這里寫到的就是最常用的醫(yī)學(xué)統(tǒng)計(jì)能用到的,爭(zhēng)取是能夠?qū)W的到,用的上的統(tǒng)計(jì)方法。
首先先用上一副從別處習(xí)得的統(tǒng)計(jì)方法選擇的圖

這幅圖可以說從問題入手,去選擇相應(yīng)的方法,相比于教科書,確實(shí)思維方式上就有所不同。更符合平時(shí)問題遇到的情況。
1. 數(shù)據(jù)分布檢驗(yàn)
首先需要確定數(shù)據(jù)的情況,是否符合正態(tài)分布,是否符合方差齊性。什么是正態(tài)分布比較好理解,不贅述。何為方差齊性,我們依然是用例子來說明一下,方差是什么,方差是在概率論和統(tǒng)計(jì)方差衡量隨機(jī)變量的統(tǒng)計(jì)值,統(tǒng)計(jì)中的方差(樣本方差)是每個(gè)樣本值與全體樣本值的平均數(shù)之差的平方值的平均數(shù),計(jì)算公式為
那么為什么要在比較之前考慮方差是否齊性呢。用R來做兩組數(shù)據(jù),進(jìn)行比較。
> a <- c(-5,-4,-3,-2,-1,1,2,3,4,5)
> b <- c(-50,-40,-30,-20,-10,10,20,30,40,50)
> var(a)
[1] 12.22222
> var(b)
[1] 1222.222
> mean(a);mean(b)
[1] 0
[1] 0
兩組數(shù)據(jù)a,b平均數(shù)都是0,但是能夠說兩組數(shù)據(jù)一致嗎,二者的方差前者12,后者1222 是完全不同,所以必須要進(jìn)行方差比較,比較二者是否一致。
所以第一步就是檢驗(yàn)是否為正態(tài)分布和方差齊性,二者的檢驗(yàn)同樣都可以在R中完成。
1.1 正態(tài)分布檢驗(yàn)
在R中可以使用如下函數(shù)進(jìn)行正態(tài)分布檢驗(yàn)。
> d <- rnorm(n = 10,mean = 0)
> shapiro.test(d)
Shapiro-Wilk normality test
data: d
W = 0.9598, p-value = 0.7836
通過R生成隨機(jī)數(shù)組d,使用shapiro.test()函數(shù)檢驗(yàn),p值大于0.05,不拒絕原假設(shè),即就是數(shù)組符合正態(tài)分布。
1.2 方差齊性檢驗(yàn)
方差齊性檢驗(yàn)可以通過R軟件的car包中的bartlett.test函數(shù)輸出Bartlett檢驗(yàn),使用leveneTest()函數(shù)輸出Levene檢驗(yàn)。
> data("InsectSprays")
> head(InsectSprays)
count spray
1 10 A
2 7 A
3 20 A
4 14 A
5 14 A
6 12 A
> bartlett.test(InsectSprays$count, InsectSprays$spray)
Bartlett test of homogeneity of variances
data: InsectSprays$count and InsectSprays$spray
Bartlett's K-squared = 25.96, df = 5, p-value = 9.085e-05
使用"InsectSprays"數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行檢驗(yàn)分析,可發(fā)現(xiàn)Bartlett檢驗(yàn)的p值小于0.05,拒絕,即就是兩組數(shù)據(jù)的方差不齊。我們作圖觀察。
plot(count ~ spray, data = InsectSprays)

可以看出組別之間的方差確實(shí)差異比較大。
繼續(xù)使用LeveneTest包進(jìn)行檢驗(yàn)。
> head(Moore)
partner.status conformity fcategory fscore
1 low 8 low 37
2 low 4 high 57
3 low 8 high 65
4 low 7 low 20
5 low 10 low 36
6 low 6 low 18
> with(Moore, leveneTest(conformity, fcategory))
Levene's Test for Homogeneity of Variance (center = median)
Df F value Pr(>F)
group 2 0.046 0.9551
42
> with(Moore, leveneTest(conformity, interaction(fcategory, partner.status)))
Levene's Test for Homogeneity of Variance (center = median)
Df F value Pr(>F)
group 5 1.4694 0.2219
39
檢驗(yàn)conformity, fcategory兩組數(shù)據(jù)是否方差齊性,得到的p值大于0.05,不能拒絕原假設(shè),即數(shù)據(jù)方差齊。conformity,fcategory, partner.status兩組數(shù)據(jù)同樣方差齊性。作圖觀察。
> plot(Moore$conformity ~ Moore$fcategory, data = InsectSprays)
> plot(Moore$conformity ~ interaction(Moore$fcategory, Moore$partner.status), data = InsectSprays)


好了,通過上面的一系列檢驗(yàn),對(duì)數(shù)據(jù)的分布情況有了了解,下一步就可以根據(jù)是否正態(tài)分布及是否符合方差齊性選擇參數(shù)檢驗(yàn)或者非參數(shù)檢驗(yàn)。
參考文章及書目
R語言統(tǒng)計(jì)分析與應(yīng)用-汪海波
白話統(tǒng)計(jì)-馮國雙
一張圖說明統(tǒng)計(jì)方法的選擇
R語言中方差齊性檢驗(yàn)丨數(shù)析學(xué)院
方差分析與R實(shí)現(xiàn)