統(tǒng)計(jì)方法的選擇(1)--正態(tài)性和方差齊性

“二八法則”運(yùn)用到我們的統(tǒng)計(jì)學(xué)習(xí)中,就是用20%的時(shí)間精力去習(xí)得最重要最常用80%的技巧和能力。統(tǒng)計(jì)學(xué)的東西很多很繁雜,如果面面俱到的話,精力不夠,時(shí)間不足,還不一定能用的到。所以這里寫到的就是最常用的醫(yī)學(xué)統(tǒng)計(jì)能用到的,爭(zhēng)取是能夠?qū)W的到,用的上的統(tǒng)計(jì)方法。

首先先用上一副從別處習(xí)得的統(tǒng)計(jì)方法選擇的圖


統(tǒng)計(jì)學(xué)方法的選擇

這幅圖可以說從問題入手,去選擇相應(yīng)的方法,相比于教科書,確實(shí)思維方式上就有所不同。更符合平時(shí)問題遇到的情況。

1. 數(shù)據(jù)分布檢驗(yàn)

首先需要確定數(shù)據(jù)的情況,是否符合正態(tài)分布,是否符合方差齊性。什么是正態(tài)分布比較好理解,不贅述。何為方差齊性,我們依然是用例子來說明一下,方差是什么,方差是在概率論和統(tǒng)計(jì)方差衡量隨機(jī)變量的統(tǒng)計(jì)值,統(tǒng)計(jì)中的方差(樣本方差)是每個(gè)樣本值與全體樣本值的平均數(shù)之差的平方值的平均數(shù),計(jì)算公式為

那么為什么要在比較之前考慮方差是否齊性呢。用R來做兩組數(shù)據(jù),進(jìn)行比較。

> a <- c(-5,-4,-3,-2,-1,1,2,3,4,5)
> b <- c(-50,-40,-30,-20,-10,10,20,30,40,50)
> var(a)
[1] 12.22222
> var(b)
[1] 1222.222
> mean(a);mean(b)
[1] 0
[1] 0

兩組數(shù)據(jù)a,b平均數(shù)都是0,但是能夠說兩組數(shù)據(jù)一致嗎,二者的方差前者12,后者1222 是完全不同,所以必須要進(jìn)行方差比較,比較二者是否一致。

所以第一步就是檢驗(yàn)是否為正態(tài)分布和方差齊性,二者的檢驗(yàn)同樣都可以在R中完成。

1.1 正態(tài)分布檢驗(yàn)

在R中可以使用如下函數(shù)進(jìn)行正態(tài)分布檢驗(yàn)。

> d <- rnorm(n = 10,mean = 0)
> shapiro.test(d)

    Shapiro-Wilk normality test

data:  d
W = 0.9598, p-value = 0.7836

通過R生成隨機(jī)數(shù)組d,使用shapiro.test()函數(shù)檢驗(yàn),p值大于0.05,不拒絕原假設(shè),即就是數(shù)組符合正態(tài)分布。

1.2 方差齊性檢驗(yàn)

方差齊性檢驗(yàn)可以通過R軟件的car包中的bartlett.test函數(shù)輸出Bartlett檢驗(yàn),使用leveneTest()函數(shù)輸出Levene檢驗(yàn)。

> data("InsectSprays")
> head(InsectSprays)
  count spray
1    10     A
2     7     A
3    20     A
4    14     A
5    14     A
6    12     A
> bartlett.test(InsectSprays$count, InsectSprays$spray)

    Bartlett test of homogeneity of variances

data:  InsectSprays$count and InsectSprays$spray
Bartlett's K-squared = 25.96, df = 5, p-value = 9.085e-05

使用"InsectSprays"數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行檢驗(yàn)分析,可發(fā)現(xiàn)Bartlett檢驗(yàn)的p值小于0.05,拒絕H_0,即就是兩組數(shù)據(jù)的方差不齊。我們作圖觀察。

plot(count ~ spray, data = InsectSprays)

可以看出組別之間的方差確實(shí)差異比較大。

繼續(xù)使用LeveneTest包進(jìn)行檢驗(yàn)。

> head(Moore)
  partner.status conformity fcategory fscore
1            low          8       low     37
2            low          4      high     57
3            low          8      high     65
4            low          7       low     20
5            low         10       low     36
6            low          6       low     18
> with(Moore, leveneTest(conformity, fcategory))
Levene's Test for Homogeneity of Variance (center = median)
      Df F value Pr(>F)
group  2   0.046 0.9551
      42               
> with(Moore, leveneTest(conformity, interaction(fcategory, partner.status)))
Levene's Test for Homogeneity of Variance (center = median)
      Df F value Pr(>F)
group  5  1.4694 0.2219
      39           

檢驗(yàn)conformity, fcategory兩組數(shù)據(jù)是否方差齊性,得到的p值大于0.05,不能拒絕原假設(shè),即數(shù)據(jù)方差齊。conformity,fcategory, partner.status兩組數(shù)據(jù)同樣方差齊性。作圖觀察。

> plot(Moore$conformity ~ Moore$fcategory, data = InsectSprays)
> plot(Moore$conformity ~ interaction(Moore$fcategory, Moore$partner.status), data = InsectSprays)

好了,通過上面的一系列檢驗(yàn),對(duì)數(shù)據(jù)的分布情況有了了解,下一步就可以根據(jù)是否正態(tài)分布及是否符合方差齊性選擇參數(shù)檢驗(yàn)或者非參數(shù)檢驗(yàn)。

參考文章及書目
R語言統(tǒng)計(jì)分析與應(yīng)用-汪海波
白話統(tǒng)計(jì)-馮國雙
一張圖說明統(tǒng)計(jì)方法的選擇
R語言中方差齊性檢驗(yàn)丨數(shù)析學(xué)院
方差分析與R實(shí)現(xiàn)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容