給女朋友寫的生統(tǒng)資料_Part12

我感覺到后面應(yīng)該會(huì)講的比較省略了,公式模板什么的套的比較多,因?yàn)橹饕怯脕碜隹荚噺?fù)習(xí)和速查的。大家如果有什么疑問,可以在下面提出來。在這一部分,我也會(huì)注重把解題的步驟寫出來(好像寫出來是有分的)。其實(shí)我們假設(shè)檢驗(yàn)的步驟就是,建立H0和H1,然后確定分布,然后確定我們的樣本值以及更極端值所占有的比率,如果比例太小,說明這個(gè)樣本值不常見,就可以拒絕H0,接受H1。

樣本均值比較

樣本均值的比較我們一般會(huì)涉及到 Z檢驗(yàn) 和 t檢驗(yàn)。Z檢驗(yàn)針對(duì)的是總體方差已知的情況,t檢驗(yàn)針對(duì)的總體方差未知的情況。一般來說,t檢驗(yàn)更為的常見。

使用t檢驗(yàn),前體條件必須是樣本均值的抽樣分布符合正態(tài)分布。如果總體是正態(tài)分布,那么小樣本的樣本均值抽樣分布也可以符合正態(tài)分布。如果總體不是正態(tài)分布,那么只有樣本量達(dá)到一定大小,才可以符合正態(tài)分布。但一般來說,我們的考試生物學(xué)數(shù)據(jù)是符合正態(tài)分布的,而且課上也不提檢驗(yàn)正態(tài)性,所以我這里不說檢驗(yàn)正態(tài)分布了。后面ANOVA就提到了檢驗(yàn)正態(tài)性。。。。。

當(dāng)然,某些生物學(xué)也是不符合正態(tài)性的,就要考慮用非參數(shù)檢驗(yàn)了。

Z檢驗(yàn)

Z檢驗(yàn)就是根據(jù)樣本值,得到樣本值的Z-score,然后計(jì)算概率。

單樣本均值比較,即與某個(gè)數(shù)字進(jìn)行比較的話,就是
z= \frac{\bar{x}-\mu}{\sigma/\sqrt{n}}
兩樣本的均值比較的話,就是
z=\frac{(\bar{X_1}-\bar{X_2})-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}
舉個(gè)例子:

假設(shè)我們已知總體身高符合正態(tài)分布,且標(biāo)準(zhǔn)差已知為5,那么我們的樣本數(shù)據(jù)為……(這里放上一堆數(shù)字,總共為20)。那么我們想要檢驗(yàn)總體均值是否8。

步驟為:

我們建立原假設(shè)和備則假設(shè),并設(shè)置顯著性\alpha=0.05
H_0:\mu=8\quad H_1:\mu \neq8
然后計(jì)算p-value

# 模擬數(shù)字
> data <- rnorm(20,mean = 8,sd = 5)
> data
 [1] 10.688820  7.462011  6.457040  6.146526 20.790506  9.610317  3.614535  5.224481
 [9] 16.044720  8.231625  5.929559 13.817802  8.168671  3.331038  7.902722  7.818987
[17] -4.585604  5.304461  3.261386 11.483466

# 計(jì)算樣本均值和標(biāo)準(zhǔn)差
> mean(data)
[1] 7.835154
> sd(data)
[1] 5.286252

# 計(jì)算z-score
> (mean(data)-8)*sqrt(20)/(sd(data))
[1] -0.1394591

# 計(jì)算p-value
# 因?yàn)閦-score < 0,所以計(jì)算p-value是
> 2*pnorm(-0.1394591)
[1] 0.8890874

由于p-value > 0.05,所以接受H0。即認(rèn)為總體均值是等于8的。

首先要注意單尾和雙尾的問題,如果H1是不等于,就是雙尾。H1是大于或者小于,就是單尾。單尾的話,p-value不用乘以2了。

z-score這里手算的話,要注意z-score的正負(fù),如果是負(fù)的話是2*pnorm(z-score)。如果是正的話,就是2*(1-pnorm(z-score))

t檢驗(yàn)

單樣本的t檢驗(yàn)
t=\frac{\bar{x}-\mu}{s/\sqrt{n}}
配對(duì)樣本的t檢驗(yàn)

配對(duì)樣本的t檢驗(yàn),本質(zhì)上就是配對(duì)樣本對(duì)應(yīng)值之差的單樣本檢驗(yàn)。所以也是一樣的公式

獨(dú)立兩樣本的t檢驗(yàn)——方差相等
t = \frac{(x_1-x_2)-(\mu_1-\mu_2)}{\sqrt{\frac{s_p^2}{n_1}+\frac{s_p^2}{n_2}}}

s_p^2=\frac{(n_1-1)s_1^2+(n_2-1)s_2^2}{n_1+n_2-2}

t分布的自由度為
df=n_1+n_2-2

獨(dú)立兩樣本的t檢驗(yàn)——方差不相等
t=\frac{(x_1-x_2)-(\mu_1-\mu_2)}{\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}}}
t分布的自由度為:
df = \frac{(s_1^2/n_1+s_2^2/n2)^2}{\frac{(s_1^2/n_1)^2}{n_1-1}+\frac{(s_2^2/n_2)^2}{n_2-1}}
t分布的步驟還是跟z差不多的,只要注意寫上H0和H1就行了。不過不同的是,需要記得去檢驗(yàn)方差齊性。方差齊性的R函數(shù)是var.test。方差齊性檢驗(yàn)完了,如果是齊性的,就在t.test 里面設(shè)置 var.equal=T。

舉個(gè)例子(這里我不寫H0,H1了)

# 生成數(shù)據(jù)
> t_data1 <- rnorm(20)
> t_data2 <- rnorm(20)

# 先確定是不是配對(duì)數(shù)據(jù),我們先假設(shè)是配對(duì)的
> t.test(t_data1,t_data2,paired = T)

    Paired t-test

data:  t_data1 and t_data2
t = 0.82025, df = 19, p-value = 0.4222
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.3972871  0.9093616
sample estimates:
mean of the differences 
              0.2560372 

# 也可以假設(shè)是不配對(duì)的
# 然后確定你的H1假設(shè)是單尾還是雙尾,然后調(diào)整
# 我們假設(shè)是雙尾,即兩者均值不等——雙尾其實(shí)是默認(rèn)值
t.test(t_data1,t_data2,alternative = "two.sided")


# 然后要做方差齊性檢驗(yàn)(這里也要寫H0和H1,即假設(shè)方差是否相等)
> var.test(t_data1,t_data2)

    F test to compare two variances

data:  t_data1 and t_data2
F = 1.6712, num df = 19, denom df = 19, p-value = 0.2719
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
 0.6614761 4.2221719
sample estimates:
ratio of variances 
          1.671187 
          
# 做完方差齊性之后,根據(jù)結(jié)果,設(shè)置var.equal參數(shù)
> t.test(t_data1,t_data2,var.equal = T)

    Two Sample t-test

data:  t_data1 and t_data2
t = 0.77421, df = 38, p-value = 0.4436
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.4134474  0.9255219
sample estimates:
  mean of x   mean of y 
 0.21364009 -0.04239716 

樣本方差比較

單樣本方差比較

對(duì)于單樣本的方差比較,我們用卡方分布??ǚ浇y(tǒng)計(jì)量為
\chi^2=\frac{(n-1)s^2}{\sigma^2}
例子就用PPT上這張圖

PPT這里的零假設(shè)是方差等于35

只不過這里p值的計(jì)算可以利用R來做,不用查表

# 還是雙端
> 2*pchisq(2.103,9)
[1] 0.02053599

關(guān)于不同情況下的雙端計(jì)算,可以看這張PPT。


12_2.png

兩樣本方差比較

對(duì)于兩樣本的方差比較,我們用F檢驗(yàn)。

F分布的定義為設(shè)隨機(jī)變量 X_1 \sim \chi^2(m)X_2 \sim \chi^2(n),X1與X2獨(dú)立。則稱 F=\frac{X1/m}{X2/n}的分布是自由度為m與n的F分布,記為 F\sim F(m,n)。這個(gè)定義恰好適用與我們的兩樣本比較。

檢驗(yàn)過程用PPT表示:

12_3.png
12_4.png

當(dāng)然,在R里面,你直接用var.test就可以了。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容