給女朋友寫的生統(tǒng)資料_Part11

中心極限定理

中心極限定理

假設我們有一個總體,我們從總體中取出一個大小為5的樣本。我們可以利用這個樣本均值、方差來估計總體的均值,方差。而如果我們不斷地從總體中取出 n=5 的樣本,然后每次都計算抽取樣本的均值,就可以形成一個樣本均值的抽樣分布。

中心極限定理告訴我們,如果總體是呈現(xiàn)正態(tài)分布,或者樣本的大小足夠大,那么樣本均值的抽樣分布就會呈現(xiàn)正態(tài)分布。

可以見下圖(圖來源于Y叔的統(tǒng)計學筆記,文末給出鏈接)

11_1.png

可以看到,如果樣本量足夠大,哪怕總體是來源于一個再瘋狂的分布,樣本均值的抽樣分布都會呈現(xiàn)一個正態(tài)分布,但如果樣本量不夠,則總體必須是正態(tài)分布,樣本均值的抽樣分布才是正態(tài)分布的。

多大算大呢,一般的thumb認為是30。當然,這也只是個經(jīng)驗。具體的大小還得依賴于你總體的分布。如果你總體的分布很像正態(tài)分布,自然樣本量小點也可以達到效果。

標準誤

對于單個樣本而言,比如說我們?nèi)×?株苗。我們就會用標準差(standard deviation, SD)來衡量樣本的離散程度。但對于我們上面提到的多個均值得到的分布(樣本均值的抽樣分布),我們也需要衡量分布的離散程度,這時候我們就會用標準誤(Stand error,SE 或者說 standard error of the means,SEM)來衡量。樣本均值抽樣分布的標準誤計算為:
\sigma_\bar{x}=SE=\frac{\sigma}{\sqrt{n}}
即用總體的標準差除以樣本量的平方根。但通常來說,我們是不知道總體的方差的,所以通常會用樣本的方差來估計,那么
s_{\bar{x}}=\frac{s}{\sqrt{n}}

置信區(qū)間(confidence interval)

通常來說,我們會用總體參數(shù)的點估計(比如參數(shù)的均值)來代表我們對總體參數(shù)的估計。但實際上,度量一個點估計的精讀更直觀的方法就是給出未知參數(shù)的一個區(qū)間。我們通常會設定一個 \alpha 值,把 1-\alpha 叫做置信水平。比如我們通常會設置 95% 的置信水平。置信水平的頻率解釋就是,我們利用我們構(gòu)建置信區(qū)間的方法,不斷地重復構(gòu)建置信區(qū)間,比如說構(gòu)建1000次。這樣我們就得到了1000個置信區(qū)間,每次得到的區(qū)間都是不一樣的。置信區(qū)間是否包含我們總體參數(shù)(即真值)的結(jié)果是一個二元的,即包含或者不包含。這樣最終差不多就會有950個置信區(qū)間包含了我們的真值,另外50個不包含真值。

可以看下面的圖,每根線都是我們構(gòu)建的置信區(qū)間。綠線代表包含了真值,紅線代表沒有包含真值。(圖片來自:Data Analysis for the Life Sciences)

11_2.png

均值的置信區(qū)間

先放一段我個人認為的均值置信區(qū)間構(gòu)建的原理,不保證正確??梢圆豢粗苯涌春竺嬷眯艆^(qū)間的公式(公式考試的時候好像還是要寫的):

我們設置95%為置信水平。我們從總體中得到的了一個樣本均值,這個樣本均值是樣本均值抽樣分布(假設是正態(tài)分布)的一個點。我們可以認為這個樣本均值點應該是在距離真值95%范圍內(nèi)的。雙側(cè)95%的那個閾值點就是1.96,所以樣本均值距離真值應該是1.96個標準誤之內(nèi)的
-1.96\le\frac{\mu-\bar{x}}{\sigma_{x}}\le1.96

-1.96{\sigma_{x}} \le \mu-\bar{x} \le 1.96{\sigma_{x}}

-1.96{\sigma_{x}}+\bar{x} \le \mu \le 1.96{\sigma_{x}}+\bar{x}

現(xiàn)在講公式:

樣本均值分布呈現(xiàn)正態(tài)分布的情況下,可以使用正態(tài)分布和t分布來估計置信區(qū)間,用哪種方法,取決于總體參數(shù) σ 是否已知。

知道總體標準差的情況下,我們使用正態(tài)分布
(\bar{x}-z_{\alpha/2}\frac{\sigma}{\sqrt{n}}) < \mu < (\bar{x}+z_{\alpha/2}\frac{\sigma}{\sqrt{n}})
Z_{\alpha/2}就是所謂的critical value,跟你設置的置信水平有關系,比如你是95%的置信水平,雙側(cè)的話,就是一邊在2.5%,一邊在97.5%。那么就是-1.96和1.96了。

用R算critical value就是應用我們之前講過的dpqr中的q了。

> qnorm(0.975)
[1] 1.959964
> qnorm(0.025)
[1] -1.959964

不知道總體標準差的情況下,我們使用 t 分布
(\bar{x}-t_{\alpha/2}\frac{s}{\sqrt{n}}) < \mu < (\bar{x}+t_{\alpha/2}\frac{s}{\sqrt{n}})

之所以t分布的使用要滿足樣本均值分布呈現(xiàn)正態(tài)分布,是因為t分布的建立要求之一就是正態(tài)分布。具體可以去看概率論與數(shù)理統(tǒng)計的書。如果不滿足這個條件,就不能使用t分布。

用 t 分布來計算置信區(qū)間的話,可以用R的t.test,會直接輸出置信區(qū)間。

> data <- rnorm(20)

# 改下置信區(qū)間為90%
> t.test(data,conf.level = 0.9)

    One Sample t-test

data:  data
t = -0.59555, df = 19, p-value = 0.5585
alternative hypothesis: true mean is not equal to 0
90 percent confidence interval:
 -0.5063434  0.2469069
sample estimates:
 mean of x 
-0.1297183 

有可能還會要你算邊際誤差(margin of error,E,也稱誤差幅度)

邊際誤差就是所謂的
E=z_{\alpha/2}\sigma_{\bar{x}}=z_{\alpha/2}\frac{\sigma}{\sqrt{n}}

其實就是用來構(gòu)建置信區(qū)間的。

當然,如果總體標準差不知道的話,就用樣本標準差代替,分布變成t分布。
E=t_{\alpha/2}\frac{s}{\sqrt{n}}

可以看到,如果想要降低E,即縮短置信區(qū)間,最穩(wěn)妥的方法就是增大n。即提高樣本容量。

比例的置信區(qū)間

這部分來自于Y叔的統(tǒng)計筆記。我感覺寫的很直觀,就直接放了。

比例的置信區(qū)間也差不多,公式在下面
(\hat{p} - E) < p < (\hat{p} + E)
其中 E 是邊際誤差,\hat{p} 是算出來的比例,而p是總體比例。E通過下面的式子
E = z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}
因為這種情況是符合二項分布的,而n有比較大,所以用正態(tài)分布來估計。

比如我們檢測了829個成年人,51%反對修鐵路。問總體上有大約多少是反對修鐵路的。

首先,我們先檢查這個二項分布是否符合正態(tài)分布的近似。發(fā)現(xiàn),n\hat{p}=422.79 > 5n\hat{q}=406.21 > 5。的確是可以用來近似的。

然后就計算 E:
E =1.96\sqrt{\frac{0.51*0.49}{829}}
就可以算出置信區(qū)間了。

方差和標準差的置信區(qū)間

我們?nèi)绻悄脴颖镜臉藴什顏砉烙嬁傮w的標準差的置信區(qū)間,就要用到卡方分布。

假設我們從正態(tài)分布的總體中每次抽出樣本量為n的樣本,計算樣本的方差s^2。那么每次計算得到的\frac{(n-1)s^2}{\sigma^2}就會符合卡方分布。
\chi^2 = \frac{(n-1)s^2}{\sigma^2}
因為卡方是不對稱分布,所以置信區(qū)間也是不對稱的,所以需要分別找出左側(cè)和右側(cè)的臨界值。

假設我們抽取的n是100,那么自由度(degree of freedom)是99,我們要計算95%的置信區(qū)間,需要分別計算左側(cè)0.025和右側(cè)0.025的臨界值:

> qchisq(0.975,99)
[1] 128.422
> qchisq(0.025,99)
[1] 73.36108

這兩個值被稱為卡方左右值,\chi_{L}^2\chi_{R}^2。那么標準差置信區(qū)間的計算就是
\sqrt{\frac{(n-1)s^2}{\chi_{R}^2}} < \sigma < \sqrt{\frac{(n-1)s^2}{\chi_{L}^2}}

參考資料

Y叔的統(tǒng)計筆記

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容