中心極限定理
中心極限定理
假設我們有一個總體,我們從總體中取出一個大小為5的樣本。我們可以利用這個樣本均值、方差來估計總體的均值,方差。而如果我們不斷地從總體中取出 n=5 的樣本,然后每次都計算抽取樣本的均值,就可以形成一個樣本均值的抽樣分布。
中心極限定理告訴我們,如果總體是呈現(xiàn)正態(tài)分布,或者樣本的大小足夠大,那么樣本均值的抽樣分布就會呈現(xiàn)正態(tài)分布。
可以見下圖(圖來源于Y叔的統(tǒng)計學筆記,文末給出鏈接)

可以看到,如果樣本量足夠大,哪怕總體是來源于一個再瘋狂的分布,樣本均值的抽樣分布都會呈現(xiàn)一個正態(tài)分布,但如果樣本量不夠,則總體必須是正態(tài)分布,樣本均值的抽樣分布才是正態(tài)分布的。
多大算大呢,一般的thumb認為是30。當然,這也只是個經(jīng)驗。具體的大小還得依賴于你總體的分布。如果你總體的分布很像正態(tài)分布,自然樣本量小點也可以達到效果。
標準誤
對于單個樣本而言,比如說我們?nèi)×?株苗。我們就會用標準差(standard deviation, SD)來衡量樣本的離散程度。但對于我們上面提到的多個均值得到的分布(樣本均值的抽樣分布),我們也需要衡量分布的離散程度,這時候我們就會用標準誤(Stand error,SE 或者說 standard error of the means,SEM)來衡量。樣本均值抽樣分布的標準誤計算為:
即用總體的標準差除以樣本量的平方根。但通常來說,我們是不知道總體的方差的,所以通常會用樣本的方差來估計,那么
置信區(qū)間(confidence interval)
通常來說,我們會用總體參數(shù)的點估計(比如參數(shù)的均值)來代表我們對總體參數(shù)的估計。但實際上,度量一個點估計的精讀更直觀的方法就是給出未知參數(shù)的一個區(qū)間。我們通常會設定一個 值,把
叫做置信水平。比如我們通常會設置 95% 的置信水平。置信水平的頻率解釋就是,我們利用我們構(gòu)建置信區(qū)間的方法,不斷地重復構(gòu)建置信區(qū)間,比如說構(gòu)建1000次。這樣我們就得到了1000個置信區(qū)間,每次得到的區(qū)間都是不一樣的。置信區(qū)間是否包含我們總體參數(shù)(即真值)的結(jié)果是一個二元的,即包含或者不包含。這樣最終差不多就會有950個置信區(qū)間包含了我們的真值,另外50個不包含真值。
可以看下面的圖,每根線都是我們構(gòu)建的置信區(qū)間。綠線代表包含了真值,紅線代表沒有包含真值。(圖片來自:Data Analysis for the Life Sciences)

均值的置信區(qū)間
先放一段我個人認為的均值置信區(qū)間構(gòu)建的原理,不保證正確??梢圆豢粗苯涌春竺嬷眯艆^(qū)間的公式(公式考試的時候好像還是要寫的):
我們設置95%為置信水平。我們從總體中得到的了一個樣本均值,這個樣本均值是樣本均值抽樣分布(假設是正態(tài)分布)的一個點。我們可以認為這個樣本均值點應該是在距離真值95%范圍內(nèi)的。雙側(cè)95%的那個閾值點就是1.96,所以樣本均值距離真值應該是1.96個標準誤之內(nèi)的
現(xiàn)在講公式:
樣本均值分布呈現(xiàn)正態(tài)分布的情況下,可以使用正態(tài)分布和t分布來估計置信區(qū)間,用哪種方法,取決于總體參數(shù) σ 是否已知。
知道總體標準差的情況下,我們使用正態(tài)分布
就是所謂的critical value,跟你設置的置信水平有關系,比如你是95%的置信水平,雙側(cè)的話,就是一邊在2.5%,一邊在97.5%。那么就是-1.96和1.96了。
用R算critical value就是應用我們之前講過的dpqr中的q了。
> qnorm(0.975)
[1] 1.959964
> qnorm(0.025)
[1] -1.959964
不知道總體標準差的情況下,我們使用 t 分布
之所以t分布的使用要滿足樣本均值分布呈現(xiàn)正態(tài)分布,是因為t分布的建立要求之一就是正態(tài)分布。具體可以去看概率論與數(shù)理統(tǒng)計的書。如果不滿足這個條件,就不能使用t分布。
用 t 分布來計算置信區(qū)間的話,可以用R的t.test,會直接輸出置信區(qū)間。
> data <- rnorm(20)
# 改下置信區(qū)間為90%
> t.test(data,conf.level = 0.9)
One Sample t-test
data: data
t = -0.59555, df = 19, p-value = 0.5585
alternative hypothesis: true mean is not equal to 0
90 percent confidence interval:
-0.5063434 0.2469069
sample estimates:
mean of x
-0.1297183
有可能還會要你算邊際誤差(margin of error,E,也稱誤差幅度)
邊際誤差就是所謂的
其實就是用來構(gòu)建置信區(qū)間的。
當然,如果總體標準差不知道的話,就用樣本標準差代替,分布變成t分布。
可以看到,如果想要降低E,即縮短置信區(qū)間,最穩(wěn)妥的方法就是增大n。即提高樣本容量。
比例的置信區(qū)間
這部分來自于Y叔的統(tǒng)計筆記。我感覺寫的很直觀,就直接放了。
比例的置信區(qū)間也差不多,公式在下面
其中 E 是邊際誤差, 是算出來的比例,而p是總體比例。E通過下面的式子
因為這種情況是符合二項分布的,而n有比較大,所以用正態(tài)分布來估計。
比如我們檢測了829個成年人,51%反對修鐵路。問總體上有大約多少是反對修鐵路的。
首先,我們先檢查這個二項分布是否符合正態(tài)分布的近似。發(fā)現(xiàn),,
。的確是可以用來近似的。
然后就計算 E:
就可以算出置信區(qū)間了。
方差和標準差的置信區(qū)間
我們?nèi)绻悄脴颖镜臉藴什顏砉烙嬁傮w的標準差的置信區(qū)間,就要用到卡方分布。
假設我們從正態(tài)分布的總體中每次抽出樣本量為n的樣本,計算樣本的方差。那么每次計算得到的
就會符合卡方分布。
因為卡方是不對稱分布,所以置信區(qū)間也是不對稱的,所以需要分別找出左側(cè)和右側(cè)的臨界值。
假設我們抽取的n是100,那么自由度(degree of freedom)是99,我們要計算95%的置信區(qū)間,需要分別計算左側(cè)0.025和右側(cè)0.025的臨界值:
> qchisq(0.975,99)
[1] 128.422
> qchisq(0.025,99)
[1] 73.36108
這兩個值被稱為卡方左右值,和
。那么標準差置信區(qū)間的計算就是
參考資料