最新九九九九九九九热,久久伊伊在线,日韩最新特黄一级视频

中心極限定理

假設我們有一個總體，我們從總體中取出一個大小為5的樣本。我們可以利用這個樣本均值、方差來估計總體的均值，方差。而如果我們不斷地從總體中取出 n=5 的樣本，然后每次都計算抽取樣本的均值，就可以形成一個樣本均值的抽樣分布。

中心極限定理告訴我們，如果總體是呈現(xiàn)正態(tài)分布，或者樣本的大小足夠大，那么樣本均值的抽樣分布就會呈現(xiàn)正態(tài)分布。

可以見下圖（圖來源于Y叔的統(tǒng)計學筆記，文末給出鏈接）

11_1.png

可以看到，如果樣本量足夠大，哪怕總體是來源于一個再瘋狂的分布，樣本均值的抽樣分布都會呈現(xiàn)一個正態(tài)分布，但如果樣本量不夠，則總體必須是正態(tài)分布，樣本均值的抽樣分布才是正態(tài)分布的。

多大算大呢，一般的thumb認為是30。當然，這也只是個經(jīng)驗。具體的大小還得依賴于你總體的分布。如果你總體的分布很像正態(tài)分布，自然樣本量小點也可以達到效果。

標準誤

對于單個樣本而言，比如說我們?nèi)×?株苗。我們就會用標準差（standard deviation, SD）來衡量樣本的離散程度。但對于我們上面提到的多個均值得到的分布（樣本均值的抽樣分布），我們也需要衡量分布的離散程度，這時候我們就會用標準誤（Stand error，SE 或者說 standard error of the means，SEM）來衡量。樣本均值抽樣分布的標準誤計算為：
$\sigma_\bar{x}=SE=\frac{\sigma}{\sqrt{n}}$
即用總體的標準差除以樣本量的平方根。但通常來說，我們是不知道總體的方差的，所以通常會用樣本的方差來估計，那么
$s_{\bar{x}}=\frac{s}{\sqrt{n}}$

置信區(qū)間（confidence interval）

通常來說，我們會用總體參數(shù)的點估計（比如參數(shù)的均值）來代表我們對總體參數(shù)的估計。但實際上，度量一個點估計的精讀更直觀的方法就是給出未知參數(shù)的一個區(qū)間。我們通常會設定一個 $\alpha$ 值，把 $1-\alpha$ 叫做置信水平。比如我們通常會設置 95% 的置信水平。置信水平的頻率解釋就是，我們利用我們構(gòu)建置信區(qū)間的方法，不斷地重復構(gòu)建置信區(qū)間，比如說構(gòu)建1000次。這樣我們就得到了1000個置信區(qū)間，每次得到的區(qū)間都是不一樣的。置信區(qū)間是否包含我們總體參數(shù)（即真值）的結(jié)果是一個二元的，即包含或者不包含。這樣最終差不多就會有950個置信區(qū)間包含了我們的真值，另外50個不包含真值。

可以看下面的圖，每根線都是我們構(gòu)建的置信區(qū)間。綠線代表包含了真值，紅線代表沒有包含真值。（圖片來自：Data Analysis for the Life Sciences）

11_2.png

均值的置信區(qū)間

先放一段我個人認為的均值置信區(qū)間構(gòu)建的原理，不保證正確?？梢圆豢粗苯涌春竺嬷眯艆^(qū)間的公式（公式考試的時候好像還是要寫的）：

我們設置95%為置信水平。我們從總體中得到的了一個樣本均值，這個樣本均值是樣本均值抽樣分布（假設是正態(tài)分布）的一個點。我們可以認為這個樣本均值點應該是在距離真值95%范圍內(nèi)的。雙側(cè)95%的那個閾值點就是1.96，所以樣本均值距離真值應該是1.96個標準誤之內(nèi)的
$-1.96\le\frac{\mu-\bar{x}}{\sigma_{x}}\le1.96$

$-1.96{\sigma_{x}} \le \mu-\bar{x} \le 1.96{\sigma_{x}}$

$-1.96{\sigma_{x}}+\bar{x} \le \mu \le 1.96{\sigma_{x}}+\bar{x}$

現(xiàn)在講公式：

樣本均值分布呈現(xiàn)正態(tài)分布的情況下，可以使用正態(tài)分布和t分布來估計置信區(qū)間，用哪種方法，取決于總體參數(shù) σ 是否已知。

知道總體標準差的情況下，我們使用正態(tài)分布
$(\bar{x}-z_{\alpha/2}\frac{\sigma}{\sqrt{n}}) < \mu < (\bar{x}+z_{\alpha/2}\frac{\sigma}{\sqrt{n}})$
$Z_{\alpha/2}$ 就是所謂的critical value，跟你設置的置信水平有關系，比如你是95%的置信水平，雙側(cè)的話，就是一邊在2.5%，一邊在97.5%。那么就是-1.96和1.96了。

用R算critical value就是應用我們之前講過的dpqr中的q了。

> qnorm(0.975)
[1] 1.959964
> qnorm(0.025)
[1] -1.959964

不知道總體標準差的情況下，我們使用 t 分布
$(\bar{x}-t_{\alpha/2}\frac{s}{\sqrt{n}}) < \mu < (\bar{x}+t_{\alpha/2}\frac{s}{\sqrt{n}})$

之所以t分布的使用要滿足樣本均值分布呈現(xiàn)正態(tài)分布，是因為t分布的建立要求之一就是正態(tài)分布。具體可以去看概率論與數(shù)理統(tǒng)計的書。如果不滿足這個條件，就不能使用t分布。

用 t 分布來計算置信區(qū)間的話，可以用R的t.test，會直接輸出置信區(qū)間。

> data <- rnorm(20)

# 改下置信區(qū)間為90%
> t.test(data,conf.level = 0.9)

    One Sample t-test

data:  data
t = -0.59555, df = 19, p-value = 0.5585
alternative hypothesis: true mean is not equal to 0
90 percent confidence interval:
 -0.5063434  0.2469069
sample estimates:
 mean of x 
-0.1297183

有可能還會要你算邊際誤差（margin of error，E，也稱誤差幅度）

邊際誤差就是所謂的
$E=z_{\alpha/2}\sigma_{\bar{x}}=z_{\alpha/2}\frac{\sigma}{\sqrt{n}}$

其實就是用來構(gòu)建置信區(qū)間的。

當然，如果總體標準差不知道的話，就用樣本標準差代替，分布變成t分布。
$E=t_{\alpha/2}\frac{s}{\sqrt{n}}$

可以看到，如果想要降低E，即縮短置信區(qū)間，最穩(wěn)妥的方法就是增大n。即提高樣本容量。

比例的置信區(qū)間

這部分來自于Y叔的統(tǒng)計筆記。我感覺寫的很直觀，就直接放了。

比例的置信區(qū)間也差不多，公式在下面
$(\hat{p} - E) < p < (\hat{p} + E)$
其中 E 是邊際誤差， $\hat{p}$ 是算出來的比例，而p是總體比例。E通過下面的式子
$E = z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$
因為這種情況是符合二項分布的，而n有比較大，所以用正態(tài)分布來估計。

比如我們檢測了829個成年人，51%反對修鐵路。問總體上有大約多少是反對修鐵路的。

首先，我們先檢查這個二項分布是否符合正態(tài)分布的近似。發(fā)現(xiàn)， $n\hat{p}=422.79 > 5$ ， $n\hat{q}=406.21 > 5$ 。的確是可以用來近似的。

然后就計算 E：
$E =1.96\sqrt{\frac{0.51*0.49}{829}}$
就可以算出置信區(qū)間了。

方差和標準差的置信區(qū)間

我們?nèi)绻悄脴颖镜臉藴什顏砉烙嬁傮w的標準差的置信區(qū)間，就要用到卡方分布。

假設我們從正態(tài)分布的總體中每次抽出樣本量為n的樣本，計算樣本的方差 $s^2$ 。那么每次計算得到的 $\frac{(n-1)s^2}{\sigma^2}$ 就會符合卡方分布。
$\chi^2 = \frac{(n-1)s^2}{\sigma^2}$
因為卡方是不對稱分布，所以置信區(qū)間也是不對稱的，所以需要分別找出左側(cè)和右側(cè)的臨界值。

假設我們抽取的n是100，那么自由度（degree of freedom）是99，我們要計算95%的置信區(qū)間，需要分別計算左側(cè)0.025和右側(cè)0.025的臨界值：

> qchisq(0.975,99)
[1] 128.422
> qchisq(0.025,99)
[1] 73.36108

這兩個值被稱為卡方左右值， $\chi_{L}^2$ 和 $\chi_{R}^2$ 。那么標準差置信區(qū)間的計算就是
$\sqrt{\frac{(n-1)s^2}{\chi_{R}^2}} < \sigma < \sqrt{\frac{(n-1)s^2}{\chi_{L}^2}}$

參考資料

Y叔的統(tǒng)計筆記

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

給女朋友寫的生統(tǒng)資料_Part11

給女朋友寫的生統(tǒng)資料_Part11

中心極限定理

中心極限定理

標準誤

置信區(qū)間（confidence interval）

均值的置信區(qū)間

比例的置信區(qū)間

方差和標準差的置信區(qū)間

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

給女朋友寫的生統(tǒng)資料_Part11

中心極限定理

中心極限定理

標準誤

置信區(qū)間（confidence interval）

均值的置信區(qū)間

比例的置信區(qū)間

方差和標準差的置信區(qū)間

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av