基礎(chǔ)統(tǒng)計學(xué)(8)置信區(qū)間

Inference and confidence interval for mean

平均數(shù)的推斷和置信區(qū)間

6.01 Statistical inference

統(tǒng)計推理

統(tǒng)計推理分兩個方面: Estimation(估計) 和 Hypothesis testing(假設(shè)檢測)

估算分點估計和區(qū)間估計

6.02 CI for mean with know population sd

當(dāng)知道總體標(biāo)準(zhǔn)差,如何計算平均數(shù)的置信區(qū)間

CI: confidence interval (置信區(qū)間)

置信區(qū)間: 當(dāng)給定一個概率標(biāo)準(zhǔn)(如95%),樣本平均數(shù)可能出現(xiàn)的范圍區(qū)間.

由于樣本平均數(shù)的分布是近似正態(tài)分布的,因此

ci_1.png
  • 95%置信區(qū)間的范圍是 U_{\overline x} +- 1.96\sigma_{\overline x} (z-table中查詢獲得)
  • +-1.96\sigma_{\overline x} 叫做margin of error (誤差幅度)

由于以上的特性,我們計算抽樣平均值在95%置信區(qū)間可能出現(xiàn)的范圍為: \overline X +- 1.96\sigma_{\overline x}

前提條件: 一個樣本的平均值 \overline x , 樣本中的數(shù)量是n, 總體標(biāo)準(zhǔn)差為\sigma, 求:平均值的95%置信區(qū)間?
\overline x +- 1.96 \frac{\sigma}{\sqrt n}
下圖是一個示例的計算過程

ci_2.png
6.03 CI for mean with unknown population sd

總體標(biāo)準(zhǔn)差未知的情況下計算置信區(qū)間

我們使用T-distribution(T分布)代替正態(tài)分布來估算總體的標(biāo)準(zhǔn)差

上一節(jié)中計算置信區(qū)間的公式是:
\overline x +- 1.96 \sigma_{\overline x}
等價于
\overline x +- Z_{95\%} \frac{\sigma}{\sqrt n}
這次我們不知道\sigma的值
\overline x +- Z_{95\%}(se)

se = \frac {s}{\sqrt n}

se叫做Standard Error(標(biāo)準(zhǔn)誤差): 它表示抽樣分布的估算標(biāo)準(zhǔn)差.

在這個計算中引入了額外的誤差,因此我們引入另外一個分布類型叫做T分布
\overline x +- t_{95\%}(se)
T分布和正態(tài)分布非常類似,鐘形、對稱、平均值為0

他們之間的關(guān)系如下圖:

ci_4.png

T分布的形狀依賴于df(自由度), df =n-1, n越大,T分布形狀越接近正態(tài)分布(圖中藍色的df較小,綠色的為較大),當(dāng)df無窮大時,T分布等同于正態(tài)分布

同正態(tài)分布類似,T分布也有一張t-table, 通過df, 概率2個參數(shù)來查詢T分數(shù)

查詢T分布的時候注意,當(dāng)df不在表中,則取比df小的最大值查詢

最后終結(jié),要計算置信區(qū)間的2個假設(shè)前提

  1. 數(shù)據(jù)要足夠隨機
  2. 總體接近正態(tài)分布

使用T分布要非常注意那些特殊數(shù)據(jù),了解了特殊數(shù)據(jù)之后再開始使用它

6.04 CI for proportion

比例的置信區(qū)間

5.06比例抽樣分布中我們了解到, 它的標(biāo)準(zhǔn)差為:
\sigma_p = \sqrt{\frac{\pi(1-\pi)}{n}}
其中\pi為總體的正比例(我們 需要估算的結(jié)果的比例), n為樣本數(shù)

由此可得出比例置信區(qū)間公式為:
CI_p = p+-Z_{95\%}\sqrt{\frac{\pi(1-\pi)}{n}}
但是我們往往不知道\pi是多少

和上一節(jié)一樣我們引入SE(standard error) = \sqrt{\frac{{p}(1-p)}{n}}

但是我們這里不引入T分布,同樣適用正態(tài)分布,適用z分數(shù)來計算
CI_p = p+-Z_{95\%}\sqrt{\frac{p(1-p)}{n}}
但是這里有個前提條件:當(dāng)正負樣本數(shù)>=15記為n_\pi>=15n_{1-\pi}>=15

6.05 Confidence levels

置信度

置信度就是指當(dāng)我們計算置信區(qū)間的時候,若抽樣次數(shù)無限,有多少比例的樣本的平均值(或二項式比例)落在置信區(qū)間范圍內(nèi)。

一般情況下我們通常會使用95%的置信度,當(dāng)然也可以99%,90%的置信度

這3個置信度對應(yīng)的z分數(shù)為

置信度 z分數(shù)
90% 1.645
95% 1.96
99% 2.58

當(dāng)我們要計算置信區(qū)間的時候,按照如下圖的步驟來進行

ci_5.png
  1. 選擇一個置信度

  2. 判斷是對象是計算比例還是平均值

    比例的話使用z分布

    平均值的話使用t分布

  3. 計算區(qū)間的2個端點

  4. 根據(jù)上面的結(jié)果推斷最終的結(jié)果

6.06 Choosing the sample size

選取合適的樣本大小

樣本大小(計算平均值)的因素:

  1. 誤差的大小

    誤差越小,樣本大小越大

  2. 置信度

    置信度越大,樣本大小越大

  3. 數(shù)據(jù)的離散度

    標(biāo)準(zhǔn)差越大,樣本大小越大

由此引出公式:
n = \frac {\sigma^2 z^2} {m^2}

\sigma為標(biāo)準(zhǔn)差,z為z分數(shù)(95%置信度為1.96,99%為2.58),m為誤差范圍的最大值

同樣計算比例的樣本大小計算公式如下:

n = \frac {p(1-p)z^2} {m^2}

p為正比例的值,z為z分數(shù)(95%置信度為1.96,99%為2.58),m為誤差范圍的最大值

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容