Inference and confidence interval for mean
平均數(shù)的推斷和置信區(qū)間
6.01 Statistical inference
統(tǒng)計推理
統(tǒng)計推理分兩個方面: Estimation(估計) 和 Hypothesis testing(假設(shè)檢測)
估算分點估計和區(qū)間估計
6.02 CI for mean with know population sd
當(dāng)知道總體標(biāo)準(zhǔn)差,如何計算平均數(shù)的置信區(qū)間
CI: confidence interval (置信區(qū)間)
置信區(qū)間: 當(dāng)給定一個概率標(biāo)準(zhǔn)(如95%),樣本平均數(shù)可能出現(xiàn)的范圍區(qū)間.
由于樣本平均數(shù)的分布是近似正態(tài)分布的,因此

- 95%置信區(qū)間的范圍是
+- 1.96
(z-table中查詢獲得)
- +-1.96
叫做margin of error (誤差幅度)
由于以上的特性,我們計算抽樣平均值在95%置信區(qū)間可能出現(xiàn)的范圍為: +- 1.96
前提條件: 一個樣本的平均值 , 樣本中的數(shù)量是n, 總體標(biāo)準(zhǔn)差為
, 求:平均值的95%置信區(qū)間?
下圖是一個示例的計算過程

6.03 CI for mean with unknown population sd
總體標(biāo)準(zhǔn)差未知的情況下計算置信區(qū)間
我們使用T-distribution(T分布)代替正態(tài)分布來估算總體的標(biāo)準(zhǔn)差
上一節(jié)中計算置信區(qū)間的公式是:
等價于
這次我們不知道的值
se叫做Standard Error(標(biāo)準(zhǔn)誤差): 它表示抽樣分布的估算標(biāo)準(zhǔn)差.
在這個計算中引入了額外的誤差,因此我們引入另外一個分布類型叫做T分布
T分布和正態(tài)分布非常類似,鐘形、對稱、平均值為0
他們之間的關(guān)系如下圖:

T分布的形狀依賴于df(自由度), df =n-1, n越大,T分布形狀越接近正態(tài)分布(圖中藍色的df較小,綠色的為較大),當(dāng)df無窮大時,T分布等同于正態(tài)分布
同正態(tài)分布類似,T分布也有一張t-table, 通過df, 概率2個參數(shù)來查詢T分數(shù)
查詢T分布的時候注意,當(dāng)df不在表中,則取比df小的最大值查詢
最后終結(jié),要計算置信區(qū)間的2個假設(shè)前提
- 數(shù)據(jù)要足夠隨機
- 總體接近正態(tài)分布
使用T分布要非常注意那些特殊數(shù)據(jù),了解了特殊數(shù)據(jù)之后再開始使用它
6.04 CI for proportion
比例的置信區(qū)間
5.06比例抽樣分布中我們了解到, 它的標(biāo)準(zhǔn)差為:
其中為總體的正比例(我們 需要估算的結(jié)果的比例), n為樣本數(shù)
由此可得出比例置信區(qū)間公式為:
但是我們往往不知道是多少
和上一節(jié)一樣我們引入SE(standard error) =
但是我們這里不引入T分布,同樣適用正態(tài)分布,適用z分數(shù)來計算
但是這里有個前提條件:當(dāng)正負樣本數(shù)>=15記為 且
6.05 Confidence levels
置信度
置信度就是指當(dāng)我們計算置信區(qū)間的時候,若抽樣次數(shù)無限,有多少比例的樣本的平均值(或二項式比例)落在置信區(qū)間范圍內(nèi)。
一般情況下我們通常會使用95%的置信度,當(dāng)然也可以99%,90%的置信度
這3個置信度對應(yīng)的z分數(shù)為
| 置信度 | z分數(shù) |
|---|---|
| 90% | 1.645 |
| 95% | 1.96 |
| 99% | 2.58 |
當(dāng)我們要計算置信區(qū)間的時候,按照如下圖的步驟來進行

選擇一個置信度
-
判斷是對象是計算比例還是平均值
比例的話使用z分布
平均值的話使用t分布
計算區(qū)間的2個端點
根據(jù)上面的結(jié)果推斷最終的結(jié)果
6.06 Choosing the sample size
選取合適的樣本大小
樣本大小(計算平均值)的因素:
-
誤差的大小
誤差越小,樣本大小越大
-
置信度
置信度越大,樣本大小越大
-
數(shù)據(jù)的離散度
標(biāo)準(zhǔn)差越大,樣本大小越大
由此引出公式:
為標(biāo)準(zhǔn)差,z為z分數(shù)(95%置信度為1.96,99%為2.58),m為誤差范圍的最大值
同樣計算比例的樣本大小計算公式如下:
p為正比例的值,z為z分數(shù)(95%置信度為1.96,99%為2.58),m為誤差范圍的最大值