估計(jì)的置信度

1 估計(jì)的置信度

在大多數(shù)的研究中,我們無(wú)法獲取研究對(duì)象的總體數(shù)據(jù),或者能獲取但是成本非常大。實(shí)際情況中,我們往往是通過(guò)抽樣的方法,在總體中進(jìn)行隨機(jī)抽樣。根據(jù)獲取的這部分樣本數(shù)據(jù)去推動(dòng)總體的一些屬性。比如通過(guò)抽樣人群的平均身高去估計(jì)所有人群的平均身高,通過(guò)抽樣人群中的男女比例,去估計(jì)我國(guó)當(dāng)前的男女比例狀況。
抽樣樣本量是直接影響到最終的估計(jì)準(zhǔn)確度,所以這一章節(jié),先來(lái)介紹下如何判斷一種估計(jì)方法準(zhǔn)確與否。

統(tǒng)計(jì)估計(jì)

統(tǒng)計(jì)中估計(jì)的方法有兩類:點(diǎn)估計(jì),區(qū)間估計(jì)。 比如問男性平均身高是多少,167cm就是一個(gè)點(diǎn)估計(jì),160-170就是區(qū)間估計(jì)。

置信區(qū)間

根據(jù)前面介紹的常用的三種估計(jì)類型,其置信區(qū)間的計(jì)算方式也有所不同。

1. 比例的置信區(qū)間

例:假設(shè)拋擲一枚不均勻的硬幣,其正面朝上的真實(shí)概率P位置,每次實(shí)驗(yàn)結(jié)果只有X=1表示正面,X=0表示反面兩種結(jié)果。現(xiàn)在實(shí)驗(yàn)了n次,其中正面向上個(gè)數(shù)是k次,想估計(jì)下這個(gè)硬幣正面朝上的概率是多少。

如果用點(diǎn)估計(jì),自然的會(huì)用頻率\hat p=\frac{k}{n}去估計(jì)真實(shí)的頻率。而區(qū)間估計(jì)的主要步驟如下:

E(\hat p)=p, V(\hat p)=p(1-p)/n
所以有\hat p - N(p, p(1-p)/n)
\frac{\hat p -p}{\sqrt\frac{p(1-p)}{n}} - N(0,1)

經(jīng)典的Wald區(qū)間

Wald估計(jì)是用樣本比例替代整體比例,比例估計(jì)的置信區(qū)間是 \hat p \pm z_{1-\alpha/2} \sqrt\frac{\hat p(1-\hat p)}{n}

以上的置信區(qū)間是有個(gè)前提的:樣本量比較大的時(shí)候,np>5且n(1-p)>5,二項(xiàng)分布才會(huì)近似是正態(tài)分布。

在樣本量比較小,或者是真實(shí)的p值接近0或者1的時(shí)候,估計(jì)的就不是很準(zhǔn)確了。

小樣本的比例估計(jì)

在實(shí)際的問題中,這種情況也是經(jīng)常存在的。以搜索為例,一個(gè)具體的搜索策略上線前,通常都會(huì)對(duì)實(shí)驗(yàn)組和對(duì)照組進(jìn)行一些人工評(píng)估。因?yàn)槿肆Τ杀締栴},一般是評(píng)估100或200qu。可能里面的good或者bad的case占比非常少,那么在估計(jì)good或badcase的比例的時(shí)候置信度就不是很高。

下面介紹幾種常用的修正的區(qū)間估計(jì)

(0) 精確區(qū)間
所謂精確區(qū)間,其實(shí)就是不對(duì)齊分布進(jìn)行近似,而是直接使用原始的真實(shí)分布。我們知道正面朝上的個(gè)數(shù)k其真實(shí)分布是二項(xiàng)分布。這個(gè)一開始是Clopper和Pearson在1934年研究出來(lái)的,所以也叫做C-P 置信區(qū)間

P(x=s) =C_n^s p^s(1-p)^{n-s}

image.png

最終可以反解出來(lái)這個(gè)置信下限和置信上限,這里就不在列出具體公式了。

(1)Wilson區(qū)間/Wald矯正區(qū)間

注意Wilson和wald兩種方法上的區(qū)別,wald在設(shè)置置信區(qū)間的時(shí)候是簡(jiǎn)化了問題,用樣本比例近似了真實(shí)的比例。wilson認(rèn)為\frac{\hat p -p}{\sqrt\frac{p(1-p)}{n}} - N(0,1)

簡(jiǎn)單的推理過(guò)程如下


image.png

最終推導(dǎo)出來(lái)的置信區(qū)間是


image.png

(2)wald矯正區(qū)間

上述的置信區(qū)間有一個(gè)簡(jiǎn)單的計(jì)算方式-加2法,即在數(shù)據(jù)中增加2個(gè)成功案例和2個(gè)失敗案例,然后再用傳統(tǒng)的wald區(qū)間估計(jì)方法

這是因?yàn)?/p>

image.png

2.等級(jí)量表和連續(xù)性數(shù)據(jù)的置信區(qū)間

我們做置信區(qū)間或者參數(shù)估計(jì),最終目的是希望通過(guò)樣本的數(shù)據(jù)去獲得總體的信息。常見的就是對(duì)總體集中趨勢(shì)的估計(jì),而這種”集中趨勢(shì)“根據(jù)數(shù)據(jù)本身的分布情況,可能會(huì)采取均值、中位數(shù)、眾數(shù)做為其估計(jì)

(1)基于均值的

基于均值的估計(jì),一般是在假設(shè)其分布比較對(duì)稱的時(shí)候,均值是很好的對(duì)”集中趨勢(shì)“的度量。根據(jù)樣本量的大小,均值的置信區(qū)間可以用t分布或者z分布。

(2)基于中位數(shù)的

很多時(shí)候,數(shù)據(jù)本身的分布是不對(duì)稱的,比如用戶的網(wǎng)頁(yè)結(jié)果的停留時(shí)長(zhǎng)、用戶點(diǎn)擊的位置分布等。這個(gè)時(shí)候均值就不是一個(gè)很好的對(duì)總體集中趨勢(shì)的估計(jì)了。實(shí)際中用的較多的是中位數(shù)。

但是中位數(shù)本身也存在一些問題。

  • 變異性。中位數(shù)可以抵擋異常值對(duì)整體分布的影響,但是當(dāng)從一個(gè)連續(xù)分布中抽樣樣本時(shí)候,中位數(shù)要比均值的變異性更大。均值可能相對(duì)比較穩(wěn)定的,但是中位數(shù)可能跳動(dòng)會(huì)很大。
  • 偏倚性。平均值的一個(gè)好的性質(zhì)就是估計(jì)的無(wú)偏性,

(3) 基于幾何均值的

可以參考Sauro and Lewis2010年的一篇論文。

這里簡(jiǎn)單說(shuō)下論文的主要結(jié)論吧:

  • 樣本中位數(shù)是總體中位數(shù)的有偏估計(jì)
  • 作者主要比較了,均值,中位數(shù),幾何均值,調(diào)和平均值,截?cái)嗑?去掉最高和最低的topN)。 通過(guò)蒙特卡洛模擬的方法,對(duì)于n>25時(shí)候,樣本中位數(shù)是個(gè)比較好的估計(jì),對(duì)于n<25的時(shí)候,幾何均值是一個(gè)比較好的估計(jì)
  • 中位數(shù)的置信區(qū)間

特定類型的數(shù)據(jù)(比如任務(wù)時(shí)長(zhǎng),用戶在搜索結(jié)果的停留時(shí)間),要找到中位數(shù)的置信區(qū)間,中位數(shù)即p=0.5的那個(gè)分界點(diǎn)。其實(shí)相當(dāng)于要找到p的置信區(qū)間。
\hat p \pm z_{1-\alpha/2} \sqrt\frac{\hat p(1-\hat p)}{n}

得到置信區(qū)間[p1, p2]之后,去找到數(shù)據(jù)中位于[p1,p2]分界點(diǎn)的數(shù)據(jù)點(diǎn)即為中位數(shù)的置信區(qū)間了。

參考資料

維基百科 https://en.wikipedia.org/wiki/Binomial_proportion_confidence_interval#Wilson_score_interval

https://indico.ihep.ac.cn/event/6182/contribution/4/material/slides/0.pdf

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容