1 估計(jì)的置信度
在大多數(shù)的研究中,我們無(wú)法獲取研究對(duì)象的總體數(shù)據(jù),或者能獲取但是成本非常大。實(shí)際情況中,我們往往是通過(guò)抽樣的方法,在總體中進(jìn)行隨機(jī)抽樣。根據(jù)獲取的這部分樣本數(shù)據(jù)去推動(dòng)總體的一些屬性。比如通過(guò)抽樣人群的平均身高去估計(jì)所有人群的平均身高,通過(guò)抽樣人群中的男女比例,去估計(jì)我國(guó)當(dāng)前的男女比例狀況。
抽樣樣本量是直接影響到最終的估計(jì)準(zhǔn)確度,所以這一章節(jié),先來(lái)介紹下如何判斷一種估計(jì)方法準(zhǔn)確與否。
統(tǒng)計(jì)估計(jì)
統(tǒng)計(jì)中估計(jì)的方法有兩類:點(diǎn)估計(jì),區(qū)間估計(jì)。 比如問男性平均身高是多少,167cm就是一個(gè)點(diǎn)估計(jì),160-170就是區(qū)間估計(jì)。
置信區(qū)間
根據(jù)前面介紹的常用的三種估計(jì)類型,其置信區(qū)間的計(jì)算方式也有所不同。
1. 比例的置信區(qū)間
例:假設(shè)拋擲一枚不均勻的硬幣,其正面朝上的真實(shí)概率P位置,每次實(shí)驗(yàn)結(jié)果只有X=1表示正面,X=0表示反面兩種結(jié)果。現(xiàn)在實(shí)驗(yàn)了n次,其中正面向上個(gè)數(shù)是k次,想估計(jì)下這個(gè)硬幣正面朝上的概率是多少。
如果用點(diǎn)估計(jì),自然的會(huì)用頻率去估計(jì)真實(shí)的頻率。而區(qū)間估計(jì)的主要步驟如下:
所以有
經(jīng)典的Wald區(qū)間
Wald估計(jì)是用樣本比例替代整體比例,比例估計(jì)的置信區(qū)間是
以上的置信區(qū)間是有個(gè)前提的:樣本量比較大的時(shí)候,np>5且n(1-p)>5,二項(xiàng)分布才會(huì)近似是正態(tài)分布。
在樣本量比較小,或者是真實(shí)的p值接近0或者1的時(shí)候,估計(jì)的就不是很準(zhǔn)確了。
小樣本的比例估計(jì)
在實(shí)際的問題中,這種情況也是經(jīng)常存在的。以搜索為例,一個(gè)具體的搜索策略上線前,通常都會(huì)對(duì)實(shí)驗(yàn)組和對(duì)照組進(jìn)行一些人工評(píng)估。因?yàn)槿肆Τ杀締栴},一般是評(píng)估100或200qu。可能里面的good或者bad的case占比非常少,那么在估計(jì)good或badcase的比例的時(shí)候置信度就不是很高。
下面介紹幾種常用的修正的區(qū)間估計(jì)
(0) 精確區(qū)間
所謂精確區(qū)間,其實(shí)就是不對(duì)齊分布進(jìn)行近似,而是直接使用原始的真實(shí)分布。我們知道正面朝上的個(gè)數(shù)k其真實(shí)分布是二項(xiàng)分布。這個(gè)一開始是Clopper和Pearson在1934年研究出來(lái)的,所以也叫做C-P 置信區(qū)間

最終可以反解出來(lái)這個(gè)置信下限和置信上限,這里就不在列出具體公式了。
(1)Wilson區(qū)間/Wald矯正區(qū)間
注意Wilson和wald兩種方法上的區(qū)別,wald在設(shè)置置信區(qū)間的時(shí)候是簡(jiǎn)化了問題,用樣本比例近似了真實(shí)的比例。wilson認(rèn)為
簡(jiǎn)單的推理過(guò)程如下

最終推導(dǎo)出來(lái)的置信區(qū)間是

(2)wald矯正區(qū)間
上述的置信區(qū)間有一個(gè)簡(jiǎn)單的計(jì)算方式-加2法,即在數(shù)據(jù)中增加2個(gè)成功案例和2個(gè)失敗案例,然后再用傳統(tǒng)的wald區(qū)間估計(jì)方法
這是因?yàn)?/p>

2.等級(jí)量表和連續(xù)性數(shù)據(jù)的置信區(qū)間
我們做置信區(qū)間或者參數(shù)估計(jì),最終目的是希望通過(guò)樣本的數(shù)據(jù)去獲得總體的信息。常見的就是對(duì)總體集中趨勢(shì)的估計(jì),而這種”集中趨勢(shì)“根據(jù)數(shù)據(jù)本身的分布情況,可能會(huì)采取均值、中位數(shù)、眾數(shù)做為其估計(jì)
(1)基于均值的
基于均值的估計(jì),一般是在假設(shè)其分布比較對(duì)稱的時(shí)候,均值是很好的對(duì)”集中趨勢(shì)“的度量。根據(jù)樣本量的大小,均值的置信區(qū)間可以用t分布或者z分布。
(2)基于中位數(shù)的
很多時(shí)候,數(shù)據(jù)本身的分布是不對(duì)稱的,比如用戶的網(wǎng)頁(yè)結(jié)果的停留時(shí)長(zhǎng)、用戶點(diǎn)擊的位置分布等。這個(gè)時(shí)候均值就不是一個(gè)很好的對(duì)總體集中趨勢(shì)的估計(jì)了。實(shí)際中用的較多的是中位數(shù)。
但是中位數(shù)本身也存在一些問題。
- 變異性。中位數(shù)可以抵擋異常值對(duì)整體分布的影響,但是當(dāng)從一個(gè)連續(xù)分布中抽樣樣本時(shí)候,中位數(shù)要比均值的變異性更大。均值可能相對(duì)比較穩(wěn)定的,但是中位數(shù)可能跳動(dòng)會(huì)很大。
- 偏倚性。平均值的一個(gè)好的性質(zhì)就是估計(jì)的無(wú)偏性,
(3) 基于幾何均值的
可以參考Sauro and Lewis2010年的一篇論文。
這里簡(jiǎn)單說(shuō)下論文的主要結(jié)論吧:
- 樣本中位數(shù)是總體中位數(shù)的有偏估計(jì)
- 作者主要比較了,均值,中位數(shù),幾何均值,調(diào)和平均值,截?cái)嗑?去掉最高和最低的topN)。 通過(guò)蒙特卡洛模擬的方法,對(duì)于n>25時(shí)候,樣本中位數(shù)是個(gè)比較好的估計(jì),對(duì)于n<25的時(shí)候,幾何均值是一個(gè)比較好的估計(jì)
- 中位數(shù)的置信區(qū)間
特定類型的數(shù)據(jù)(比如任務(wù)時(shí)長(zhǎng),用戶在搜索結(jié)果的停留時(shí)間),要找到中位數(shù)的置信區(qū)間,中位數(shù)即p=0.5的那個(gè)分界點(diǎn)。其實(shí)相當(dāng)于要找到p的置信區(qū)間。
得到置信區(qū)間[p1, p2]之后,去找到數(shù)據(jù)中位于[p1,p2]分界點(diǎn)的數(shù)據(jù)點(diǎn)即為中位數(shù)的置信區(qū)間了。
參考資料
維基百科 https://en.wikipedia.org/wiki/Binomial_proportion_confidence_interval#Wilson_score_interval
https://indico.ihep.ac.cn/event/6182/contribution/4/material/slides/0.pdf