020二月第三周
? ? ? ?在實(shí)際工作中,我們經(jīng)常需要通過(guò)抽樣評(píng)估,來(lái)近似得到總體的一些特征情況。那么今天來(lái)討論下我們究竟抽取多少的樣本量,計(jì)算出數(shù)據(jù)特征,才能夠有統(tǒng)計(jì)學(xué)意義來(lái)近似總體特征。
? ? ? ?此文的例子主要圍繞常見(jiàn)的兩種情況講解,一、樣本均值中樣本量n的估計(jì),例如用戶“帖子平均質(zhì)量”的評(píng)估? 二、樣本比率中的樣本量n的估計(jì) ,例如網(wǎng)站“帖子作弊率”的評(píng)估?。
一、樣本均值類問(wèn)題的樣本量估計(jì)
? ? ? 用戶“帖子平均質(zhì)量”的評(píng)估為例,我們?yōu)榱说玫浇谔淤|(zhì)量均指,不可能把所有的至少上萬(wàn)的數(shù)據(jù)(總體)都評(píng)估一遍,那么我們就需要從總體中抽一部分出來(lái)(樣本),根據(jù)樣本的帖子質(zhì)量均值情況來(lái)估計(jì)總體的質(zhì)量均值。那么抽取多少樣本量,算出來(lái)的質(zhì)量均值才能代表總體帖子質(zhì)量均值呢?
1公式直接應(yīng)用:
? ? ? ?此處先給出公式,可直接應(yīng)用,想了解原理,請(qǐng)看第二部分。
? ? ? ?公式
n:需估計(jì)的樣本量
z:為標(biāo)準(zhǔn)正態(tài)分布的上α分位點(diǎn),當(dāng)置信度為95%時(shí),z=1.96,置信度為90%時(shí),z=1.65,(一般互聯(lián)網(wǎng)的估計(jì)中,我們采用置信度90%即可)
:為總體方差,如果總體方差未知,可以通過(guò)之前研究的數(shù)據(jù)計(jì)算其估計(jì)值, 或者先選取一個(gè)初始樣本,以初始樣本的方差作為估計(jì)值。
E:為可接受的誤差,即可接受的樣本值與總體值的差,例如,你希望的樣本值大概率落在區(qū)間( ±1%)內(nèi),則可接受的誤差為1%。
舉例:帖子質(zhì)量得分為1-10分,我們希望抽取部分樣本,置信度為95%? z=1.96,總體方差估計(jì)值為2,E可接受誤差為0.1分,則我們需要抽取的樣本量
n=1.96*1.96*2*2/0.1*0.1=1536個(gè)
2原理解讀
問(wèn)題:抽多少樣本量n,樣本參數(shù)近似總體參數(shù)可信程度高
抽樣誤差:
當(dāng)我們抽10個(gè)帖子,質(zhì)量均值是7分,經(jīng)驗(yàn)告訴我們結(jié)果不太可信,量太少,誤差大
當(dāng)我們抽100個(gè)帖子,質(zhì)量均值還是7分,可能覺(jué)總體均值就是7分左右了,差的不多了
當(dāng)我們抽1000個(gè)帖子,質(zhì)量均值還是7分,我們認(rèn)為大概率就是7分了,誤差很小
為什么三次抽樣,結(jié)果都是7分,但隨著樣本量的增加,人們認(rèn)為結(jié)果的可信程度增加了呢,或者說(shuō)誤差就小了呢。這里的誤差,就是抽樣誤差(因樣本存在變異,由抽樣導(dǎo)致的樣本與總體的差異),抽樣誤差=總體值-樣本值, 總體值我們永遠(yuǎn)拿不到,所以我們需要找到其他方式,來(lái)表達(dá)抽樣誤差的大小,則可以解決結(jié)果是否可信,若抽樣誤差小,則可以認(rèn)為結(jié)果可信,樣本值是可以近似代表總體值的。
問(wèn)題:現(xiàn)在抽多少量的問(wèn)題,變成了判斷抽樣誤差大小
理論假設(shè)實(shí)驗(yàn):先設(shè)總體服從正態(tài)分布,通過(guò)重復(fù)的抽樣多次, 樣本均數(shù)的分布也服從一定的規(guī)律,樣本均數(shù)構(gòu)成的統(tǒng)計(jì)量服從
(記住就好了),樣本均數(shù)的均數(shù)和總體均數(shù)一樣
,樣本均數(shù)的方差是總體方差的n分之一
(抽出n個(gè)樣本,波動(dòng)肯定比總體小),樣本均數(shù)
的標(biāo)準(zhǔn)差為
,表示的是樣本均數(shù)抽樣誤差離散程度的大小,即樣本均數(shù)回推總體均數(shù) 時(shí)抽樣誤差的大小。? ? 總結(jié):總體的樣本均數(shù)的標(biāo)準(zhǔn)差,就是抽樣誤差E=
。?抽樣誤差的大小取決于兩個(gè)維度①總體標(biāo)準(zhǔn)差 ②樣本量的大小,樣本量越大,抽樣誤差越小。
根據(jù)中心極限定理: 設(shè)隨機(jī)變量X1……Xn相互獨(dú)立,服從統(tǒng)一分布,總體期望E(X)=,方差D(X)=
,則隨機(jī)變量之和
的標(biāo)準(zhǔn)化變量服從標(biāo)準(zhǔn)正態(tài)分布。 如下
~N(0,1)? ?即?
~N(0,1) ,
同除以n 有~N(0,1)? ? 【中心極限定理,當(dāng)n較大,樣本均數(shù)
~N(
,
) 】
根據(jù)標(biāo)準(zhǔn)正態(tài)分布的上分位點(diǎn)的定義 P(X>
)=
?,則有
?P(>
)=
? ,則有
>
? ? ? ,則有n=
?, 即得到樣本量估計(jì)的公式??
? (其中誤差E為樣本均值-總體均值)
二、樣本比率類型問(wèn)題的樣本量估計(jì)
? ? ? ?以網(wǎng)站“帖子作弊率”的評(píng)估為例,帖子作弊與否的總體(作弊,非作弊)實(shí)際上是服從0-1分布,我們?yōu)榱说玫浇谔幼鞅茁?,不可能把所有的至少上萬(wàn)的數(shù)據(jù)(總體)都評(píng)估一遍,那么我們就需要從總體中抽一部分出來(lái)(樣本),根據(jù)樣本的作弊率情況來(lái)估計(jì)總體的作弊率。那么抽取多少樣本量,算出來(lái)的作弊率才能代表總提交的作弊率呢?
1公式直接應(yīng)用:
? ? ? ?0-1分布的樣本量是根據(jù)以下公式計(jì)算估計(jì)的??n=
n:需估計(jì)的樣本量
z:為標(biāo)準(zhǔn)正態(tài)分布的上α分位點(diǎn),當(dāng)置信度為95%時(shí),z=1.96,置信度為90%時(shí),z=1.65,(一般互聯(lián)網(wǎng)的估計(jì)中,我們采用置信度90%即可)
p:為總體概率的計(jì)劃值,抽樣前P是未知的,可以用以前經(jīng)驗(yàn)作為計(jì)劃值,或者選取一個(gè)初始樣本,以初始樣本的概率作為計(jì)劃值,? 例如根據(jù)之前經(jīng)驗(yàn),總體的帖子提交作弊率為3%,則p=3%? ,q=1-p=97%。當(dāng)完全無(wú)法估計(jì)p時(shí),可以讓計(jì)劃值P取0.5,這時(shí)q也為0.5,p*q能取得最大值,同時(shí)n也能取得最大值。
E:為誤差,即樣本值與總體值的差,例如,你希望樣本值大概率落在區(qū)間(總體p±1%)內(nèi),則誤差為1%
? ? ? ?下圖中是一些舉例,例如當(dāng)作弊率為1%左右時(shí),至少要抽n=2.6w個(gè)case進(jìn)行評(píng)估,才能使得作弊率的置信度為90%,誤差在P*10%左右。這表示:做一次抽樣,抽取樣本量2.6w,得到樣本值P',從而得到一個(gè)置信區(qū)間(a,b),這個(gè)區(qū)間包含總體P的可信程度為90%。
又例如當(dāng)作弊率為3%,誤差一般我們可以容忍1%,則我們可以抽取樣本量n為1000左右即可,這樣通過(guò)該樣本算出的可信區(qū)間約在(2%,4%)左右,表明這個(gè)區(qū)間包含總體作弊率的概率為90%。
? ? ? ? 可以看出當(dāng)p越小,誤差E的大小同為10%*P,所需要的n越大,現(xiàn)實(shí)中也可以理解,當(dāng)一個(gè)事件發(fā)生的概率很小時(shí),我們需要抽很多才能抽到該事件,且經(jīng)驗(yàn)上抽越多我們才能認(rèn)為抽樣估計(jì)是準(zhǔn)確的。?

2原理解讀
參考一部分的原理
例:作弊率的總體X服從(0,1)分布,(0,1)分布的期望為p,方差為p(1-p)
根據(jù)中心極限定理知(當(dāng)n充分大時(shí),隨機(jī)變量X1...Xn的均值趨近于正態(tài)分布,隨機(jī)變量X1...Xn的和的標(biāo)準(zhǔn)化變量趨近于標(biāo)準(zhǔn)正態(tài)分布 )
?~N(0,1),即服從標(biāo)準(zhǔn)正態(tài)分布
即?~N(0,1),根據(jù)標(biāo)準(zhǔn)正太分布的上
分位點(diǎn)定義,
有p{?}=1-
? ? ? ?,
?,? ? ?
上式公式變換得? ??? ?,? 得到我們的公式 (q=1-p)。
(本文主要依賴于中心極限定理,可參考https://blog.csdn.net/xiuxin121/article/details/78756143)