數(shù)據(jù)分析師基礎(chǔ)篇--樣本量估計(jì)(實(shí)例講解)

020二月第三周

? ? ? ?在實(shí)際工作中,我們經(jīng)常需要通過(guò)抽樣評(píng)估,來(lái)近似得到總體的一些特征情況。那么今天來(lái)討論下我們究竟抽取多少的樣本量,計(jì)算出數(shù)據(jù)特征,才能夠有統(tǒng)計(jì)學(xué)意義來(lái)近似總體特征。

? ? ? ?此文的例子主要圍繞常見(jiàn)的兩種情況講解,一、樣本均值中樣本量n的估計(jì),例如用戶“帖子平均質(zhì)量”的評(píng)估? 二、樣本比率中的樣本量n的估計(jì) ,例如網(wǎng)站“帖子作弊率”的評(píng)估?。

一、樣本均值類問(wèn)題的樣本量估計(jì)

? ? ? 用戶“帖子平均質(zhì)量”的評(píng)估為例,我們?yōu)榱说玫浇谔淤|(zhì)量均指,不可能把所有的至少上萬(wàn)的數(shù)據(jù)(總體)都評(píng)估一遍,那么我們就需要從總體中抽一部分出來(lái)(樣本),根據(jù)樣本的帖子質(zhì)量均值情況來(lái)估計(jì)總體的質(zhì)量均值。那么抽取多少樣本量,算出來(lái)的質(zhì)量均值才能代表總體帖子質(zhì)量均值呢?

1公式直接應(yīng)用:

? ? ? ?此處先給出公式,可直接應(yīng)用,想了解原理,請(qǐng)看第二部分。

? ? ? ?公式n=\frac{z^2*\delta ^2}{E^2 }

n:需估計(jì)的樣本量

z:為標(biāo)準(zhǔn)正態(tài)分布的上α分位點(diǎn),當(dāng)置信度為95%時(shí),z=1.96,置信度為90%時(shí),z=1.65,(一般互聯(lián)網(wǎng)的估計(jì)中,我們采用置信度90%即可)

 \delta ^2:為總體方差,如果總體方差未知,可以通過(guò)之前研究的數(shù)據(jù)計(jì)算其估計(jì)值, 或者先選取一個(gè)初始樣本,以初始樣本的方差作為估計(jì)值。

E:為可接受的誤差,即可接受的樣本值與總體值的差,例如,你希望的樣本值大概率落在區(qū)間( \mu ±1%)內(nèi),則可接受的誤差為1%。

舉例:帖子質(zhì)量得分為1-10分,我們希望抽取部分樣本,置信度為95%? z=1.96,總體方差估計(jì)值為2,E可接受誤差為0.1分,則我們需要抽取的樣本量

n=1.96*1.96*2*2/0.1*0.1=1536個(gè)

2原理解讀

問(wèn)題:抽多少樣本量n,樣本參數(shù)近似總體參數(shù)可信程度高

抽樣誤差:

當(dāng)我們抽10個(gè)帖子,質(zhì)量均值是7分,經(jīng)驗(yàn)告訴我們結(jié)果不太可信,量太少,誤差大

當(dāng)我們抽100個(gè)帖子,質(zhì)量均值還是7分,可能覺(jué)總體均值就是7分左右了,差的不多了

當(dāng)我們抽1000個(gè)帖子,質(zhì)量均值還是7分,我們認(rèn)為大概率就是7分了,誤差很小

為什么三次抽樣,結(jié)果都是7分,但隨著樣本量的增加,人們認(rèn)為結(jié)果的可信程度增加了呢,或者說(shuō)誤差就小了呢。這里的誤差,就是抽樣誤差(因樣本存在變異,由抽樣導(dǎo)致的樣本與總體的差異),抽樣誤差=總體值-樣本值, 總體值我們永遠(yuǎn)拿不到,所以我們需要找到其他方式,來(lái)表達(dá)抽樣誤差的大小,則可以解決結(jié)果是否可信,若抽樣誤差小,則可以認(rèn)為結(jié)果可信,樣本值是可以近似代表總體值的。

問(wèn)題:現(xiàn)在抽多少量的問(wèn)題,變成了判斷抽樣誤差大小

理論假設(shè)實(shí)驗(yàn):先設(shè)總體服從正態(tài)分布,通過(guò)重復(fù)的抽樣多次, 樣本均數(shù)的分布也服從一定的規(guī)律,樣本均數(shù)構(gòu)成的統(tǒng)計(jì)量服從(記住就好了),樣本均數(shù)的均數(shù)和總體均數(shù)一樣 E(\bar{X})=\mu ,樣本均數(shù)的方差是總體方差的n分之一D(\bar{X})=\frac{\delta ^2}{n} (抽出n個(gè)樣本,波動(dòng)肯定比總體小),樣本均數(shù)的標(biāo)準(zhǔn)差為\frac{\delta}{\sqrt{n} } ,表示的是樣本均數(shù)抽樣誤差離散程度的大小,即樣本均數(shù)回推總體均數(shù) 時(shí)抽樣誤差的大小。? ? 總結(jié):總體的樣本均數(shù)的標(biāo)準(zhǔn)差,就是抽樣誤差E=\frac{\delta}{\sqrt{n} } 。?抽樣誤差的大小取決于兩個(gè)維度①總體標(biāo)準(zhǔn)差 ②樣本量的大小,樣本量越大,抽樣誤差越小。

根據(jù)中心極限定理: 設(shè)隨機(jī)變量X1……Xn相互獨(dú)立,服從統(tǒng)一分布,總體期望E(X)=\mu ,方差D(X)=\delta^2,則隨機(jī)變量之和\sum_{i=1}^n X_{i}的標(biāo)準(zhǔn)化變量服從標(biāo)準(zhǔn)正態(tài)分布。 如下

\frac{\sum_{i=1}^nX_{i} -E(\sum_{i=1}^nX_{i}  )}{\sqrt{D(\sum_{i=1}^nX_{i}  )} } ~N(0,1)? ?即?\frac{ n\bar{X}-n\mu }{\delta\sqrt{n}} ~N(0,1) ,

同除以n 有\frac{\bar{X}-\mu} {\frac{\delta }{\sqrt{n} } } ~N(0,1)? ? 【中心極限定理,當(dāng)n較大,樣本均數(shù)\bar{X}~N( \mu ,{\frac{\delta }{\sqrt{n} } } ) 】

根據(jù)標(biāo)準(zhǔn)正態(tài)分布的上\alpha 分位點(diǎn)的定義 P(X>z_{\alpha } )=\alpha ?,則有

?P(\frac{\bar{X}-\mu} {\frac{\delta }{\sqrt{n} } } >)=\alpha ? ,則有\frac{\bar{X}-\mu} {\frac{\delta }{\sqrt{n} } } >? ? ? ,則有n=\frac{z_{\alpha} ^2*\delta ^2  }{(\bar{X}- \mu)^2 } ?, 即得到樣本量估計(jì)的公式??n=\frac{z^2*\delta ^2}{E^2 } ? (其中誤差E為樣本均值-總體均值)

二、樣本比率類型問(wèn)題的樣本量估計(jì)

? ? ? ?以網(wǎng)站“帖子作弊率”的評(píng)估為例,帖子作弊與否的總體(作弊,非作弊)實(shí)際上是服從0-1分布,我們?yōu)榱说玫浇谔幼鞅茁?,不可能把所有的至少上萬(wàn)的數(shù)據(jù)(總體)都評(píng)估一遍,那么我們就需要從總體中抽一部分出來(lái)(樣本),根據(jù)樣本的作弊率情況來(lái)估計(jì)總體的作弊率。那么抽取多少樣本量,算出來(lái)的作弊率才能代表總提交的作弊率呢?

1公式直接應(yīng)用:

? ? ? ?0-1分布的樣本量是根據(jù)以下公式計(jì)算估計(jì)的??n=\frac{z^2 *p*q} {E^2 }

n:需估計(jì)的樣本量

z:為標(biāo)準(zhǔn)正態(tài)分布的上α分位點(diǎn),當(dāng)置信度為95%時(shí),z=1.96,置信度為90%時(shí),z=1.65,(一般互聯(lián)網(wǎng)的估計(jì)中,我們采用置信度90%即可)

p:為總體概率的計(jì)劃值,抽樣前P是未知的,可以用以前經(jīng)驗(yàn)作為計(jì)劃值,或者選取一個(gè)初始樣本,以初始樣本的概率作為計(jì)劃值,? 例如根據(jù)之前經(jīng)驗(yàn),總體的帖子提交作弊率為3%,則p=3%? ,q=1-p=97%。當(dāng)完全無(wú)法估計(jì)p時(shí),可以讓計(jì)劃值P取0.5,這時(shí)q也為0.5,p*q能取得最大值,同時(shí)n也能取得最大值。

E:為誤差,即樣本值與總體值的差,例如,你希望樣本值大概率落在區(qū)間(總體p±1%)內(nèi),則誤差為1%

? ? ? ?下圖中是一些舉例,例如當(dāng)作弊率為1%左右時(shí),至少要抽n=2.6w個(gè)case進(jìn)行評(píng)估,才能使得作弊率的置信度為90%,誤差在P*10%左右。這表示:做一次抽樣,抽取樣本量2.6w,得到樣本值P',從而得到一個(gè)置信區(qū)間(a,b),這個(gè)區(qū)間包含總體P的可信程度為90%。

又例如當(dāng)作弊率為3%,誤差一般我們可以容忍1%,則我們可以抽取樣本量n為1000左右即可,這樣通過(guò)該樣本算出的可信區(qū)間約在(2%,4%)左右,表明這個(gè)區(qū)間包含總體作弊率的概率為90%。

? ? ? ? 可以看出當(dāng)p越小,誤差E的大小同為10%*P,所需要的n越大,現(xiàn)實(shí)中也可以理解,當(dāng)一個(gè)事件發(fā)生的概率很小時(shí),我們需要抽很多才能抽到該事件,且經(jīng)驗(yàn)上抽越多我們才能認(rèn)為抽樣估計(jì)是準(zhǔn)確的。?

2原理解讀

參考一部分的原理

例:作弊率的總體X服從(0,1)分布,(0,1)分布的期望為p,方差為p(1-p)

根據(jù)中心極限定理知(當(dāng)n充分大時(shí),隨機(jī)變量X1...Xn的均值\bar{X}趨近于正態(tài)分布,隨機(jī)變量X1...Xn的和的標(biāo)準(zhǔn)化變量趨近于標(biāo)準(zhǔn)正態(tài)分布

\frac{\sum_{i=1}^nX_{i}  -E(\sum_{i=1}^nX_{i})}{\sqrt{D(\sum_{i=1}^nX_{i})} } ?~N(0,1),即服從標(biāo)準(zhǔn)正態(tài)分布

\frac{n \bar{X}-np}{\sqrt{npq} } ?~N(0,1),根據(jù)標(biāo)準(zhǔn)正太分布的上\alpha 分位點(diǎn)定義,

有p{-z<\frac{n \bar{X }-np}{\sqrt{npq} } < z?}=1-\alpha ? ? ? ?,-z<\frac{n \bar{X }-np}{\sqrt{npq} } < z?,? ? ?

上式公式變換得? ??n=\frac{z^2 *p*q}{ \bar{E }} ? ?,? 得到我們的公式 (q=1-p)。

(本文主要依賴于中心極限定理,可參考https://blog.csdn.net/xiuxin121/article/details/78756143

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 《R語(yǔ)言與統(tǒng)計(jì)分析》的讀書筆記 本書的重點(diǎn)內(nèi)容及感悟: 第三章 概率與分布 1、隨機(jī)抽樣 通過(guò)sample()來(lái)實(shí)...
    格式化_001閱讀 7,006評(píng)論 1 12
  • 1. 簡(jiǎn)述相關(guān)分析和回歸分析的區(qū)別和聯(lián)系。 回歸分析和相關(guān)分析都是研究?jī)蓚€(gè)或兩個(gè)以上變量之間關(guān)系的方法。 廣義上說(shuō)...
    安也也閱讀 9,151評(píng)論 0 3
  • 數(shù)據(jù)分析方法分為四大類: 1、單純的數(shù)據(jù)加工方法 a.描述性統(tǒng)計(jì)分析(集中、離中趨勢(shì)分析和數(shù)據(jù)分布) b.相關(guān)性分...
    重生之魂閱讀 3,111評(píng)論 0 3
  • 我想給我一個(gè)黑夜, 全然不顧所有的愛(ài)與恨。 不再懷念過(guò)往, 也不再考慮未來(lái)。 我想把自己變的渺小, 只夠棲息在你的...
    夜有風(fēng)聲語(yǔ)閱讀 621評(píng)論 1 13
  • 最近,我一直在想這樣一個(gè)問(wèn)題,我的脾氣一直都很壞,我忽然間想到了一個(gè)問(wèn)題,是不是我的名字出了問(wèn)題,因?yàn)槲?..
    作家阿彪閱讀 297評(píng)論 0 0

友情鏈接更多精彩內(nèi)容