久久AV午夜啪啪,特级日韩无码高清精品

020二月第三周

? ? ? ?在實(shí)際工作中，我們經(jīng)常需要通過(guò)抽樣評(píng)估，來(lái)近似得到總體的一些特征情況。那么今天來(lái)討論下我們究竟抽取多少的樣本量，計(jì)算出數(shù)據(jù)特征，才能夠有統(tǒng)計(jì)學(xué)意義來(lái)近似總體特征。

? ? ? ?此文的例子主要圍繞常見(jiàn)的兩種情況講解，一、樣本均值中樣本量n的估計(jì)，例如用戶“帖子平均質(zhì)量”的評(píng)估? 二、樣本比率中的樣本量n的估計(jì) ，例如網(wǎng)站“帖子作弊率”的評(píng)估?。

一、樣本均值類問(wèn)題的樣本量估計(jì)

? ? ? 用戶“帖子平均質(zhì)量”的評(píng)估為例，我們?yōu)榱说玫浇谔淤|(zhì)量均指，不可能把所有的至少上萬(wàn)的數(shù)據(jù)（總體）都評(píng)估一遍，那么我們就需要從總體中抽一部分出來(lái)（樣本），根據(jù)樣本的帖子質(zhì)量均值情況來(lái)估計(jì)總體的質(zhì)量均值。那么抽取多少樣本量，算出來(lái)的質(zhì)量均值才能代表總體帖子質(zhì)量均值呢？

1公式直接應(yīng)用：

? ? ? ?此處先給出公式，可直接應(yīng)用，想了解原理，請(qǐng)看第二部分。

? ? ? ?公式 $n=\frac{z^2*\delta ^2}{E^2 }$

n：需估計(jì)的樣本量

z：為標(biāo)準(zhǔn)正態(tài)分布的上α分位點(diǎn)，當(dāng)置信度為95%時(shí)，z=1.96，置信度為90%時(shí)，z=1.65，（一般互聯(lián)網(wǎng)的估計(jì)中，我們采用置信度90%即可）

$\delta ^2$ ：為總體方差，如果總體方差未知，可以通過(guò)之前研究的數(shù)據(jù)計(jì)算其估計(jì)值，或者先選取一個(gè)初始樣本，以初始樣本的方差作為估計(jì)值。

E：為可接受的誤差，即可接受的樣本值與總體值的差，例如，你希望的樣本值大概率落在區(qū)間（ $\mu$ ±1%）內(nèi)，則可接受的誤差為1%。

舉例：帖子質(zhì)量得分為1-10分，我們希望抽取部分樣本，置信度為95%? z=1.96，總體方差估計(jì)值為2，E可接受誤差為0.1分，則我們需要抽取的樣本量

n=1.96*1.96*2*2/0.1*0.1=1536個(gè)

2原理解讀

問(wèn)題：抽多少樣本量n，樣本參數(shù)近似總體參數(shù)可信程度高

抽樣誤差：

當(dāng)我們抽10個(gè)帖子，質(zhì)量均值是7分，經(jīng)驗(yàn)告訴我們結(jié)果不太可信，量太少，誤差大

當(dāng)我們抽100個(gè)帖子，質(zhì)量均值還是7分，可能覺(jué)總體均值就是7分左右了，差的不多了

當(dāng)我們抽1000個(gè)帖子，質(zhì)量均值還是7分，我們認(rèn)為大概率就是7分了，誤差很小

為什么三次抽樣，結(jié)果都是7分，但隨著樣本量的增加，人們認(rèn)為結(jié)果的可信程度增加了呢，或者說(shuō)誤差就小了呢。這里的誤差，就是抽樣誤差（因樣本存在變異，由抽樣導(dǎo)致的樣本與總體的差異），抽樣誤差=總體值-樣本值，總體值我們永遠(yuǎn)拿不到，所以我們需要找到其他方式，來(lái)表達(dá)抽樣誤差的大小，則可以解決結(jié)果是否可信，若抽樣誤差小，則可以認(rèn)為結(jié)果可信，樣本值是可以近似代表總體值的。

問(wèn)題：現(xiàn)在抽多少量的問(wèn)題，變成了判斷抽樣誤差大小

理論假設(shè)實(shí)驗(yàn)：先設(shè)總體服從正態(tài)分布，通過(guò)重復(fù)的抽樣多次，樣本均數(shù)的分布也服從一定的規(guī)律，樣本均數(shù)構(gòu)成的統(tǒng)計(jì)量 $\bar{X}$ 服從 $N（\mu ，\frac{\delta^2}{n} ）$ （記住就好了），樣本均數(shù)的均數(shù)和總體均數(shù)一樣 $E(\bar{X})=\mu$ ，樣本均數(shù)的方差是總體方差的n分之一 $D(\bar{X})=\frac{\delta ^2}{n}$ （抽出n個(gè)樣本，波動(dòng)肯定比總體小），樣本均數(shù) $\bar{X}$ 的標(biāo)準(zhǔn)差為 $\frac{\delta}{\sqrt{n} }$ ,表示的是樣本均數(shù)抽樣誤差離散程度的大小，即樣本均數(shù)回推總體均數(shù) 時(shí)抽樣誤差的大小。? ? 總結(jié)：總體的樣本均數(shù)的標(biāo)準(zhǔn)差，就是抽樣誤差E= $\frac{\delta}{\sqrt{n} }$ 。?抽樣誤差的大小取決于兩個(gè)維度①總體標(biāo)準(zhǔn)差 ②樣本量的大小，樣本量越大，抽樣誤差越小。

根據(jù)中心極限定理：設(shè)隨機(jī)變量X1……Xn相互獨(dú)立，服從統(tǒng)一分布，總體期望E(X)= $\mu$ ,方差D(X)= $\delta^2$ ,則隨機(jī)變量之和 $\sum_{i=1}^n X_{i}$ 的標(biāo)準(zhǔn)化變量服從標(biāo)準(zhǔn)正態(tài)分布。如下

$\frac{\sum_{i=1}^nX_{i} -E(\sum_{i=1}^nX_{i} )}{\sqrt{D(\sum_{i=1}^nX_{i} )} }$ ~N(0,1)? ?即? $\frac{ n\bar{X}-n\mu }{\delta\sqrt{n}}$ ~N(0,1) ，

同除以n 有 $\frac{\bar{X}-\mu} {\frac{\delta }{\sqrt{n} } }$ ~N(0,1)? ? 【中心極限定理，當(dāng)n較大，樣本均數(shù) $\bar{X}$ ~N( $\mu$ , ${\frac{\delta }{\sqrt{n} } }$ ) 】

根據(jù)標(biāo)準(zhǔn)正態(tài)分布的上 $\alpha$ 分位點(diǎn)的定義 P(X> $z_{\alpha }$ )= $\alpha$ ?，則有

?P( $\frac{\bar{X}-\mu} {\frac{\delta }{\sqrt{n} } }$ > $z_{\alpha }$ )= $\alpha$ ? ，則有 $\frac{\bar{X}-\mu} {\frac{\delta }{\sqrt{n} } }$ > $z_{\alpha }$ ? ? ? ，則有n= $\frac{z_{\alpha} ^2*\delta ^2 }{(\bar{X}- \mu)^2 }$ ?, 即得到樣本量估計(jì)的公式?? $n=\frac{z^2*\delta ^2}{E^2 }$ ? （其中誤差E為樣本均值-總體均值）

二、樣本比率類型問(wèn)題的樣本量估計(jì)

? ? ? ?以網(wǎng)站“帖子作弊率”的評(píng)估為例，帖子作弊與否的總體（作弊，非作弊）實(shí)際上是服從0-1分布，我們?yōu)榱说玫浇谔幼鞅茁?，不可能把所有的至少上萬(wàn)的數(shù)據(jù)（總體）都評(píng)估一遍，那么我們就需要從總體中抽一部分出來(lái)（樣本），根據(jù)樣本的作弊率情況來(lái)估計(jì)總體的作弊率。那么抽取多少樣本量，算出來(lái)的作弊率才能代表總提交的作弊率呢？

1公式直接應(yīng)用：

? ? ? ?0-1分布的樣本量是根據(jù)以下公式計(jì)算估計(jì)的??n= $\frac{z^2 *p*q} {E^2 }$

n：需估計(jì)的樣本量

p：為總體概率的計(jì)劃值，抽樣前P是未知的，可以用以前經(jīng)驗(yàn)作為計(jì)劃值，或者選取一個(gè)初始樣本，以初始樣本的概率作為計(jì)劃值，? 例如根據(jù)之前經(jīng)驗(yàn)，總體的帖子提交作弊率為3%，則p=3%? ，q=1-p=97%。當(dāng)完全無(wú)法估計(jì)p時(shí)，可以讓計(jì)劃值P取0.5，這時(shí)q也為0.5，p*q能取得最大值，同時(shí)n也能取得最大值。

E：為誤差，即樣本值與總體值的差，例如，你希望樣本值大概率落在區(qū)間（總體p±1%）內(nèi)，則誤差為1%

? ? ? ?下圖中是一些舉例，例如當(dāng)作弊率為1%左右時(shí)，至少要抽n=2.6w個(gè)case進(jìn)行評(píng)估，才能使得作弊率的置信度為90%，誤差在P*10%左右。這表示：做一次抽樣，抽取樣本量2.6w，得到樣本值P'，從而得到一個(gè)置信區(qū)間（a,b），這個(gè)區(qū)間包含總體P的可信程度為90%。

又例如當(dāng)作弊率為3%，誤差一般我們可以容忍1%，則我們可以抽取樣本量n為1000左右即可，這樣通過(guò)該樣本算出的可信區(qū)間約在（2%，4%）左右，表明這個(gè)區(qū)間包含總體作弊率的概率為90%。

? ? ? ? 可以看出當(dāng)p越小，誤差E的大小同為10%*P，所需要的n越大，現(xiàn)實(shí)中也可以理解，當(dāng)一個(gè)事件發(fā)生的概率很小時(shí)，我們需要抽很多才能抽到該事件，且經(jīng)驗(yàn)上抽越多我們才能認(rèn)為抽樣估計(jì)是準(zhǔn)確的。?