隨機(jī)抽樣
我們之所以對(duì)于抽樣感興趣,不是為了尋求各種各樣奇異的考試題,而是在真實(shí)的環(huán)境中,我們需要通過抽樣得到的統(tǒng)計(jì)數(shù)據(jù)來對(duì)總體的某些方面的特征做一個(gè)估計(jì)或者推理。例如,采用樣本均值對(duì)總體的均值進(jìn)行一個(gè)估計(jì),采用樣本方差對(duì)總體的方差進(jìn)行一個(gè)估計(jì),或采用樣本中具有某個(gè)特征的元素的比例對(duì)總體中具有這個(gè)特征的元素的比例做一個(gè)估計(jì)。我們知道這種估計(jì)或推理不可能是完全準(zhǔn)確的,如何評(píng)估這個(gè)估計(jì)的準(zhǔn)確性正是抽樣分布研究的內(nèi)容之一。
上文這種點(diǎn)對(duì)點(diǎn)的估計(jì)方式稱為點(diǎn)估計(jì) Point estimation,被選定的樣本統(tǒng)計(jì)特征稱為點(diǎn)估計(jì)量 Point estimator,相應(yīng)的樣本統(tǒng)計(jì)值稱為總體特征的點(diǎn)估計(jì)值 Point estimate。為了便于定量的統(tǒng)計(jì)研究,我們將總體的特征以數(shù)值形式表示并將其稱為參數(shù)。
包含有限個(gè)元素的總體的抽樣方法
當(dāng)我們從一個(gè)數(shù)量為 N 的包含有限個(gè)元素的總體中進(jìn)行抽樣的時(shí)候,最簡(jiǎn)單的抽樣方法就是隨機(jī)逐個(gè)抽取或一次性抽取其中的 n 個(gè)元素構(gòu)成一個(gè)樣本集,抽取時(shí)需要滿足總體中任意包含 n 個(gè)元素的樣本集都有相同的概率被抽到,這種抽樣方法稱為簡(jiǎn)單隨機(jī)抽樣。簡(jiǎn)單隨機(jī)抽樣中,如果被抽出的元素可以被放回,即每一個(gè)元素被抽到的概率都是 1/N,這種抽樣方式稱為有放回抽樣 Sampling with replacement,反之對(duì)于抽出的樣本不再放回的抽樣方式稱為無放回抽樣 Sampling without replacement,這里我們默認(rèn)采用的是無放回的方式。
包含無限個(gè)元素的總體的抽樣方法
很多情況下被研究的總體是一個(gè)非常大的數(shù)值,或者可能是一個(gè)持續(xù)增加的過程,那么此時(shí)可以認(rèn)為這個(gè)總體包含無限多個(gè)元素。對(duì)于此類總體的隨機(jī)抽樣需要滿足:
每一個(gè)被抽樣的元素來自于同一個(gè)總體
每一個(gè)被抽樣的元素都是獨(dú)立抽取的
這兩個(gè)看似簡(jiǎn)單的要求在實(shí)際應(yīng)用中是極其容易被敷衍的,也是很多統(tǒng)計(jì)數(shù)據(jù)不可信的原因,需要針對(duì)實(shí)際應(yīng)用加以甄別。例如:
如果考察的對(duì)象是一個(gè)灌裝生產(chǎn)線的容積滿足問題,那么需要注意的是這些樣本就需要在生產(chǎn)的同一時(shí)間/批次中進(jìn)行抽取
如果考察的對(duì)象是一個(gè)餐廳里的顧客的滿意程度,那么顧客選擇的側(cè)重點(diǎn)則是要滿足第二條,即選擇的獨(dú)立性。例如不應(yīng)該讓調(diào)查者根據(jù)自己的喜好來隨意挑選顧客,而是需要設(shè)計(jì)其他的隨機(jī)元素來輔助:麥當(dāng)勞對(duì)這個(gè)類似活動(dòng)的選擇方式是每一次有顧客出示優(yōu)惠券,那么排在他下一位的顧客即可作為被抽樣的對(duì)象
抽樣分布
從一個(gè)大的總體中隨機(jī)抽取 n 個(gè)元素構(gòu)成一個(gè)樣本集時(shí),如果采用一次性抽取的方式,則樣本集的構(gòu)成有 N! / [n!(N-n)!] 個(gè),因此我們完全可以相信不同的樣本集中獲取的點(diǎn)估計(jì)量的點(diǎn)估計(jì)值是完全可以不同的,也即不同的抽樣得到的點(diǎn)估計(jì)值與總體參數(shù)之間存在誤差,這個(gè)誤差被稱為采樣誤差 sampling error。我們想要了解這些點(diǎn)估計(jì)量的值的分布情況的目的就是為了確保我們?cè)谑褂眠@些點(diǎn)估計(jì)值進(jìn)行總體估計(jì)的時(shí)候能夠清楚的知道誤差的范圍到底有多大,該如何去調(diào)整抽樣的大小或采取相應(yīng)的校正以使得其可以更加準(zhǔn)確的近似總體的參數(shù)。
實(shí)際上前面提到的這些抽樣得到的統(tǒng)計(jì)量都可以被看作是隨機(jī)變量,因此可以通過前述的頻數(shù)統(tǒng)計(jì)、可視化、最大值、最小值、百分位值、期望和方差等描述統(tǒng)計(jì)學(xué)工具來研究其分布形態(tài)。這些來自于同一總體的包含同樣數(shù)量元素的多次抽樣得到的統(tǒng)計(jì)值的分布形態(tài)稱為抽樣分布。如果我們按照之前的方法,如頻數(shù)統(tǒng)計(jì)并通過直方圖可視化的統(tǒng)計(jì)這些統(tǒng)計(jì)值,會(huì)發(fā)現(xiàn)這些來自不同樣本集的統(tǒng)計(jì)值在整體上近似呈正態(tài)分布。
這里需要注意的是,我們?cè)谘芯窟@些抽樣分布時(shí)并未窮盡總體中所有可能的樣本集,而是所有可能的樣本集的一個(gè)子集,也即樣本集的樣本集來進(jìn)行研究,這一點(diǎn)充分體現(xiàn)了統(tǒng)計(jì)學(xué)的研究邏輯。
x? 的抽樣分布
x? 的抽樣分布是對(duì)通過抽樣得到的所有可能的多個(gè)樣本集的各自的 x? 的分布狀態(tài)的研究,再一次地,由于 x? 是一個(gè)隨機(jī)變量,因此可以同任意隨機(jī)變量一樣計(jì)算其期望、方差。在這里有:
E(x?) = μ,即簡(jiǎn)單隨機(jī)抽樣的多個(gè)樣本集的均值的期望值/均值等于總體的均值,具有這種屬性的點(diǎn)估計(jì)量稱為無偏差估計(jì)量 Unbiased estimator
-
如果我們沿用之前的約定,用 N 表示總體中包含的元素的數(shù)量,n 表示樣本集中包含的元素的數(shù)量,σ 表示總體的標(biāo)準(zhǔn)差,σx? 表示抽樣得到的多個(gè)樣本集的均值的標(biāo)準(zhǔn)差,則有:
對(duì)于含有有限個(gè)元素的總體:σx? = (N - n)1/2σ / n1/2 / (N - 1)1/2
對(duì)于含有無限個(gè)元素的總體:σx? = σ / n1/2
其中 (N - n)1/2 / (N - 1)1/2 稱為包含有限個(gè)元素的總體的校正系數(shù) Finite population correction factor,但在大部分的應(yīng)用中,由于總體的元素?cái)?shù)量都遠(yuǎn)大于抽樣樣本中所包含的元素的數(shù)量,此時(shí)這個(gè)系數(shù)近似等于 1,因此在 n / N ≤ 0.05 的含有有限個(gè)元素的總體和含有無限個(gè)元素的總體中都可以采用 σx? = σ / n1/2 來計(jì)算抽樣得到的樣本集的均值的方差。
在后續(xù)學(xué)習(xí)及推理統(tǒng)計(jì)學(xué)中為了便于區(qū)分總體參數(shù)的標(biāo)準(zhǔn)差和對(duì)應(yīng)的點(diǎn)估計(jì)量的標(biāo)準(zhǔn)差,我們將點(diǎn)估計(jì)量的標(biāo)準(zhǔn)差命名為標(biāo)準(zhǔn)誤差 Standard error,當(dāng)這個(gè)點(diǎn)估計(jì)量是 x? 時(shí),σx? 就是 x? 的標(biāo)準(zhǔn)誤差。
上文中 x? 的直方圖近似呈正態(tài)分布不是一個(gè)偶然:
當(dāng)總體服從正態(tài)分布時(shí),無論抽樣樣本集所包含的元素的數(shù)量是多少,樣本均值 x? 的抽樣分布都服從正態(tài)分布
當(dāng)總體不服從正態(tài)分布時(shí),中心極限定理告訴我們當(dāng) n 足夠大時(shí),抽樣樣本集的均值 x? 的抽樣分布依然服從正態(tài)分布

由上圖可以看出隨著樣本量的增加,均值的抽樣分布逐漸逼近正態(tài)分布。在實(shí)際應(yīng)用中,一般當(dāng)抽樣樣本量大于 30 時(shí)就可以認(rèn)為樣本均值服從正態(tài)分布,當(dāng)數(shù)據(jù)極度偏斜時(shí),可以將樣本量擴(kuò)大到 50。x? 的抽樣分布的重要意義在于其描述了來自不同樣本集的 x? 圍繞總體均值 μ 的分布情況,也提供了任意一個(gè) x? 的取值與總體均值 μ 的差異情況。
在了解了均值的抽樣分布的基礎(chǔ)上,我們就可以知道任意一個(gè)抽樣得到的均值有多大的概率可以在誤差允許范圍內(nèi)近似總體的均值。因?yàn)槌闃泳捣木禐榭傮w均值 μ,標(biāo)準(zhǔn)誤差為總體均方差 σ 除以樣本集中包含的樣本數(shù)量的平方根 n1/2 的正態(tài)分布,因此我們想要了解抽樣均值落在總體均值某個(gè)誤差范圍內(nèi)的概率就可以借助標(biāo)準(zhǔn)正態(tài)分布進(jìn)行計(jì)算。假設(shè)我們?cè)O(shè)定可以接受的圍繞總體均值的誤差范圍設(shè)置為 (xlower,xupper),則有:zlower = (xlower - μ) n1/2 / σ, zupper = (xupper - μ) n1/2 / σ,對(duì)于任意一個(gè)抽樣樣本集得到的 x?,其落在這個(gè)誤差范圍內(nèi)的概率為 P(zupper) - P(zlower) 。
從這個(gè)計(jì)算也可以看出,抽樣誤差的大小受到樣本集中包含的樣本數(shù)量的影響,并且隨著樣本數(shù)量的增加,抽樣的均值的標(biāo)準(zhǔn)誤差將變小,也即抽樣均值的分布的離散程度變小,這也意味著從更大的抽樣中得到的均值有更大的概率落在總體均值的某個(gè)誤差范圍內(nèi)。
p? 的抽樣分布
p? 為抽樣樣本集中具有某個(gè)特征的元素所占的比例,即 p? = x / n ,x 表示抽樣樣本集中具有某個(gè)特征的元素的數(shù)量,n 表示樣本集中包含的元素的數(shù)量,其抽樣分布的研究過程與 x? 類似,比較大的區(qū)別是樣本集中的樣本是否具有某個(gè)特征是一個(gè)二項(xiàng)分布,并且有:
E(p?) = p,這里 p 表示具有某個(gè)特征的元素在總體中所占的比例,這個(gè)結(jié)果意味著多個(gè)抽樣樣本集中具有某個(gè)特征的元素所占的比例的期望值與總體中具有這個(gè)特征的元素所占的比例相等,即 p? 是 p 的一個(gè)無偏差 unbiased 的點(diǎn)估計(jì)量
-
沿用之前的約定,用 N 表示總體中所包含的元素的數(shù)量,σp? 表示多個(gè)抽樣樣本集中具有某個(gè)特征的元素所占的比例的標(biāo)準(zhǔn)差,則有:
對(duì)于含有有限個(gè)元素的總體:σp? = (N - n)1/2(p(1 - p))1/2 / [n1/2(N - 1)1/2]
對(duì)于含有無限個(gè)元素的總體:σp? = (p(1 - p))1/2 / n1/2
同樣地,在 n / N ≤ 0.05 的含有有限個(gè)元素的總體和含有無限個(gè)元素的總體中都可以采用 σp? = (p(1 - p))1/2 / n1/2 來計(jì)算多個(gè)樣本集中得到的具有某個(gè)特征的樣本的比例的標(biāo)準(zhǔn)誤差。
由于 p? 服從二項(xiàng)分布,而前面針對(duì)二項(xiàng)分布的討論中提到,當(dāng) np ≥ 5 且 n(1 - p) ≥ 5 時(shí),可以用正態(tài)分布來近似計(jì)算二項(xiàng)分布,即當(dāng)抽樣樣本集包含的樣本數(shù)量及具有某個(gè)特征的元素的比例滿足上述條件時(shí),多個(gè)抽樣樣本集中具有某個(gè)特征的元素的比例近似地服從均值為 p,方差為 σp? 的正態(tài)分布。至此,如果想了解抽樣得到的比例有多大的可能性落在總體比例的某個(gè)誤差范圍內(nèi),則轉(zhuǎn)化為一個(gè)正態(tài)分布的計(jì)算。
點(diǎn)估計(jì)量 Point estimators 的屬性
從前面我們看到,在選擇是否采用樣本的某個(gè)統(tǒng)計(jì)值做為點(diǎn)估計(jì)量來近似總體的相關(guān)參數(shù)時(shí),我們希望了解這個(gè)樣本統(tǒng)計(jì)值對(duì)于總體的近似程度和分布情況。在這里我們針對(duì)三個(gè)方面對(duì)點(diǎn)估計(jì)量的屬性進(jìn)行研究:無偏性 unbiased,有效性 efficiency,一致性 consistency。
為了方便表述,我們將總體的參數(shù)用 y 表示,抽樣得到的統(tǒng)計(jì)值用 ? 來表示。
無偏性
如果抽樣的到的統(tǒng)計(jì)值的均值/期望滿足 E(?) = y,那么就稱 ? 是 y 的一個(gè)無偏估計(jì)量。
對(duì)于某些估計(jì)量來說,由于抽樣得到的統(tǒng)計(jì)值的期望會(huì)大于或小于總體的參數(shù),如果直接用他們做為總體的估計(jì)就會(huì)高估或低估總體的值,這時(shí)就需要對(duì)樣本的統(tǒng)計(jì)值做一定的校正。例如在樣本的標(biāo)準(zhǔn)誤差計(jì)算時(shí),我們?cè)诜帜高x擇用 n - 1 代替 n 就是為了使得 E(s) = σ,即使得樣本的標(biāo)準(zhǔn)誤差成為總體標(biāo)準(zhǔn)差的一個(gè)無偏估計(jì)量。
有效性
如果同一個(gè)抽樣樣本集中可以得到兩個(gè)無偏統(tǒng)計(jì)值來對(duì)總體的同一個(gè)參數(shù)進(jìn)行估計(jì),那么我們理所應(yīng)當(dāng)會(huì)選擇二者中均方差更小的那個(gè),我們稱這個(gè)相對(duì)較小均方差的估計(jì)量相比另一個(gè)估計(jì)量具有更高的有效性。例如如果從服從正態(tài)分布的總體中抽取樣本,那么通過計(jì)算可以發(fā)現(xiàn)樣本均值的方差小于樣本中值的方差,因此我們會(huì)選擇樣本均值作為總體均值的更加有效的估計(jì)量。
一致性
如果隨著樣本量的增加,樣本統(tǒng)計(jì)值總是傾向于對(duì)總體的參數(shù)的估計(jì)更加準(zhǔn)確,這就是估計(jì)量的一致性。例如 σx? 和 σp? 隨著 n 的增加會(huì)減小就反映了 x? 和 p? 是兩個(gè)一致性很好的估計(jì)量。
免責(zé)聲明
我寫這個(gè)筆記是為了系統(tǒng)的復(fù)習(xí)概率論中的一些概念,閱讀的是 Statistics for Business and Economics, 12th Edition 英文原版,這是一本非常經(jīng)典的參考書,毫無保留的滿分推薦。盡管書名暗示了是在商業(yè)和經(jīng)濟(jì)學(xué)中的統(tǒng)計(jì)學(xué),但根本的統(tǒng)計(jì)學(xué)知識(shí)是不變量,并且和很多優(yōu)秀的原版書一樣,作者時(shí)刻注意用實(shí)例來講解統(tǒng)計(jì)學(xué)概念,基本上每一個(gè)新的概念的定義都建立在日常生活的實(shí)例的基礎(chǔ)上,在此基礎(chǔ)上還保留了精美的排版和精心設(shè)計(jì)的插圖,十分便于理解。
筆記最重要的一個(gè)目的就是記錄者復(fù)習(xí)的重要資料,如果能對(duì)別人也有所幫助那就是額外的獎(jiǎng)賞了,所以為了復(fù)習(xí)方便我擅自截取了書中的很多插圖,這些插圖僅限于個(gè)人學(xué)習(xí)使用。其他人請(qǐng)勿直接轉(zhuǎn)載,如轉(zhuǎn)載請(qǐng)刪除插圖并附帶這則免責(zé)聲明,否則由此而產(chǎn)生的版權(quán)問題,請(qǐng)轉(zhuǎn)載者自行承擔(dān)。