第三次復習概率論與數(shù)理統(tǒng)計,希望理解比之前更深刻。
僅代表本人理解,如果錯誤歡迎指出。
一、大數(shù)定理
直觀地理解是:當樣本的容量足夠大(或者實驗的次數(shù)足夠多),樣本的均值收斂于總體的均值。
投硬幣實驗中,設(shè)置隨機變量X,當投到正面時,X=1,投到反面時X=0。做10次實驗,樣本的均值可能為0-1之間的任意值,但是做1000、10000次實驗,X的期望值將接近于0.5。
二、三大分布
-
二項分布
獨立重復n次實驗,實驗結(jié)果只有兩種且互斥,假設(shè)為成功和失敗。成功的概率為p,失敗的概率為1-p。則n次實驗中n次成功的概率為:
image.png -
泊松分布
可以由二項分布推導而來,當實驗次數(shù)n足夠大,p非常小時(n>=20,p<=0.5),二項分布可以近似為泊松分布。
舉例來說:單位時間內(nèi)的車流量可以看作一種泊松分布。假設(shè)我們通過觀察知道一個小時內(nèi)的平均車流數(shù):lamda,求一小時內(nèi)車流量為k的概率。
假設(shè)一種情況:路上一分鐘內(nèi)最多只能有一輛車通過,那么在每一分鐘內(nèi),都可以看成一次伯努利實驗(結(jié)果只有一輛車通過和沒有車通過兩種可能),那么60次實驗相當于一個n=60的二項分布。但是我們的假設(shè)可能不太符合現(xiàn)實,一分鐘內(nèi)可能有多輛車通過(n太?。?,為了滿足二項分布的性質(zhì),我們確定一個極小的時間段,使得在該時間段內(nèi),最多只有一輛車通過(即n取得特別大),此時單位時間內(nèi)出現(xiàn)一輛車的p值=lamda\n非常小。套用二次項的公式再求極限,可以得到泊松分布的公式:
image.png - 正態(tài)分布
自然界中最多的一種分布,二項分布n較大時,可近似為正態(tài)分布的形狀。二項分布和泊松分布都是離散分布,而正態(tài)分布是一種連續(xù)分布。
三、假設(shè)檢驗
- 兩類錯誤
- 第一類錯誤: 棄真錯誤。本來應(yīng)該接受原假設(shè),但是由于顯著性水平α設(shè)置過大,使得統(tǒng)計量落入了拒絕域,從而拒絕了原本是真的原假設(shè)。α的減小可以減少此類錯誤的發(fā)生。
-
第二類錯誤:取偽錯誤。本來應(yīng)該拒絕原假設(shè),但是統(tǒng)計量落入了接受域。取偽的概率為β。如圖,我們本來應(yīng)該接受備選假設(shè)落入黃色的區(qū)域內(nèi),但是由于抽樣誤差,落入了綠色范圍,于是接受了原假設(shè),造成了取偽。1-β是避免第二類錯誤的概率,被稱為統(tǒng)計功效。
從圖中可以看到,α和β是一增一減的關(guān)系,α增大,β會減小,反之α減小,β會增大。
減少兩類錯誤的唯一辦法是:增大樣本量,使得統(tǒng)計量盡可能消除偶然性。
圖源網(wǎng)絡(luò).png
- 中心極限定理
非常重要的一個定理,通俗來說:不論總體服從什么分布,當抽樣的樣本足夠大時,樣本的均值服從正態(tài)分布,均值為樣本均值,標準差為總體標準差除以根號n(n為樣本容量)。 當樣本容量n大于30時,可以認為是大樣本。 - α值和p值
- α值:顯著性水平,落入拒絕域的概率(拒絕原假設(shè)的概率),當構(gòu)造的統(tǒng)計量落在該區(qū)域內(nèi),拒絕原假設(shè)。
- p值:在原假設(shè)成立的情況下,檢測統(tǒng)計量大于或小于具體樣本觀測值的概率。當這個值小于α時,我們拒絕原假設(shè),否則接受。
舉例來說:H0:總體均值u=u0;H1:總體均值小于u0。樣本容量足夠大
第一步:樣本容量足夠大,中心極限。樣本均值服從均值為u0的正態(tài)分布,構(gòu)造z統(tǒng)計量z0;
第二步:算出檢測統(tǒng)計量z小于z0的概率p(利用分布函數(shù)算面積),發(fā)現(xiàn)算出來的p值小于α,拒絕原假設(shè)。
(可以這樣理解:我們需要把顯著性水平定到小于現(xiàn)α的一個值(p值)才能保證樣本觀測值落入接受域內(nèi),說明原假設(shè)是不成立的?;蛘哒f當原假設(shè)成立,統(tǒng)計量小于或者大于觀測值是一個非常小的概率事件,說明我們要拒絕原假設(shè))
-
實際如何應(yīng)用:ABtest
硬骨頭,待填坑。
image.png
AB test是什么:個人理解是像高中生物實驗?zāi)欠N確定一個對照組和一個控制組,對照組實行舊方案,控制組實行新的方案。通過抽樣和假設(shè)檢驗,判斷兩者總體的分布情況,從而判斷新方案實施是否有效,或者效果是否明顯。這里的假設(shè)檢驗可以對照獨立分布的兩個樣本的總體分布。
難點:樣本容量的確定,過小則隨機性強,過大則對企業(yè)的試驗成本太高。
目前不太理解的部分(待填坑,再讓我借本統(tǒng)計學好好鉆研下555):
多個分組如何構(gòu)造統(tǒng)計量?
幾種分布的應(yīng)用(Z, T, 卡方)
統(tǒng)計效能?(即1-β)A/B test常見的兩種場景:
一個是數(shù)值類的計算
如激活量(均值)、點擊量、曝光量的計算
一個是比例類的計算
如轉(zhuǎn)換率、點擊率的提升等如何確定樣本量:
樣本量的確定受到α和1-β的影響,為了同時使犯第一類錯誤和第二類錯誤的概率減小,需要增大樣本量。
數(shù)值類樣本量計算網(wǎng)址
比值類樣本量計算網(wǎng)址
目前看到比較好的講解:
https://blog.csdn.net/buracag_mc/article/details/74905483除了AB-test我們還可能需要進行AA-test,AA-test是為了檢測對照組的選取是否具有代表性,是否選取了不合適的樣本。
四、參數(shù)估計
- 參數(shù)估計的含義?
通過樣本的信息去估計總體的參數(shù)
a. 介紹下矩估計?
根據(jù)大數(shù)定律,當樣本容量足夠大時,樣本的k階原點矩收斂于總體的k階原點矩,因此可用此來估計總體分布的參數(shù)。使用該方法,我們不需要知道總體的分布。
b. 極大似然估計
原理:如果在一次試驗中某件事發(fā)生了,我們認為這件事發(fā)生的概率是足夠大的?;诖?,我們使用樣本觀測到的值構(gòu)造似然函數(shù),似然函數(shù)代表著樣本觀測值出現(xiàn)的概率,既然它發(fā)生了,我們認為這件事是個大概率事件,因此使用似然函數(shù)的最大值近似其發(fā)生的概率,從而求得參數(shù)的估計值。
c. 如何評價估計的好壞?
無偏性:估計量是一個隨機變量,由于樣本的不同其取值也不同。我們希望估計量的均值等于參數(shù)的值,意為估計量的取值在參數(shù)值附近擺動,稱這樣是無偏的。
有效性:我們希望估計量的方差盡可能小,即該估計量取值比較穩(wěn)定
一致性:依據(jù)大數(shù)定律得出,當樣本容量足夠大時,估計量的取值收斂于參數(shù)值。
b.區(qū)間估計
使用置信區(qū)間和置信度來估計參數(shù)。置信區(qū)間是參數(shù)的估計范圍,置信度是參數(shù)落入該區(qū)間的概率。和假設(shè)檢驗相似,首先需要構(gòu)造統(tǒng)計量(根據(jù)總體分布、樣本容量、已知參數(shù)等),然后構(gòu)造使得統(tǒng)計量落入置信度為1-alpha的置信區(qū)間,從而求出參數(shù)的置信區(qū)間。 - 參數(shù)估計與假設(shè)檢驗的不同?
相同:兩者都是從樣本估計整體特征值的方法。
不同:但是推斷估計的角度不同。參數(shù)估計在參數(shù)未知的情況下,用樣本去估計總體的參數(shù)值;但是假設(shè)檢驗先假設(shè)參數(shù)是某個值,然后再用樣本的信息去估計該假設(shè)是否成立。
五、



