96P9久久,伊人久久中文成人

第三次復習概率論與數(shù)理統(tǒng)計，希望理解比之前更深刻。
僅代表本人理解，如果錯誤歡迎指出。

一、大數(shù)定理
直觀地理解是：當樣本的容量足夠大（或者實驗的次數(shù)足夠多），樣本的均值收斂于總體的均值。
投硬幣實驗中，設(shè)置隨機變量X，當投到正面時，X=1，投到反面時X=0。做10次實驗，樣本的均值可能為0-1之間的任意值，但是做1000、10000次實驗，X的期望值將接近于0.5。

二、三大分布

二項分布
獨立重復n次實驗，實驗結(jié)果只有兩種且互斥，假設(shè)為成功和失敗。成功的概率為p，失敗的概率為1-p。則n次實驗中n次成功的概率為：

image.png
泊松分布
可以由二項分布推導而來，當實驗次數(shù)n足夠大，p非常小時（n>=20，p<=0.5)，二項分布可以近似為泊松分布。
舉例來說：單位時間內(nèi)的車流量可以看作一種泊松分布。假設(shè)我們通過觀察知道一個小時內(nèi)的平均車流數(shù)：lamda，求一小時內(nèi)車流量為k的概率。
假設(shè)一種情況：路上一分鐘內(nèi)最多只能有一輛車通過，那么在每一分鐘內(nèi)，都可以看成一次伯努利實驗（結(jié)果只有一輛車通過和沒有車通過兩種可能），那么60次實驗相當于一個n=60的二項分布。但是我們的假設(shè)可能不太符合現(xiàn)實，一分鐘內(nèi)可能有多輛車通過(n太?。?，為了滿足二項分布的性質(zhì)，我們確定一個極小的時間段，使得在該時間段內(nèi)，最多只有一輛車通過（即n取得特別大），此時單位時間內(nèi)出現(xiàn)一輛車的p值=lamda\n非常小。套用二次項的公式再求極限，可以得到泊松分布的公式：

image.png
正態(tài)分布
自然界中最多的一種分布，二項分布n較大時，可近似為正態(tài)分布的形狀。二項分布和泊松分布都是離散分布，而正態(tài)分布是一種連續(xù)分布。

三、假設(shè)檢驗

兩類錯誤

第一類錯誤：棄真錯誤。本來應(yīng)該接受原假設(shè)，但是由于顯著性水平α設(shè)置過大，使得統(tǒng)計量落入了拒絕域，從而拒絕了原本是真的原假設(shè)。α的減小可以減少此類錯誤的發(fā)生。
第二類錯誤：取偽錯誤。本來應(yīng)該拒絕原假設(shè)，但是統(tǒng)計量落入了接受域。取偽的概率為β。如圖，我們本來應(yīng)該接受備選假設(shè)落入黃色的區(qū)域內(nèi)，但是由于抽樣誤差，落入了綠色范圍，于是接受了原假設(shè)，造成了取偽。1-β是避免第二類錯誤的概率，被稱為統(tǒng)計功效。
從圖中可以看到，α和β是一增一減的關(guān)系，α增大，β會減小，反之α減小，β會增大。
減少兩類錯誤的唯一辦法是：增大樣本量，使得統(tǒng)計量盡可能消除偶然性。

圖源網(wǎng)絡(luò).png

中心極限定理
非常重要的一個定理，通俗來說：不論總體服從什么分布，當抽樣的樣本足夠大時，樣本的均值服從正態(tài)分布，均值為樣本均值，標準差為總體標準差除以根號n(n為樣本容量）。當樣本容量n大于30時，可以認為是大樣本。
α值和p值

α值：顯著性水平，落入拒絕域的概率（拒絕原假設(shè)的概率），當構(gòu)造的統(tǒng)計量落在該區(qū)域內(nèi)，拒絕原假設(shè)。
p值：在原假設(shè)成立的情況下，檢測統(tǒng)計量大于或小于具體樣本觀測值的概率。當這個值小于α時，我們拒絕原假設(shè)，否則接受。
舉例來說：H0：總體均值u=u0；H1：總體均值小于u0。樣本容量足夠大
第一步：樣本容量足夠大，中心極限。樣本均值服從均值為u0的正態(tài)分布，構(gòu)造z統(tǒng)計量z0；
第二步：算出檢測統(tǒng)計量z小于z0的概率p（利用分布函數(shù)算面積），發(fā)現(xiàn)算出來的p值小于α，拒絕原假設(shè)。
（可以這樣理解：我們需要把顯著性水平定到小于現(xiàn)α的一個值(p值)才能保證樣本觀測值落入接受域內(nèi)，說明原假設(shè)是不成立的?；蛘哒f當原假設(shè)成立，統(tǒng)計量小于或者大于觀測值是一個非常小的概率事件，說明我們要拒絕原假設(shè)）

實際如何應(yīng)用：ABtest
硬骨頭，待填坑。

image.png

AB test是什么：個人理解是像高中生物實驗?zāi)欠N確定一個對照組和一個控制組，對照組實行舊方案，控制組實行新的方案。通過抽樣和假設(shè)檢驗，判斷兩者總體的分布情況，從而判斷新方案實施是否有效，或者效果是否明顯。這里的假設(shè)檢驗可以對照獨立分布的兩個樣本的總體分布。
難點：樣本容量的確定，過小則隨機性強，過大則對企業(yè)的試驗成本太高。
目前不太理解的部分（待填坑，再讓我借本統(tǒng)計學好好鉆研下555）：
多個分組如何構(gòu)造統(tǒng)計量？
幾種分布的應(yīng)用（Z, T, 卡方）
統(tǒng)計效能？（即1-β）
A/B test常見的兩種場景：
一個是數(shù)值類的計算
如激活量（均值）、點擊量、曝光量的計算
一個是比例類的計算
如轉(zhuǎn)換率、點擊率的提升等
如何確定樣本量：
樣本量的確定受到α和1-β的影響，為了同時使犯第一類錯誤和第二類錯誤的概率減小，需要增大樣本量。
數(shù)值類樣本量計算網(wǎng)址
 比值類樣本量計算網(wǎng)址
目前看到比較好的講解：
https://blog.csdn.net/buracag_mc/article/details/74905483
除了AB-test我們還可能需要進行AA-test，AA-test是為了檢測對照組的選取是否具有代表性，是否選取了不合適的樣本。

四、參數(shù)估計

參數(shù)估計的含義？
通過樣本的信息去估計總體的參數(shù)
a. 介紹下矩估計？
根據(jù)大數(shù)定律，當樣本容量足夠大時，樣本的k階原點矩收斂于總體的k階原點矩，因此可用此來估計總體分布的參數(shù)。使用該方法，我們不需要知道總體的分布。
b. 極大似然估計
原理：如果在一次試驗中某件事發(fā)生了，我們認為這件事發(fā)生的概率是足夠大的?；诖?，我們使用樣本觀測到的值構(gòu)造似然函數(shù)，似然函數(shù)代表著樣本觀測值出現(xiàn)的概率，既然它發(fā)生了，我們認為這件事是個大概率事件，因此使用似然函數(shù)的最大值近似其發(fā)生的概率，從而求得參數(shù)的估計值。
c. 如何評價估計的好壞？
無偏性：估計量是一個隨機變量，由于樣本的不同其取值也不同。我們希望估計量的均值等于參數(shù)的值，意為估計量的取值在參數(shù)值附近擺動，稱這樣是無偏的。
有效性：我們希望估計量的方差盡可能小，即該估計量取值比較穩(wěn)定
一致性：依據(jù)大數(shù)定律得出，當樣本容量足夠大時，估計量的取值收斂于參數(shù)值。
b.區(qū)間估計
使用置信區(qū)間和置信度來估計參數(shù)。置信區(qū)間是參數(shù)的估計范圍，置信度是參數(shù)落入該區(qū)間的概率。和假設(shè)檢驗相似，首先需要構(gòu)造統(tǒng)計量（根據(jù)總體分布、樣本容量、已知參數(shù)等），然后構(gòu)造使得統(tǒng)計量落入置信度為1-alpha的置信區(qū)間，從而求出參數(shù)的置信區(qū)間。
參數(shù)估計與假設(shè)檢驗的不同？
相同：兩者都是從樣本估計整體特征值的方法。
不同：但是推斷估計的角度不同。參數(shù)估計在參數(shù)未知的情況下，用樣本去估計總體的參數(shù)值；但是假設(shè)檢驗先假設(shè)參數(shù)是某個值，然后再用樣本的信息去估計該假設(shè)是否成立。

五、

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

數(shù)據(jù)分析中的統(tǒng)計學知識

數(shù)據(jù)分析中的統(tǒng)計學知識

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

數(shù)據(jù)分析中的統(tǒng)計學知識

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av