AB測試重點(diǎn)匯總

Part1 from https://blog.csdn.net/weixin_38753213/article/details/100933667

實(shí)例A/B test步驟

指標(biāo):CTR
變體:新的推薦策略
假設(shè):新的推薦策略可以帶來更多的用戶點(diǎn)擊。
收集數(shù)據(jù):以下B組數(shù)據(jù)為我們想驗(yàn)證的新的策略結(jié)果數(shù)據(jù),A組數(shù)據(jù)為舊的策略結(jié)果數(shù)據(jù)。均為偽造數(shù)據(jù)。

分析結(jié)果(Python):
利用 python 中的 scipy.stats.ttest_ind 做關(guān)于兩組數(shù)據(jù)的雙邊 t 檢驗(yàn),結(jié)果比較簡單。但是做大于或者小于的單邊檢測的時(shí)候需要做一些處理,才能得到正確的結(jié)果。

from scipy import stats 
import numpy as np  
import numpy as np  
import seaborn as sns   
    
A = np.array([ 1, 4, 2, 3, 5, 5, 5, 7, 8, 9,10,18]) 
B = np.array([ 1, 2, 5, 6, 8, 10, 13, 14, 17, 20,13,8]) 
print('策略A的均值是:',np.mean(A))    
print('策略B的均值是:',np.mean(B))
Output: 
策略A的均值是:6.416666666666667   
策略B的均值是:9.75

很明顯,策略B的均值大于策略A的均值,但這就能說明策略B可以帶來更多的業(yè)務(wù)轉(zhuǎn)化嗎?還是說僅僅是由于一些隨機(jī)的因素造成的。

我們是想證明新開發(fā)的策略B效果更好,所以可以設(shè)置原假設(shè)和備擇假設(shè)分別是:
H0:A>=B
H1:A < B

scipy.stats.ttest_ind(x,y)默認(rèn)驗(yàn)證的是x.mean()-y.mean()這個(gè)假設(shè)。為了在結(jié)果中得到正數(shù),計(jì)算如下:
stats.ttest_ind(B,A,equal_var= False)
output:
Ttest_indResult(statistic=1.556783470104261, pvalue=0.13462981561745652)
根據(jù) scipy.stats.ttest_ind(x, y) 文檔的解釋,這是雙邊檢驗(yàn)的結(jié)果。為了得到單邊檢驗(yàn)的結(jié)果,需要將 計(jì)算出來的 pvalue 除于2 取單邊的結(jié)果(這里取閾值為0.05)。

求得pvalue=0.13462981561745652, p/2 > alpha(0.05),所以不能夠拒絕假設(shè),暫時(shí)不能夠認(rèn)為策略B能帶來多的用戶點(diǎn)擊。

A/B test需要注意的點(diǎn)

1、先驗(yàn)性:通過低代價(jià),小流量的實(shí)驗(yàn),在推廣到全流量的用戶。
2、并行性:不同版本、不同方案在驗(yàn)證時(shí),要保重其他條件都一致。
3、分流科學(xué)性和數(shù)據(jù)科學(xué)性:分流科學(xué)是指對AB兩組分配的數(shù)據(jù)要一致,數(shù)據(jù)科學(xué)性是指不能直接用均值轉(zhuǎn)化率、均值點(diǎn)擊率來進(jìn)行AB test決策,而是要通過置信區(qū)間、假設(shè)檢驗(yàn)、收斂程度來得出結(jié)論。

A/B test中要知道的統(tǒng)計(jì)學(xué)知識(shí)

上述文章只是從應(yīng)用的角度介紹來AB test的一些內(nèi)容,當(dāng)收集好數(shù)據(jù)之后做推斷性統(tǒng)計(jì)分析你可能需要具備以下知識(shí),這里限于篇幅不做介紹,自行查閱統(tǒng)計(jì)學(xué)書籍閱讀,可參考《統(tǒng)計(jì)學(xué)》賈躍平,可汗學(xué)院統(tǒng)計(jì)學(xué)等書籍和視頻。

1、點(diǎn)估計(jì)
2、區(qū)間估計(jì)
3、中心極限定理 (樣本估計(jì)總體的核心,可以對比看一下大數(shù)定理)
4、假設(shè)檢驗(yàn)
其中假設(shè)檢驗(yàn)部分為核心,其他輔助更好的理解該部分內(nèi)容,比如區(qū)間估計(jì)可以理解為正向的推斷統(tǒng)計(jì),假設(shè)檢驗(yàn)可以理解為反證的推斷統(tǒng)計(jì),關(guān)于假設(shè)檢驗(yàn)本身,你可能還需要知道小概率事件、t分布、z分布、卡方分布、p值、alpha錯(cuò)誤、belta錯(cuò)誤等內(nèi)容。

A/B test樣本數(shù)如何定

(待更新)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容