1. 方差常見缺陷
使用錯估的方差可能導致實驗不可信:
大于實際方差,導致 FP(第一類錯誤, 拒絕原假設):計算方差越大,分布越平攤,p值越大
小于實際方差,導致FN
1.1. delta 和 percent delta
percent delta 常用于評估效果,它的方差應該是var(Yt_bar/Yc_bar)。分子分母分別是實驗組和控制組的指標均值的抽樣分布的均值。
1.2. ratio metric:分析單元和實驗單元不同時
比如CTR指標的分析單元是點擊,而如果實驗單元是用戶,那么CTR的分析單元和實驗單元則不同,也就不滿足i.i.d.(獨立同分布)。
雖然可以通過UTR或者計算單個用戶的CTR再求均值(而非使用整體click除以view)來替代ctr指標,被稱為average of ratio,單這兩種計算都只給予了每個用戶相同的權(quán)重。
而 ratio of "average of user level metrics", M=X_bar/Y_bar則可以使用 delta method來計算方差。

而一些指標無法由兩個用戶級別的指標計算而來的復合指標,比如頁面加載時間的90分位數(shù),則可以使用Bootstrap來獲得。(Bootstrap可以參考ab doc)
1.3. 離群值(outliers)
離群值對方差的影響大于對均值的影響,書中演示在一個實例中,加入一個離群值,隨著離群值逐漸增大,t檢驗量逐漸減小,最終實驗組不再顯著優(yōu)于控制組。因此使用技術(shù)方法或場景經(jīng)驗剔除離群值是十分必要的。
2. 提高敏感度(減小方差)
提高敏感度,通常即是提高功效,常見的手段則是減小方差,減小方差的方法:
選擇低方差的指標替代同質(zhì)的高方差的指標:比如使用購買轉(zhuǎn)換率替換購買花銷。
capping(設置最大值,大于改值的值轉(zhuǎn)換成最大值), 對長尾數(shù)據(jù)計算對數(shù)指標, 轉(zhuǎn)換成二項分布指標(比如netflix設置將時長是否大于1H生成一個二項分布的指標)。
triggered analysis(第二十章會介紹trigger):移除不受改動影響的用戶,從而移除他們帶來的噪音。
-
用戶分層,控制變量法(control variates),CUPED等方法。
用戶分層:僅求和組內(nèi)方差,剔除組間方差以減小總方差。
-
控制變量法
CUPED
-
在更細粒度隨機分流實驗單元,比如對頁面加載時間的影響,在單個頁面進行隨機分配,而非對每個用戶分配一個固定的加載時間。但這會引入缺點
- 用戶體驗不連貫。
- 沒法計算用戶級別的指標:比如用戶人均pv,留存等等。
匹配樣本(paired/matched samples):對同一批用戶展示對照和控制兩組內(nèi)容:搜索結(jié)果排序結(jié)果常用。(商務與經(jīng)濟統(tǒng)計舉例 工人前后使用兩種裝配方法,直接用統(tǒng)一工人兩組方法的消耗時間之差作為統(tǒng)計量,之后進行單樣本的估計和假設檢驗。)
多組實驗共享對照組