第18章 方差估計和敏感度提升 ||《可信的線上受控實驗 》|| Trustworthy online controlled experiments

1. 方差常見缺陷

使用錯估的方差可能導致實驗不可信:

大于實際方差,導致 FP(第一類錯誤, 拒絕原假設):計算方差越大,分布越平攤,p值越大

小于實際方差,導致FN

1.1. delta 和 percent delta

percent delta 常用于評估效果,它的方差應該是var(Yt_bar/Yc_bar)。分子分母分別是實驗組和控制組的指標均值的抽樣分布的均值。

1.2. ratio metric:分析單元和實驗單元不同時

比如CTR指標的分析單元是點擊,而如果實驗單元是用戶,那么CTR的分析單元和實驗單元則不同,也就不滿足i.i.d.(獨立同分布)。

雖然可以通過UTR或者計算單個用戶的CTR再求均值(而非使用整體click除以view)來替代ctr指標,被稱為average of ratio,單這兩種計算都只給予了每個用戶相同的權(quán)重。

而 ratio of "average of user level metrics", M=X_bar/Y_bar則可以使用 delta method來計算方差。

delta 方法的CTR方差

而一些指標無法由兩個用戶級別的指標計算而來的復合指標,比如頁面加載時間的90分位數(shù),則可以使用Bootstrap來獲得。(Bootstrap可以參考ab doc)

1.3. 離群值(outliers)

離群值對方差的影響大于對均值的影響,書中演示在一個實例中,加入一個離群值,隨著離群值逐漸增大,t檢驗量逐漸減小,最終實驗組不再顯著優(yōu)于控制組。因此使用技術(shù)方法或場景經(jīng)驗剔除離群值是十分必要的。

2. 提高敏感度(減小方差)

提高敏感度,通常即是提高功效,常見的手段則是減小方差,減小方差的方法:

  1. 選擇低方差的指標替代同質(zhì)的高方差的指標:比如使用購買轉(zhuǎn)換率替換購買花銷。

  2. capping(設置最大值,大于改值的值轉(zhuǎn)換成最大值), 對長尾數(shù)據(jù)計算對數(shù)指標, 轉(zhuǎn)換成二項分布指標(比如netflix設置將時長是否大于1H生成一個二項分布的指標)。

  3. triggered analysis(第二十章會介紹trigger):移除不受改動影響的用戶,從而移除他們帶來的噪音。

  4. 用戶分層,控制變量法(control variates),CUPED等方法。

    1. 用戶分層:僅求和組內(nèi)方差,剔除組間方差以減小總方差。

    2. 控制變量法

      控制變量法 - 維基百科,自由的百科全書

    3. CUPED

  5. 在更細粒度隨機分流實驗單元,比如對頁面加載時間的影響,在單個頁面進行隨機分配,而非對每個用戶分配一個固定的加載時間。但這會引入缺點

    1. 用戶體驗不連貫。
    2. 沒法計算用戶級別的指標:比如用戶人均pv,留存等等。
  6. 匹配樣本(paired/matched samples):對同一批用戶展示對照和控制兩組內(nèi)容:搜索結(jié)果排序結(jié)果常用。(商務與經(jīng)濟統(tǒng)計舉例 工人前后使用兩種裝配方法,直接用統(tǒng)一工人兩組方法的消耗時間之差作為統(tǒng)計量,之后進行單樣本的估計和假設檢驗。)

  7. 多組實驗共享對照組

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容