1. 方差常見缺陷

使用錯估的方差可能導致實驗不可信：

大于實際方差，導致 FP(第一類錯誤，拒絕原假設）：計算方差越大，分布越平攤，p值越大

小于實際方差，導致FN

percent delta 常用于評估效果，它的方差應該是var(Yt_bar/Yc_bar)。分子分母分別是實驗組和控制組的指標均值的抽樣分布的均值。

比如CTR指標的分析單元是點擊，而如果實驗單元是用戶，那么CTR的分析單元和實驗單元則不同，也就不滿足i.i.d.(獨立同分布）。

雖然可以通過UTR或者計算單個用戶的CTR再求均值(而非使用整體click除以view)來替代ctr指標，被稱為average of ratio，單這兩種計算都只給予了每個用戶相同的權(quán)重。

而 ratio of "average of user level metrics"， M=X_bar/Y_bar則可以使用 delta method來計算方差。

delta 方法的CTR方差

而一些指標無法由兩個用戶級別的指標計算而來的復合指標，比如頁面加載時間的90分位數(shù)，則可以使用Bootstrap來獲得。（Bootstrap可以參考ab doc）

離群值對方差的影響大于對均值的影響，書中演示在一個實例中，加入一個離群值，隨著離群值逐漸增大，t檢驗量逐漸減小，最終實驗組不再顯著優(yōu)于控制組。因此使用技術(shù)方法或場景經(jīng)驗剔除離群值是十分必要的。

2. 提高敏感度（減小方差）

提高敏感度，通常即是提高功效，常見的手段則是減小方差，減小方差的方法：

選擇低方差的指標替代同質(zhì)的高方差的指標：比如使用購買轉(zhuǎn)換率替換購買花銷。
capping(設置最大值，大于改值的值轉(zhuǎn)換成最大值)，對長尾數(shù)據(jù)計算對數(shù)指標，轉(zhuǎn)換成二項分布指標（比如netflix設置將時長是否大于1H生成一個二項分布的指標）。
triggered analysis(第二十章會介紹trigger)：移除不受改動影響的用戶，從而移除他們帶來的噪音。
用戶分層，控制變量法（control variates)，CUPED等方法。
1. 用戶分層：僅求和組內(nèi)方差，剔除組間方差以減小總方差。
2. 控制變量法
  
  控制變量法 - 維基百科，自由的百科全書
3. CUPED
在更細粒度隨機分流實驗單元，比如對頁面加載時間的影響，在單個頁面進行隨機分配，而非對每個用戶分配一個固定的加載時間。但這會引入缺點
1. 用戶體驗不連貫。
2. 沒法計算用戶級別的指標：比如用戶人均pv，留存等等。
匹配樣本(paired/matched samples)：對同一批用戶展示對照和控制兩組內(nèi)容：搜索結(jié)果排序結(jié)果常用。（商務與經(jīng)濟統(tǒng)計舉例工人前后使用兩種裝配方法，直接用統(tǒng)一工人兩組方法的消耗時間之差作為統(tǒng)計量，之后進行單樣本的估計和假設檢驗。）
多組實驗共享對照組