Twyman法則:數(shù)據(jù)越不尋?;蛟接腥?,越可能存在錯誤。
1. 對統(tǒng)計結(jié)果的一些錯誤解釋(misinterpretation)
缺乏統(tǒng)計功效(β)
- 功效釋義:如果確實存在假設(shè)差異,差異在當前樣本量下被檢測到的概率。
- 如果實驗效果只對部分用戶生效,那么只關(guān)注這部分用戶的指標是很重要的。因為即使對生效用戶產(chǎn)生極大效果的改動,稀釋到全局也會效果極為微小。
誤解了p值
- p值正確含義:假設(shè)原假設(shè)正確的情況下,得到與實驗相等或更極端的結(jié)果的概率。
- 常見誤解1:p=0.05代表原假設(shè)只有0.05的概率為真
- 常見誤解2:實驗結(jié)果不顯著(p>0.05)表示組別間無差異
- 釋義:置信區(qū)間內(nèi)的任何值都有可能。
- 常見誤解3:p=0.05表示
- 常見誤解4:p=0.05表示錯誤拒絕原假設(shè)(false positive)的概率是0.05。
- 書中釋義:計算FP(p<0.05且原假設(shè)仍為真)的概率,需要一些先驗概率并使用貝葉斯定理計算。
- 過往的常見說法:實現(xiàn)會定義顯著性水平(significant level)記作α,在實驗開始前,α就是第一類錯誤的概率。(如果假設(shè)檢驗結(jié)論拒絕H0,發(fā)生I型錯誤的概率為5%或1%,即100次拒絕H0的結(jié)論中,平均有5次或1次是錯誤的。)
- 個人理解:置信水平是在實驗前設(shè)置的參數(shù),而p是實驗結(jié)束后計算得到的指標值。而書中表示的應(yīng)該是實驗結(jié)束后已經(jīng)計算得到p值,根據(jù)目前的信息,假正率是多少。
p值偷窺:持續(xù)觀察p值,并在p值小于
- 有一些支持持續(xù)觀察p值的方法:《Continuous Monitoring of A/B Tests without Pain: Optional Stopping in Bayesian Testing》
- 互聯(lián)網(wǎng)公司一般提前計算好需要的樣本量和運行時長,比如整周等。
多重假設(shè)檢驗:多重比較問題
一些常見的錯誤:
- 觀察多個指標(其中一個有效就認為實驗?zāi)芴嵘@個指標)
- p值偷窺
- 觀察部分用戶,比如只觀察特定國家,性別,活躍度分組用戶。
- 觀察一連串的實驗
(CHAP17如何解決多重測試的問題)
2. 置信區(qū)間
- 釋義:量化實驗效應(yīng),而置信水平表示置信區(qū)間需要涵蓋多寬的實驗效應(yīng)。對于兩組無差異的原假設(shè),如果95%的置信區(qū)間不包含0,則說明p<0.05。
- 常見的兩個誤解:
- 分開看實驗組和對照組,如果對照和實驗兩組的置信區(qū)間有重疊,則說明兩者沒有顯著差異。
- 95%的置信區(qū)間表示進行多次實驗,有95%的比例會包含真正的實驗影響值。對于特定的一次實驗,要么包含,要么不包含。
3. 內(nèi)部有效性的一些威脅
內(nèi)部有效性的含義
- 不推廣人群和時間,只論當前實驗涵蓋人群和時間的有效性。
SUTVA的不穩(wěn)定
SUTVA (Stable Unit Treatment Value Assumption):實驗單位不收其他用戶的影響的假設(shè)。
-
影響該假設(shè)的的一些情況
- 社交網(wǎng)絡(luò)的泄露(給特定用戶發(fā)券在社交網(wǎng)絡(luò)傳播)
- IM軟件:微信表情新特性對ios特定版本用戶開放,會影響到非開放用戶的信息數(shù)等。
- 有協(xié)作能力的SaaS:飛書,騰訊文檔等。
- 雙邊市場:咸魚,滴滴。比如給滴滴部分用戶發(fā)券會可能導(dǎo)致被發(fā)券用戶提升消費量,而滴滴可用車減小,價格上升,對照組用戶成功下單量減小等。
- 資源共享的情況:實驗組上線新特性,后臺資源問題導(dǎo)致全部用戶的加載時間變長。
(chap22介紹處理這些問題的方法)
幸存者偏差
- 分析活躍了一段時間的用戶會帶來幸存者偏差。
治療意向效應(yīng)(intetion-to-treat)
- 源自醫(yī)學(xué)治療,如果用戶因為知曉副作用等因素選擇不進行治療,如果最終只分析接受治療的病人,那么則會帶來選擇偏差。為避免效應(yīng),可以分析提供了治療建議的全部用戶而非受療用戶。
樣本比率偏差問題(Sample Ratio Mismatch, SRM)
- 實驗組進行重導(dǎo)向(頁面跳轉(zhuǎn))
- 造成SRM的原因
- 性能表現(xiàn)差異,頁面跳轉(zhuǎn)回需要更多的時間以及存在跳轉(zhuǎn)失敗的問題。
- Bots,部分機器人可能不在http-equiv="refresh"的頁面跳轉(zhuǎn),或者檢測到新頁面后,更高頻地訪問新頁面。
- 解決辦法
- 服務(wù)端解決。
- 如果沒法在服務(wù)端解決,則對兩組都同樣進行重定位。
- 造成SRM的原因
- 有損的數(shù)據(jù)收集組件
- 舉例:同一個組件(比如信用卡付款廣告)放在首頁和付款頁,可能因為首頁表現(xiàn)較差,導(dǎo)致首頁的點擊被收集/成功曝光/加載時機等原因,最終導(dǎo)致SRM。
- 遺留效應(yīng)
- 新特性上線存在bug, bug即使修復(fù)已經(jīng)影響用戶體驗。
- 實驗組的用戶受到之前實驗策略的影響,表現(xiàn)與對照組不同。
- 解決方案:A/A實驗和主動重隨機分配。
- 較差的Hash系統(tǒng)
- 實驗策略引起的SRM
- 假如給超過三個月未活躍用戶發(fā)放優(yōu)惠券郵件提醒,該策略有效。那么下次迭代就會受到SRM影響。(z:不會進行re-randomize嗎?)
- 不同時段的帶來的差異
- 策略下放的時間不同會帶來差異,比如美團外賣在下午四點和6點分別在兩組發(fā)放5元優(yōu)惠券和10元優(yōu)惠券,一比較最后的revenue-per-user
- 數(shù)據(jù)清洗帶來的影響。
- 一般數(shù)據(jù)清洗都會有一些基于過去經(jīng)驗的過濾條件,比如播放時長大于特定值的播放上報被過濾,但實驗組的新特性可能導(dǎo)致這些過濾條件失效,最終導(dǎo)致實驗組部分真實用戶的數(shù)據(jù)被濾除。
4. 對外部有效性的威脅
外部有效性的含義
- 實驗效果能否在人群和時間維度擴展的情況下,依然有效
人群擴展的效果確認方法
- 新的實驗
時間維度的拓展
時間維度的拓展通常通過延長實驗的時長至數(shù)月(保留1%的對照組)來觀察。導(dǎo)致時間維度偏差的兩大因素是首要效應(yīng)和新奇效應(yīng)。
- 首要效應(yīng)(primacy effect,個人理解應(yīng)該叫先前效應(yīng))
- 用戶對于產(chǎn)品改變需要適應(yīng)時間,可能用戶更加依賴之前產(chǎn)品的使用方法和路徑。
- 新奇效應(yīng)
- 含義:當引入新feature時,尤其是比較容易注意的改動,在一開始人們會好奇這是什么而去使用它,但這種參與度是沒法持久的。
- 解決方法
- 繪制用戶按時間的參與度,以觀察是否存在衰減趨勢。如果明顯衰減,可以延長時間以觀察趨于平緩后是否仍然存在顯著效果。
- CHAP23介紹更多新奇效應(yīng)的內(nèi)容
5. 人群差異
一些不錯的分組方法(維度)
- 地理位置:國家,地區(qū),語言。
- 設(shè)備或平臺:系統(tǒng)平臺:ios/android,手機品牌,瀏覽器種類,app版本等。
- 時間:time of day/ day of week
- 用戶類型:活躍度,是否新用戶
- 用戶屬性:Netflix個人賬戶或家庭賬戶等
z:這些維度也是在非a/b實驗的平常數(shù)據(jù)監(jiān)控和展示時常關(guān)注的。
實驗中分組查看數(shù)據(jù)常有兩種方法:
- 不分A/B對比各組的匯總數(shù)據(jù):不同平臺的CTR。
- 分A/B組查看各組的數(shù)據(jù)
- 這種方式可以帶來更多的見解和發(fā)現(xiàn),譬如新上的功能對新用戶的留存促進顯著而對老用戶無顯著作用,且整體無顯著作用。
分組分析可能會帶來誤解
- 舉例了用戶在不同組別間的流動。
- 因此,分組的特征最好是比較固定的,不會流動,至少保證不受實驗因素而改動。
辛普森悖論
定義
- 在某個條件下的兩組數(shù)據(jù),分別討論都會滿足某種性質(zhì),可一旦合并考慮卻會導(dǎo)致相反的結(jié)論。
特點
- 整體被分配到兩個組別時,在分組的特征上兩組的分布是不均衡的。