第3章:Twyman 法則 以及 實驗可信程度 || 《可信的線上受控實驗 》|| Trustworthy online controlled experiments

Twyman法則:數(shù)據(jù)越不尋?;蛟接腥?,越可能存在錯誤。

1. 對統(tǒng)計結(jié)果的一些錯誤解釋(misinterpretation)

缺乏統(tǒng)計功效(β)

  • 功效釋義:如果確實存在假設(shè)差異,差異在當前樣本量下被檢測到的概率。
  • 如果實驗效果只對部分用戶生效,那么只關(guān)注這部分用戶的指標是很重要的。因為即使對生效用戶產(chǎn)生極大效果的改動,稀釋到全局也會效果極為微小。

誤解了p值

  • p值正確含義:假設(shè)原假設(shè)正確的情況下,得到與實驗相等或更極端的結(jié)果的概率。
  • 常見誤解1:p=0.05代表原假設(shè)只有0.05的概率為真
  • 常見誤解2:實驗結(jié)果不顯著(p>0.05)表示組別間無差異
    • 釋義:置信區(qū)間內(nèi)的任何值都有可能。
  • 常見誤解3:p=0.05表示
  • 常見誤解4:p=0.05表示錯誤拒絕原假設(shè)(false positive)的概率是0.05。
    • 書中釋義:計算FP(p<0.05且原假設(shè)仍為真)的概率,需要一些先驗概率并使用貝葉斯定理計算。
    • 過往的常見說法:實現(xiàn)會定義顯著性水平(significant level)記作α,在實驗開始前,α就是第一類錯誤的概率。(如果假設(shè)檢驗結(jié)論拒絕H0,發(fā)生I型錯誤的概率為5%或1%,即100次拒絕H0的結(jié)論中,平均有5次或1次是錯誤的。)
    • 個人理解:置信水平是在實驗前設(shè)置的參數(shù),而p是實驗結(jié)束后計算得到的指標值。而書中表示的應(yīng)該是實驗結(jié)束后已經(jīng)計算得到p值,根據(jù)目前的信息,假正率是多少。

p值偷窺:持續(xù)觀察p值,并在p值小于

  • 有一些支持持續(xù)觀察p值的方法:《Continuous Monitoring of A/B Tests without Pain: Optional Stopping in Bayesian Testing》
  • 互聯(lián)網(wǎng)公司一般提前計算好需要的樣本量和運行時長,比如整周等。

多重假設(shè)檢驗:多重比較問題

一些常見的錯誤:

  1. 觀察多個指標(其中一個有效就認為實驗?zāi)芴嵘@個指標)
  2. p值偷窺
  3. 觀察部分用戶,比如只觀察特定國家,性別,活躍度分組用戶。
  4. 觀察一連串的實驗

(CHAP17如何解決多重測試的問題)

2. 置信區(qū)間

  • 釋義:量化實驗效應(yīng),而置信水平表示置信區(qū)間需要涵蓋多寬的實驗效應(yīng)。對于兩組無差異的原假設(shè),如果95%的置信區(qū)間不包含0,則說明p<0.05。
  • 常見的兩個誤解:
    1. 分開看實驗組和對照組,如果對照和實驗兩組的置信區(qū)間有重疊,則說明兩者沒有顯著差異。
    2. 95%的置信區(qū)間表示進行多次實驗,有95%的比例會包含真正的實驗影響值。對于特定的一次實驗,要么包含,要么不包含。

3. 內(nèi)部有效性的一些威脅

內(nèi)部有效性的含義

  • 不推廣人群和時間,只論當前實驗涵蓋人群和時間的有效性。

SUTVA的不穩(wěn)定

  • SUTVA (Stable Unit Treatment Value Assumption):實驗單位不收其他用戶的影響的假設(shè)。

  • 影響該假設(shè)的的一些情況

    • 社交網(wǎng)絡(luò)的泄露(給特定用戶發(fā)券在社交網(wǎng)絡(luò)傳播)
    • IM軟件:微信表情新特性對ios特定版本用戶開放,會影響到非開放用戶的信息數(shù)等。
    • 有協(xié)作能力的SaaS:飛書,騰訊文檔等。
    • 雙邊市場:咸魚,滴滴。比如給滴滴部分用戶發(fā)券會可能導(dǎo)致被發(fā)券用戶提升消費量,而滴滴可用車減小,價格上升,對照組用戶成功下單量減小等。
    • 資源共享的情況:實驗組上線新特性,后臺資源問題導(dǎo)致全部用戶的加載時間變長。

    (chap22介紹處理這些問題的方法)

幸存者偏差

  • 分析活躍了一段時間的用戶會帶來幸存者偏差。

治療意向效應(yīng)(intetion-to-treat)

  • 源自醫(yī)學(xué)治療,如果用戶因為知曉副作用等因素選擇不進行治療,如果最終只分析接受治療的病人,那么則會帶來選擇偏差。為避免效應(yīng),可以分析提供了治療建議的全部用戶而非受療用戶。

樣本比率偏差問題(Sample Ratio Mismatch, SRM)

  • 實驗組進行重導(dǎo)向(頁面跳轉(zhuǎn))
    • 造成SRM的原因
      1. 性能表現(xiàn)差異,頁面跳轉(zhuǎn)回需要更多的時間以及存在跳轉(zhuǎn)失敗的問題。
      2. Bots,部分機器人可能不在http-equiv="refresh"的頁面跳轉(zhuǎn),或者檢測到新頁面后,更高頻地訪問新頁面。
    • 解決辦法
      1. 服務(wù)端解決。
      2. 如果沒法在服務(wù)端解決,則對兩組都同樣進行重定位。
  • 有損的數(shù)據(jù)收集組件
    • 舉例:同一個組件(比如信用卡付款廣告)放在首頁和付款頁,可能因為首頁表現(xiàn)較差,導(dǎo)致首頁的點擊被收集/成功曝光/加載時機等原因,最終導(dǎo)致SRM。
  • 遺留效應(yīng)
    • 新特性上線存在bug, bug即使修復(fù)已經(jīng)影響用戶體驗。
    • 實驗組的用戶受到之前實驗策略的影響,表現(xiàn)與對照組不同。
    • 解決方案:A/A實驗和主動重隨機分配。
  • 較差的Hash系統(tǒng)
  • 實驗策略引起的SRM
    • 假如給超過三個月未活躍用戶發(fā)放優(yōu)惠券郵件提醒,該策略有效。那么下次迭代就會受到SRM影響。(z:不會進行re-randomize嗎?)
  • 不同時段的帶來的差異
    • 策略下放的時間不同會帶來差異,比如美團外賣在下午四點和6點分別在兩組發(fā)放5元優(yōu)惠券和10元優(yōu)惠券,一比較最后的revenue-per-user
  • 數(shù)據(jù)清洗帶來的影響。
    • 一般數(shù)據(jù)清洗都會有一些基于過去經(jīng)驗的過濾條件,比如播放時長大于特定值的播放上報被過濾,但實驗組的新特性可能導(dǎo)致這些過濾條件失效,最終導(dǎo)致實驗組部分真實用戶的數(shù)據(jù)被濾除。

4. 對外部有效性的威脅

外部有效性的含義

  • 實驗效果能否在人群和時間維度擴展的情況下,依然有效

人群擴展的效果確認方法

  • 新的實驗

時間維度的拓展

時間維度的拓展通常通過延長實驗的時長至數(shù)月(保留1%的對照組)來觀察。導(dǎo)致時間維度偏差的兩大因素是首要效應(yīng)和新奇效應(yīng)。

  • 首要效應(yīng)(primacy effect,個人理解應(yīng)該叫先前效應(yīng))
    • 用戶對于產(chǎn)品改變需要適應(yīng)時間,可能用戶更加依賴之前產(chǎn)品的使用方法和路徑。
  • 新奇效應(yīng)
    • 含義:當引入新feature時,尤其是比較容易注意的改動,在一開始人們會好奇這是什么而去使用它,但這種參與度是沒法持久的。
    • 解決方法
      1. 繪制用戶按時間的參與度,以觀察是否存在衰減趨勢。如果明顯衰減,可以延長時間以觀察趨于平緩后是否仍然存在顯著效果。
      2. CHAP23介紹更多新奇效應(yīng)的內(nèi)容

5. 人群差異

一些不錯的分組方法(維度)

  1. 地理位置:國家,地區(qū),語言。
  2. 設(shè)備或平臺:系統(tǒng)平臺:ios/android,手機品牌,瀏覽器種類,app版本等。
  3. 時間:time of day/ day of week
  4. 用戶類型:活躍度,是否新用戶
  5. 用戶屬性:Netflix個人賬戶或家庭賬戶等

z:這些維度也是在非a/b實驗的平常數(shù)據(jù)監(jiān)控和展示時常關(guān)注的。

實驗中分組查看數(shù)據(jù)常有兩種方法:

  1. 不分A/B對比各組的匯總數(shù)據(jù):不同平臺的CTR。
  2. 分A/B組查看各組的數(shù)據(jù)
    1. 這種方式可以帶來更多的見解和發(fā)現(xiàn),譬如新上的功能對新用戶的留存促進顯著而對老用戶無顯著作用,且整體無顯著作用。

分組分析可能會帶來誤解

  • 舉例了用戶在不同組別間的流動。
  • 因此,分組的特征最好是比較固定的,不會流動,至少保證不受實驗因素而改動。

辛普森悖論

定義

  • 在某個條件下的兩組數(shù)據(jù),分別討論都會滿足某種性質(zhì),可一旦合并考慮卻會導(dǎo)致相反的結(jié)論。

特點

  • 整體被分配到兩個組別時,在分組的特征上兩組的分布是不均衡的。
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容