Twyman法則：數(shù)據(jù)越不尋?；蛟接腥?，越可能存在錯誤。

1. 對統(tǒng)計結(jié)果的一些錯誤解釋(misinterpretation)

缺乏統(tǒng)計功效（β）

功效釋義：如果確實存在假設(shè)差異，差異在當前樣本量下被檢測到的概率。
如果實驗效果只對部分用戶生效，那么只關(guān)注這部分用戶的指標是很重要的。因為即使對生效用戶產(chǎn)生極大效果的改動，稀釋到全局也會效果極為微小。

誤解了p值

p值正確含義：假設(shè)原假設(shè)正確的情況下，得到與實驗相等或更極端的結(jié)果的概率。
常見誤解1：p=0.05代表原假設(shè)只有0.05的概率為真
常見誤解2：實驗結(jié)果不顯著（p>0.05）表示組別間無差異
- 釋義：置信區(qū)間內(nèi)的任何值都有可能。
常見誤解3：p=0.05表示
常見誤解4：p=0.05表示錯誤拒絕原假設(shè)（false positive)的概率是0.05。
- 書中釋義：計算FP（p<0.05且原假設(shè)仍為真）的概率，需要一些先驗概率并使用貝葉斯定理計算。
- 過往的常見說法：實現(xiàn)會定義顯著性水平（significant level)記作α，在實驗開始前，α就是第一類錯誤的概率。（如果假設(shè)檢驗結(jié)論拒絕H0，發(fā)生I型錯誤的概率為5%或1%，即100次拒絕H0的結(jié)論中，平均有5次或1次是錯誤的。）
- 個人理解：置信水平是在實驗前設(shè)置的參數(shù)，而p是實驗結(jié)束后計算得到的指標值。而書中表示的應(yīng)該是實驗結(jié)束后已經(jīng)計算得到p值，根據(jù)目前的信息，假正率是多少。

p值偷窺：持續(xù)觀察p值，并在p值小于

有一些支持持續(xù)觀察p值的方法：《Continuous Monitoring of A/B Tests without Pain: Optional Stopping in Bayesian Testing》
互聯(lián)網(wǎng)公司一般提前計算好需要的樣本量和運行時長，比如整周等。

多重假設(shè)檢驗：多重比較問題

一些常見的錯誤：

觀察多個指標（其中一個有效就認為實驗?zāi)芴嵘@個指標）
p值偷窺
觀察部分用戶，比如只觀察特定國家，性別，活躍度分組用戶。
觀察一連串的實驗

（CHAP17如何解決多重測試的問題)

2. 置信區(qū)間

釋義：量化實驗效應(yīng)，而置信水平表示置信區(qū)間需要涵蓋多寬的實驗效應(yīng)。對于兩組無差異的原假設(shè)，如果95%的置信區(qū)間不包含0，則說明p<0.05。
常見的兩個誤解：
1. 分開看實驗組和對照組，如果對照和實驗兩組的置信區(qū)間有重疊，則說明兩者沒有顯著差異。
2. 95%的置信區(qū)間表示進行多次實驗，有95%的比例會包含真正的實驗影響值。對于特定的一次實驗，要么包含，要么不包含。

3. 內(nèi)部有效性的一些威脅

內(nèi)部有效性的含義

不推廣人群和時間，只論當前實驗涵蓋人群和時間的有效性。

SUTVA的不穩(wěn)定

SUTVA (Stable Unit Treatment Value Assumption)：實驗單位不收其他用戶的影響的假設(shè)。
影響該假設(shè)的的一些情況
- 社交網(wǎng)絡(luò)的泄露（給特定用戶發(fā)券在社交網(wǎng)絡(luò)傳播）
- IM軟件：微信表情新特性對ios特定版本用戶開放，會影響到非開放用戶的信息數(shù)等。
- 有協(xié)作能力的SaaS：飛書，騰訊文檔等。
- 雙邊市場：咸魚，滴滴。比如給滴滴部分用戶發(fā)券會可能導(dǎo)致被發(fā)券用戶提升消費量，而滴滴可用車減小，價格上升，對照組用戶成功下單量減小等。
- 資源共享的情況：實驗組上線新特性，后臺資源問題導(dǎo)致全部用戶的加載時間變長。
(chap22介紹處理這些問題的方法）

幸存者偏差

分析活躍了一段時間的用戶會帶來幸存者偏差。

治療意向效應(yīng)(intetion-to-treat)

源自醫(yī)學(xué)治療，如果用戶因為知曉副作用等因素選擇不進行治療，如果最終只分析接受治療的病人，那么則會帶來選擇偏差。為避免效應(yīng)，可以分析提供了治療建議的全部用戶而非受療用戶。

樣本比率偏差問題(Sample Ratio Mismatch, SRM)

實驗組進行重導(dǎo)向（頁面跳轉(zhuǎn)）
- 造成SRM的原因
  1. 性能表現(xiàn)差異，頁面跳轉(zhuǎn)回需要更多的時間以及存在跳轉(zhuǎn)失敗的問題。
  2. Bots，部分機器人可能不在http-equiv="refresh"的頁面跳轉(zhuǎn)，或者檢測到新頁面后，更高頻地訪問新頁面。
- 解決辦法
  1. 服務(wù)端解決。
  2. 如果沒法在服務(wù)端解決，則對兩組都同樣進行重定位。
有損的數(shù)據(jù)收集組件
- 舉例：同一個組件（比如信用卡付款廣告）放在首頁和付款頁，可能因為首頁表現(xiàn)較差，導(dǎo)致首頁的點擊被收集/成功曝光/加載時機等原因，最終導(dǎo)致SRM。
遺留效應(yīng)
- 新特性上線存在bug, bug即使修復(fù)已經(jīng)影響用戶體驗。
- 實驗組的用戶受到之前實驗策略的影響，表現(xiàn)與對照組不同。
- 解決方案：A/A實驗和主動重隨機分配。
較差的Hash系統(tǒng)
實驗策略引起的SRM
- 假如給超過三個月未活躍用戶發(fā)放優(yōu)惠券郵件提醒，該策略有效。那么下次迭代就會受到SRM影響。（z:不會進行re-randomize嗎？）
不同時段的帶來的差異
- 策略下放的時間不同會帶來差異，比如美團外賣在下午四點和6點分別在兩組發(fā)放5元優(yōu)惠券和10元優(yōu)惠券，一比較最后的revenue-per-user
數(shù)據(jù)清洗帶來的影響。
- 一般數(shù)據(jù)清洗都會有一些基于過去經(jīng)驗的過濾條件，比如播放時長大于特定值的播放上報被過濾，但實驗組的新特性可能導(dǎo)致這些過濾條件失效，最終導(dǎo)致實驗組部分真實用戶的數(shù)據(jù)被濾除。

4. 對外部有效性的威脅

外部有效性的含義

實驗效果能否在人群和時間維度擴展的情況下，依然有效

人群擴展的效果確認方法

新的實驗

時間維度的拓展

時間維度的拓展通常通過延長實驗的時長至數(shù)月（保留1%的對照組）來觀察。導(dǎo)致時間維度偏差的兩大因素是首要效應(yīng)和新奇效應(yīng)。

首要效應(yīng)(primacy effect，個人理解應(yīng)該叫先前效應(yīng))
- 用戶對于產(chǎn)品改變需要適應(yīng)時間，可能用戶更加依賴之前產(chǎn)品的使用方法和路徑。
新奇效應(yīng)
- 含義：當引入新feature時，尤其是比較容易注意的改動，在一開始人們會好奇這是什么而去使用它，但這種參與度是沒法持久的。
- 解決方法
  1. 繪制用戶按時間的參與度，以觀察是否存在衰減趨勢。如果明顯衰減，可以延長時間以觀察趨于平緩后是否仍然存在顯著效果。
  2. CHAP23介紹更多新奇效應(yīng)的內(nèi)容

5. 人群差異

一些不錯的分組方法(維度）

地理位置：國家，地區(qū)，語言。
設(shè)備或平臺：系統(tǒng)平臺：ios/android，手機品牌，瀏覽器種類，app版本等。
時間：time of day/ day of week
用戶類型：活躍度，是否新用戶
用戶屬性：Netflix個人賬戶或家庭賬戶等

z：這些維度也是在非a/b實驗的平常數(shù)據(jù)監(jiān)控和展示時常關(guān)注的。

實驗中分組查看數(shù)據(jù)常有兩種方法：

不分A/B對比各組的匯總數(shù)據(jù)：不同平臺的CTR。
分A/B組查看各組的數(shù)據(jù)
1. 這種方式可以帶來更多的見解和發(fā)現(xiàn)，譬如新上的功能對新用戶的留存促進顯著而對老用戶無顯著作用，且整體無顯著作用。

分組分析可能會帶來誤解

舉例了用戶在不同組別間的流動。
因此，分組的特征最好是比較固定的，不會流動，至少保證不受實驗因素而改動。

辛普森悖論

定義

在某個條件下的兩組數(shù)據(jù)，分別討論都會滿足某種性質(zhì)，可一旦合并考慮卻會導(dǎo)致相反的結(jié)論。

特點

整體被分配到兩個組別時，在分組的特征上兩組的分布是不均衡的。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

第3章：Twyman 法則以及實驗可信程度 || 《可信的線上受控實驗》|| Trustworthy online controlled experiments

第3章：Twyman 法則以及實驗可信程度 || 《可信的線上受控實驗》|| Trustworthy online controlled experiments

1. 對統(tǒng)計結(jié)果的一些錯誤解釋(misinterpretation)

缺乏統(tǒng)計功效（β）

誤解了p值

p值偷窺：持續(xù)觀察p值，并在p值小于

多重假設(shè)檢驗：多重比較問題

2. 置信區(qū)間

3. 內(nèi)部有效性的一些威脅

內(nèi)部有效性的含義

SUTVA的不穩(wěn)定

幸存者偏差

治療意向效應(yīng)(intetion-to-treat)

樣本比率偏差問題(Sample Ratio Mismatch, SRM)

4. 對外部有效性的威脅

外部有效性的含義

人群擴展的效果確認方法

時間維度的拓展

5. 人群差異

一些不錯的分組方法(維度）

分組分析可能會帶來誤解

辛普森悖論

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

第3章：Twyman 法則 以及 實驗可信程度 || 《可信的線上受控實驗 》|| Trustworthy online controlled experiments

1. 對統(tǒng)計結(jié)果的一些錯誤解釋(misinterpretation)

缺乏統(tǒng)計功效（β）

誤解了p值

p值偷窺：持續(xù)觀察p值，并在p值小于

多重假設(shè)檢驗：多重比較問題

2. 置信區(qū)間

3. 內(nèi)部有效性的一些威脅

內(nèi)部有效性的含義

SUTVA的不穩(wěn)定

幸存者偏差

治療意向效應(yīng)(intetion-to-treat)

樣本比率偏差問題(Sample Ratio Mismatch, SRM)

4. 對外部有效性的威脅

外部有效性的含義

人群擴展的效果確認方法

時間維度的拓展

5. 人群差異

一些不錯的分組方法(維度）

分組分析可能會帶來誤解

辛普森悖論

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

第3章：Twyman 法則以及實驗可信程度 || 《可信的線上受控實驗》|| Trustworthy online controlled experiments