本文介紹A/B實(shí)驗(yàn)中一個(gè)常見的錯(cuò)誤——多重檢驗(yàn)錯(cuò)誤,它經(jīng)常影響實(shí)驗(yàn)得到錯(cuò)誤的結(jié)論。相關(guān)數(shù)學(xué)推導(dǎo)放在文末,跳過不影響理解。
錯(cuò)誤案例
讓我們從先看一個(gè)例子:軟糖會(huì)導(dǎo)致粉刺么?

如圖,各實(shí)驗(yàn)組食用不同顏色軟糖,綠色軟糖組粉刺情況與對(duì)照組顯著改變(p < 0.05),似乎可以得到綠色軟糖會(huì)影響粉刺。但是各種軟糖成分幾乎是相同的,為什么只有綠色會(huì)影響呢?問題出在哪?
錯(cuò)誤原因
- 假設(shè)檢驗(yàn)通建立在統(tǒng)計(jì)學(xué)原理上,假設(shè)檢驗(yàn)并不能不產(chǎn)生誤判,而是控制誤判在我們預(yù)設(shè)范圍之內(nèi),稱為假陽(yáng)性錯(cuò)誤(α水平,一般選在5%)
- 每次驗(yàn)證都會(huì)有錯(cuò)誤的概率,因此只要檢驗(yàn)次數(shù)增加,遇到至少一次錯(cuò)誤的概率也會(huì)增加。
案例分析
上面的例子中,把各種顏色的糖作為不同實(shí)驗(yàn)組,與對(duì)照組進(jìn)行對(duì)比。假設(shè)有20種糖,假陽(yáng)性水平控制為5%,預(yù)期得到的顯著結(jié)果為 20 * 5% = 1。我們很容易發(fā)現(xiàn)某種顏色糖果“似乎”與粉刺有關(guān)系,然而這是錯(cuò)誤的。
如何避免
1. 合理的設(shè)計(jì)實(shí)驗(yàn)
設(shè)計(jì)實(shí)驗(yàn)前充分分析、調(diào)查,針對(duì)相關(guān)可能最大的因素進(jìn)行實(shí)驗(yàn),避免大量無(wú)用因素干擾得到錯(cuò)誤結(jié)論。
宗旨:盡量減少檢驗(yàn)次數(shù),降低犯錯(cuò)概率
- 控制實(shí)驗(yàn)組盡可能少
不同顏色軟糖對(duì)粉刺的影響不應(yīng)該有區(qū)別,因此只需要設(shè)計(jì)一組實(shí)驗(yàn)組。 -
控制指標(biāo)盡可能少
我們可以同時(shí)檢驗(yàn)軟糖實(shí)驗(yàn)組對(duì)粉刺、喉嚨痛、高血壓...再夸張些,婚姻幸福度、孩子情況...檢驗(yàn)的指標(biāo)越多,得到假陽(yáng)性結(jié)果的可能性同樣上升(吃軟糖與生女孩相關(guān)明顯是荒謬的)。
2. 多次檢驗(yàn)校正
統(tǒng)計(jì)學(xué)領(lǐng)域已經(jīng)發(fā)明了一些方法來(lái)對(duì)多次檢驗(yàn)進(jìn)行校正。主要思想是檢驗(yàn)次數(shù)越多,就要對(duì)顯著采用更嚴(yán)格的限制,但是都會(huì)導(dǎo)致power的損失,降低發(fā)現(xiàn)率。常用方式:Bonferroni correction、Holm–Bonferroni method。
缺點(diǎn):會(huì)導(dǎo)致power有所損失(特別是檢驗(yàn)結(jié)果不獨(dú)立時(shí))。
3. 實(shí)驗(yàn)后分析
顯著不等于一定正確。實(shí)驗(yàn)后需要對(duì)實(shí)驗(yàn)進(jìn)行因果分析,結(jié)果需要可合理解釋(不是編故事)。如果采用了多次檢驗(yàn)校正,還需要考慮假陰性問題。
總結(jié)
明確概念,顯著 ≠ 正確。
謹(jǐn)慎設(shè)計(jì)實(shí)驗(yàn),盡量規(guī)避多重檢驗(yàn)問題,必要情況下通過統(tǒng)計(jì)學(xué)方法校正。
多重檢驗(yàn)校正方法推導(dǎo)
符號(hào)定義

- m:總檢驗(yàn)假設(shè)數(shù)
- m0:零假設(shè)正確的數(shù)量,我們無(wú)法得知
- m - m0:備擇假設(shè)正確的數(shù)量
- V:假陽(yáng)性結(jié)論數(shù)量
- S:真陽(yáng)性數(shù)量
- T:假陰性數(shù)量
- U:真陰性數(shù)量
- R = V + S:拒絕零假設(shè)數(shù)量
在m個(gè)假設(shè)檢驗(yàn)中,m0個(gè)零假設(shè)為真,R是觀察到的顯著情況的隨機(jī)變量,S、T、U、V都是不可觀測(cè)的隨機(jī)變量。
相關(guān)推導(dǎo)
如果m次檢驗(yàn)是獨(dú)立的,則產(chǎn)生假陽(yáng)性的概率為:
如果檢驗(yàn)不是獨(dú)立的,仍然有:
Bonferroni correction
方法:將每次檢驗(yàn)的顯著性從調(diào)整為
=
原理:根據(jù)上述不等式,則有 ,因此可以有效將假陽(yáng)性水平控制在預(yù)設(shè)之內(nèi)。
優(yōu)點(diǎn):簡(jiǎn)單好理解。
缺點(diǎn):由于條件過于嚴(yán)格,假陰性錯(cuò)誤率升高。
Holm–Bonferroni method
方法:將得到的P值從小到大排序記序號(hào)為i(1 ~ m),從i = 1開始與 比較,小于就繼續(xù)比較下一個(gè)。直到找出不符合條件的i(也可能不存在) ,i之前的全部認(rèn)為顯著,i及i之后的全部不顯著。
原理:
- 將p值從大到小排序;
- 我們只需要關(guān)心P值最小的第一個(gè)零假設(shè)為真的情況:如果被拒絕,產(chǎn)生假陽(yáng)性;否則,比較過程停止,未產(chǎn)生假陽(yáng)性;
- 設(shè)第一個(gè)零假設(shè)為真的比較序號(hào)為h,則共有h - 1次正確的拒絕零假設(shè),則:
本次拒絕零假設(shè)條件為(a);
(正確拒絕的次數(shù),一定小于等于備擇假設(shè)為真的次數(shù));
推出(b);
不等式兩邊乘以,得到(a)
。
- 根據(jù)相關(guān)推導(dǎo)中結(jié)論,單次比較
,又
種等可能情況,則:
![]()
優(yōu)點(diǎn):相對(duì)簡(jiǎn)單,假陰性錯(cuò)誤率小于等于Bonferroni correction。
缺點(diǎn):假陰性依然高于預(yù)設(shè)(尤其是在檢驗(yàn)結(jié)果相關(guān)情況下)。
