進(jìn)行線上ab實(shí)驗(yàn)時(shí),為了確認(rèn)結(jié)果可信,用戶常常會(huì)復(fù)驗(yàn)前一階段的實(shí)驗(yàn)。此時(shí)經(jīng)常遇到復(fù)驗(yàn)與原實(shí)驗(yàn)結(jié)果不完全統(tǒng)一,如何綜合評(píng)估實(shí)驗(yàn)效果?薈萃分析可以解決此類問題。
本文僅簡(jiǎn)介固定效果假設(shè)下關(guān)于P值合并的部分。
什么是薈萃分析
通過統(tǒng)計(jì)學(xué)方法將多次實(shí)驗(yàn)結(jié)果合并進(jìn)行分析。
為什么需要薈萃分析
當(dāng)存在多個(gè)針對(duì)同一問題的科學(xué)研究時(shí),每個(gè)單獨(dú)的研究報(bào)告的測(cè)量結(jié)果都可能存在一定程度的誤差。通過合理的方式將多次實(shí)驗(yàn)結(jié)果合并,理論上會(huì)有更接近真實(shí)的評(píng)估。
可以解決什么樣的問題
- 單次實(shí)驗(yàn)power不足
由于種種限制,可能沒辦法單次實(shí)驗(yàn)中提供充足的樣本。對(duì)其重復(fù)實(shí)驗(yàn)并進(jìn)行薈萃可以得到更大的power。 - 降低假陽(yáng)性
常常第一次實(shí)驗(yàn)顯著,而復(fù)驗(yàn)實(shí)驗(yàn)并不顯著,那么干預(yù)是否有效果?薈萃分析提供了科學(xué)的方法進(jìn)行分析,降低了可能的主觀選擇性偏差。
常用方法
-
Fisher's method
如果兩次實(shí)驗(yàn)p值分別為p1、p2。進(jìn)行在零假設(shè)時(shí),它們獨(dú)立,并服從0~1的均勻分布,則兩次實(shí)驗(yàn)合并的p值為:
Fisher將其擴(kuò)展到更一般場(chǎng)景,對(duì)k次實(shí)驗(yàn)結(jié)果進(jìn)行合并后服從自由度為2k的卡方分布:

-
Stouffer’s method(z值合并)
此處直接介紹加權(quán)的方法。
先將值逆計(jì)算為
,則
。多個(gè)
加權(quán)相加后,依然服從正態(tài)分布,則:
為什么會(huì)有權(quán)重呢?假如每次實(shí)驗(yàn)重視程度不同,那么它們結(jié)果按重要性來加權(quán)是很自然的。
如何選擇權(quán)重?如果實(shí)驗(yàn)干預(yù)、受眾相同,建議使用樣本量的平方根做權(quán)重。
單樣本兩次實(shí)驗(yàn)的例子:
檢驗(yàn)是否為0,做了兩次實(shí)驗(yàn)分別采集到
,樣本量為
,樣本方差同為
,此時(shí)如果
,則可推出
即兩次實(shí)驗(yàn)結(jié)果,與將原數(shù)據(jù)匯總計(jì)算結(jié)果相同。
薈萃方法比較
Whitlock, 2005的研究表明,上述兩種薈萃方法,具有相同的假陽(yáng)性控制水平,但是加權(quán)Z值合并法有更高的功效

總結(jié)
這種方法的主要好處是信息的匯總,比任何單獨(dú)研究得出的指標(biāo)所能提供的統(tǒng)計(jì)能力和點(diǎn)估計(jì)值都更高。
但是對(duì)幾個(gè)小型研究的薈萃分析并不總是能預(yù)測(cè)單個(gè)大型研究的結(jié)果。該方法的一個(gè)缺點(diǎn)是偏倚的來源不受該方法的控制:良好的薈萃分析不能糾正原始研究中不良的設(shè)計(jì)或偏倚。這意味著在薈萃分析中只應(yīng)包括方法論上合理的研究,這種實(shí)踐稱為“最佳證據(jù)綜合”。