[TOCE] 33 P5-C17-S1 在線受控實(shí)驗(yàn)背后的統(tǒng)計(jì)方法

Trustworthy Online Controlled Experiments Part 5 Chap 17


第五部分 實(shí)驗(yàn)分析的高級(jí)話題

第五部分包括七個(gè)高級(jí)分析主題,主要針對(duì)數(shù)據(jù)科學(xué)家和愿意深入了解受控實(shí)驗(yàn)的的人員。

我們從在線控制實(shí)驗(yàn)背后的統(tǒng)計(jì)學(xué)開(kāi)始,該統(tǒng)計(jì)數(shù)據(jù)概述了t檢驗(yàn),p值和置信區(qū)間計(jì)算,正態(tài)性假設(shè),統(tǒng)計(jì)功效以及I / II型錯(cuò)誤。它涵蓋了多種測(cè)試和費(fèi)舍爾的薈萃分析方法。

下一章是方差估計(jì)和改進(jìn)的靈敏度:陷阱和解決方案,我們從標(biāo)準(zhǔn)公式開(kāi)始,隨后展示了一個(gè)非常常見(jiàn)的陷阱,需要使用增量法。然后,我們回顧了減少方差的方法,從而提高了實(shí)驗(yàn)的靈敏度。

A / A測(cè)試涵蓋了提高實(shí)驗(yàn)系統(tǒng)的可信度并發(fā)現(xiàn)軟件或使用的統(tǒng)計(jì)信息中的實(shí)際問(wèn)題和錯(cuò)誤的最佳方法。借助于 A / A測(cè)試,我們發(fā)現(xiàn)了許多陷阱。

提高觸發(fā)靈敏度的一章詳細(xì)介紹了關(guān)鍵概念-觸發(fā)。因?yàn)椴⒎敲總€(gè)實(shí)驗(yàn)都會(huì)影響所有用戶,所以可以通過(guò)減少可能沒(méi)有受到影響的用戶的噪音來(lái)提高敏感性。隨著組織的成熟,觸發(fā)的使用也在增長(zhǎng),隨之而來(lái)的是有助于分析和調(diào)試的工具。

接下一章著眼于樣本比率不匹配(SRM)和其他與信任相關(guān)的護(hù)欄指標(biāo)。 SRM在實(shí)踐中很常見(jiàn),當(dāng)存在SRM時(shí),結(jié)果看起來(lái)非常正面或極端負(fù)面,但是是不可信的。自動(dòng)運(yùn)行這種測(cè)試(和其他測(cè)試)對(duì)于結(jié)果的可信賴(lài)性至關(guān)重要。

在某些現(xiàn)實(shí)環(huán)境中,例如多邊市場(chǎng)和社交網(wǎng)絡(luò),實(shí)驗(yàn)版本可能會(huì)泄漏信息,這是我們?cè)诓煌姹局g的泄漏和干擾中涉及的主題。

在結(jié)束時(shí)提出了一個(gè)仍在研究中的重要問(wèn)題:測(cè)量長(zhǎng)期效果。我們嘗試提幾種實(shí)驗(yàn)設(shè)計(jì)來(lái)解決這一目標(biāo)。

在線受控實(shí)驗(yàn)背后的統(tǒng)計(jì)方法

吸煙是統(tǒng)計(jì)學(xué)出現(xiàn)的主要原因
– Fletcher Knebel

為什么重要

統(tǒng)計(jì)是設(shè)計(jì)和分析實(shí)驗(yàn)的基礎(chǔ)。

本章介紹幾種統(tǒng)計(jì)概念,并且將深入探討對(duì)實(shí)驗(yàn)至關(guān)重要的統(tǒng)計(jì)學(xué),包括假設(shè)檢驗(yàn)和統(tǒng)計(jì)能力(Lehmann和Romano 2005,Casella和Berger 2001,Kohavi,Longbotham等2009)。

Two-Sample t 檢驗(yàn)

Two-Sample t 檢驗(yàn)(雙樣本t檢驗(yàn)) 是最常見(jiàn)的統(tǒng)計(jì)顯著性檢驗(yàn),用于確定我們看到的治療和控制之間的差異是真實(shí)的還是僅是噪音(Student 1908; Wasserman 2004)。雙樣本t檢驗(yàn)考察了兩個(gè)均值之間的差異相對(duì)于方差的大小。差異的顯著性由p值表示。 p值越低,則表明治療與對(duì)照不同的證據(jù)越強(qiáng)。為了將兩個(gè)樣本的t檢驗(yàn)應(yīng)用于感興趣的度量Y(例如,每個(gè)用戶的查詢),假定在干預(yù)和控制中用戶對(duì)度量的觀察值是隨機(jī)變量Y^{t}Y^{c}的獨(dú)立的。 Null假設(shè)(H_{0})是Y^{t}Y^{c}具有相同的均值,備則假設(shè)(H_{1})是它們均值不相同(請(qǐng)參見(jiàn)公式17.1):

image.png

雙樣本t檢驗(yàn)基于t統(tǒng)計(jì)量T:

image.png

其中,\Delta=\overline{Y^{t}}-\overline{Y^{c}} 是治療平均值和對(duì)照平均值之間的差,平均值的偏移量為無(wú)偏估計(jì)量。由于樣本是獨(dú)立的:

image.png

t統(tǒng)計(jì)量T只是\Delta的歸一化形式。

憑直覺(jué),T越大,均值相同的可能性就越小。換句話說(shuō),T越大越有可能拒絕零假設(shè)。如何量化呢?

p 值 和 置信區(qū)間

有了t統(tǒng)計(jì)量T,就可以計(jì)算p值了,這是如果在治療和控制之間確實(shí)沒(méi)有差異的情況下T至少會(huì)達(dá)到這個(gè)極值的可能性。按照慣例,p值小于0.05的差異都被視為“具有統(tǒng)計(jì)學(xué)意義”,盡管正在進(jìn)行的辯論要求默認(rèn)使用較低的p值(Benjamin等人,2017)。小于0.01的p值被認(rèn)為是非常重要的。

盡管p值是最著名的統(tǒng)計(jì)術(shù)語(yǔ)之一,但它經(jīng)常被誤解。一種常見(jiàn)的誤解是,在觀察到的數(shù)據(jù)給定的情況下,p值會(huì)捕獲Null假設(shè)為真的概率。從表面上看,這是一個(gè)合理的解釋?zhuān)驗(yàn)榇蠖鄶?shù)實(shí)驗(yàn)者都希望他們的干預(yù)方法有效。但是,正確的解釋幾乎相反,真正的解釋是在 Null假設(shè)為真的情況下, 觀察到當(dāng)前的差異的可能性。要了解這兩種解釋有何不同,且有什么關(guān)聯(lián),可以使用貝葉斯規(guī)則將其分解:

image.png

如方程式所示,要根據(jù)收集的數(shù)據(jù)(后驗(yàn)概率)知道Null假設(shè)是否正確,不僅需要p值,還需要Null假設(shè)正確的可能性。

檢查差異是否在統(tǒng)計(jì)上有意義的另一種方法是檢查置信區(qū)間是否包含0值。某些人發(fā)現(xiàn)置信區(qū)間是一種比p值更直觀的方式來(lái)解釋觀察到的增量附近的噪聲和不確定性。 95%的置信區(qū)間是指覆蓋95%的時(shí)間的真實(shí)差異并且等效于0.05的p值的范圍;如果95%置信區(qū)間不包含零或p值小于0.05,則該差異在0.05的顯著性水平上具有統(tǒng)計(jì)學(xué)意義。在大多數(shù)情況下,\delta的置信區(qū)間以觀察到的\delta為中心,并在每一側(cè)延伸約兩個(gè)標(biāo)準(zhǔn)差。對(duì)于(近似)服從正態(tài)分布的所有統(tǒng)計(jì)信息(包括百分比增量),都是如此。

正態(tài)假設(shè)

在大多數(shù)情況下,我們以t統(tǒng)計(jì)量T服從正態(tài)分布為前提來(lái)計(jì)算p值,并且在Null假設(shè)下,分布的均值為0,方差為1。p值只是正態(tài)曲線下的面積,正如第2章中的圖2.1中突出顯示的那樣。許多人誤以為正態(tài)性假設(shè)是度量Y的分布的假設(shè),并認(rèn)為這是一個(gè)糟糕的假設(shè),因?yàn)樵趯?shí)踐中幾乎沒(méi)有度量遵循正態(tài)分布。但是,在大多數(shù)在線實(shí)驗(yàn)中,“對(duì)照”和“治療”的樣本量至少為數(shù)千, 此時(shí),盡管Y的樣本分布不服從正態(tài)分布,但由于中心極限定理(Billingsly 1995),通常采用平均值分布。圖17.1說(shuō)明了從β分布抽取的樣本Y的收斂性。隨著樣本數(shù)量的增加,平均值的分布將變得更正態(tài)分布。

image.png

隨著樣本數(shù)量n的增加,平均值的分布變得越來(lái)越正態(tài)

每個(gè)變量的平均值具有正態(tài)分布所需的最小樣本數(shù)的一個(gè)經(jīng)驗(yàn)法則是 355s^{2}(Kohavi 2014),其中??是度量Y的樣本分布的偏度系數(shù),如公式17.5所定義:

image.png

一些度量標(biāo)準(zhǔn),尤其是收入度量標(biāo)準(zhǔn),往往具有較高的偏度系數(shù)。減少偏度的一種有效方法是轉(zhuǎn)換度量標(biāo)準(zhǔn)或設(shè)置值的上限。例如,在Bing將“每位用戶的每周收入/用戶”設(shè)置為10美元之后,他們發(fā)現(xiàn)偏斜度從18下降到5,而所需的最低樣本量也從114k下降到10k。此經(jīng)驗(yàn)法則為| s |> 1 時(shí)提供了很好的指導(dǎo), 但對(duì)當(dāng)偏度比較小的時(shí)候, 比較無(wú)效。不過(guò),當(dāng)偏斜度較小時(shí),通常需要較少的樣本(Tyurin 2009)。

對(duì)于兩樣本t檢驗(yàn),因?yàn)槟诓榭淳哂邢嗨品植嫉膬蓚€(gè)變量的差異,所以使正態(tài)性假設(shè)合理的樣本數(shù)往往會(huì)減少。如果治療和控制具有相同的流量分配,則尤其如此(Kohavi 2014),因?yàn)椴町惖姆植冀茖?duì)稱(chēng)(在零假設(shè)下,零偏度是完全對(duì)稱(chēng)的)。

如果您想知道樣本量是否足夠大以假定正態(tài)性,請(qǐng)使用脫機(jī)模擬對(duì)其進(jìn)行至少一次測(cè)試。您可以在“治療和控制”中隨機(jī)洗檢樣本以生成零分布,并使用統(tǒng)計(jì)檢驗(yàn)(例如Kolmogorov-Smirnov和Anderson-Darling)將該分布與正態(tài)曲線進(jìn)行比較(Razali和Wah 2011)。由于在假設(shè)檢驗(yàn)中關(guān)注尾分布,因此您也可以通過(guò)僅關(guān)注I型錯(cuò)誤率是否受預(yù)設(shè)閾值(例如0.05)限制來(lái)提高檢驗(yàn)靈敏度。

當(dāng)正態(tài)性假設(shè)失敗時(shí),您可以進(jìn)行置換檢驗(yàn)(Efron和Tibshriani 1994),并觀察相對(duì)于模擬零分布的觀察位置。請(qǐng)注意,即使大規(guī)模進(jìn)行排列測(cè)試非常昂貴,但有時(shí)需要使用較小樣本量的情況,因此在實(shí)踐中效果很好。

I / II型錯(cuò)誤和 Power

任何測(cè)試都會(huì)出錯(cuò)。在假設(shè)檢驗(yàn)中,我們關(guān)心I型和II型錯(cuò)誤。 I型錯(cuò)誤的結(jié)論是,在沒(méi)有實(shí)質(zhì)性差異的情況下,實(shí)驗(yàn)宣稱(chēng)治療與控制之間存在顯著差異。 II型錯(cuò)誤是實(shí)驗(yàn)宣稱(chēng)Null 假設(shè)為真,也就是說(shuō), 實(shí)驗(yàn)沒(méi)有發(fā)現(xiàn)差異, 但是實(shí)際上二者存在差異。 可以預(yù)見(jiàn),p值的閾值選取會(huì)對(duì) I / II型錯(cuò)誤 同時(shí)造成影響, 如果想降低 1型錯(cuò)誤概率, 就會(huì)提高2型錯(cuò)誤的概率, 反之亦然。

II型錯(cuò)誤的概念被稱(chēng)為 Power。Power 是在確實(shí)存在差異時(shí)檢測(cè)變體之間差異的可能性,即拒絕Null 假設(shè)的概率(請(qǐng)參見(jiàn)公式17.6):

image.png

功率通常由實(shí)際應(yīng)用的最小增量δ來(lái)參數(shù)化。在數(shù)學(xué)上,假設(shè)所需的置信度為95%,則公式如公式17.7所示:

image.png

行業(yè)標(biāo)準(zhǔn)是在我們的測(cè)試中至少達(dá)到80%的功率。因此,通常在開(kāi)始實(shí)驗(yàn)之前進(jìn)行功率分析,且需要多少樣本才能獲得足夠的功率。假設(shè)處理組和控制組較小,則可以從上面的功效公式中達(dá)計(jì)算達(dá)到80%功效所需的樣本總數(shù),大約等于公式17.8(van Belle 2008):

image.png

其中,\sigma^{2}是樣本方差,而δ是處理與對(duì)照之間的差異。人們經(jīng)常問(wèn)的一個(gè)問(wèn)題是,他們?cè)谶M(jìn)行實(shí)驗(yàn)之前如何知道\delta ?的確,我們不知道真實(shí)的\delta,這就是進(jìn)行實(shí)驗(yàn)的原因。

但是,我們知道在實(shí)踐中\delta多大才有意義,換句話說(shuō),具有實(shí)際意義的大小。例如,收入相差0.1%的時(shí)候大家不太會(huì)關(guān)心,但是收入下降1%的情況就不行了。在這種情況下,實(shí)際上0.1%無(wú)效,而1%實(shí)際有效。要估算所需的最小樣本量,首先需要確定最小 \delta(也稱(chēng)為最小可檢測(cè)效果)。

對(duì)于在線實(shí)驗(yàn),由于在線用戶的數(shù)量是在一段時(shí)間內(nèi)統(tǒng)計(jì)出來(lái)的,因此樣本大小估算更為復(fù)雜,因此實(shí)驗(yàn)的持續(xù)時(shí)間也對(duì)實(shí)驗(yàn)的實(shí)際樣本大小起著重要作用。取決于隨機(jī)單位,樣本方差\sigma^{2} 也可以隨時(shí)間變化。另一個(gè)挑戰(zhàn)是使用觸發(fā)分析(請(qǐng)參閱第20章),隨著觸發(fā)條件在整個(gè)實(shí)驗(yàn)中的變化,\sigma^{2}\delta值也會(huì)變化。由于這些原因,我們?cè)诘?5章介紹了一種更為實(shí)用的方法,用于確定流量分配和大多數(shù)在線實(shí)驗(yàn)的持續(xù)時(shí)間。

我們要強(qiáng)調(diào)對(duì)Power概念的常見(jiàn)誤解。許多人認(rèn)為功率是測(cè)試的絕對(duì)屬性,卻忘記了它與要檢測(cè)的效果的大小有關(guān)。具有足夠能力檢測(cè)10%差異的實(shí)驗(yàn)不一定具有足夠能力檢測(cè)1%差異。一個(gè)很好的類(lèi)比是“找不同”的游戲。圖17.2證明,相對(duì)于斑點(diǎn)的差異(實(shí)心圓),更容易檢測(cè)到睡蓮葉上的差異(因?yàn)椴町惔螅ㄌ摼€圓)。

image.png

用統(tǒng)計(jì)能力比喻“發(fā)現(xiàn)差異”。

功耗分析與I型和II型錯(cuò)誤緊密相關(guān)。 Gelman和Carlin(2014)認(rèn)為,對(duì)于較小的樣本量設(shè)置,計(jì)算a)估計(jì)方向錯(cuò)誤的可能性(Type S [sign]誤差)和b)影響幅度大小的因素也很重要。效果可能被高估了(類(lèi)型M [幅值]誤差或夸張率)。

偏誤

在實(shí)驗(yàn)結(jié)果中,當(dāng)均值的估計(jì)值和真實(shí)值系統(tǒng)不同時(shí),就會(huì)出現(xiàn)偏差。這可能是由于平臺(tái)錯(cuò)誤,有缺陷的實(shí)驗(yàn)設(shè)計(jì)或無(wú)代表性的樣本(例如公司員工或測(cè)試帳戶)引起的。我們?cè)诘?章中討論了一些預(yù)防和檢測(cè)這些問(wèn)題的例子和建議。

多重實(shí)驗(yàn)

當(dāng)我們?yōu)槊總€(gè)實(shí)驗(yàn)計(jì)算數(shù)百個(gè)指標(biāo),常會(huì)聽(tīng)到實(shí)驗(yàn)者抱怨 “為什么這個(gè)看似無(wú)關(guān)緊要的指標(biāo)很重要?” 這是一種簡(jiǎn)答化的看法。如果為實(shí)驗(yàn)計(jì)算100個(gè)指標(biāo),那么即使不執(zhí)行任何操作,猜猜你仍會(huì)看到多少個(gè)具有統(tǒng)計(jì)意義的指標(biāo)?在顯著性水平為5%的情況下,答案大約為5個(gè)(假設(shè)指標(biāo)是獨(dú)立的)。當(dāng)檢查數(shù)百個(gè)實(shí)驗(yàn)并且每個(gè)實(shí)驗(yàn)進(jìn)行多次迭代時(shí),這個(gè)問(wèn)題會(huì)更嚴(yán)重。當(dāng)并行測(cè)試多個(gè)事物時(shí),錯(cuò)誤發(fā)現(xiàn)的數(shù)量就會(huì)增加。這稱(chēng)為“多重測(cè)試”問(wèn)題。

如何確保在多次測(cè)試中仍能合理控制I型和II型錯(cuò)誤?有許多經(jīng)過(guò)深入研究的方法。但是,大多數(shù)方法要么簡(jiǎn)單但過(guò)于保守,要么復(fù)雜,因此難以實(shí)施。例如,流行的Bonferroni校正使用了一致但較小的p值閾值(0.05除以測(cè)試次數(shù)),這過(guò)于保守。 Benjamini-Hochberg過(guò)程(Hochberg和Benjamini 1995)對(duì)不同的測(cè)試使用不同的p值閾值,這又過(guò)于復(fù)雜。

因此,當(dāng)一個(gè)指標(biāo)出乎意料地重要時(shí),應(yīng)該怎么做?這是一個(gè)簡(jiǎn)單的兩步法則:

1.將所有指標(biāo)分為三組:

  • 一階指標(biāo):希望受到實(shí)驗(yàn)影響的指標(biāo)
  • 二階指標(biāo):可能受到影響的指標(biāo)
  • 三階指標(biāo):那些不太可能受到影響的指標(biāo)。

2.將分層的顯著性水平應(yīng)用于每個(gè)組(例如分別為0.05、0.01和0.001)。

這些經(jīng)驗(yàn)法則基于一個(gè)有趣的貝葉斯解釋?zhuān)哼M(jìn)行實(shí)驗(yàn)之前就相信零假設(shè)(H0)是正確的?信心越強(qiáng),就應(yīng)該使用更加嚴(yán)格的p門(mén)檻。

Fisher 薈萃分析

在第8章中,我們講述了如何利用歷史實(shí)驗(yàn)的薈萃分析, 以進(jìn)行模式識(shí)別,創(chuàng)建和利用機(jī)構(gòu)記憶。在本節(jié)中,我們特別感興趣的是將對(duì)同一假設(shè)進(jìn)行檢驗(yàn)的多個(gè)實(shí)驗(yàn)的結(jié)果進(jìn)行組合。例如,復(fù)現(xiàn)具有令人驚訝結(jié)果的實(shí)驗(yàn)是一種常見(jiàn)的技術(shù)。一般使用正交隨機(jī)分配的用戶進(jìn)行復(fù)現(xiàn)。這兩個(gè)實(shí)驗(yàn)(原始實(shí)驗(yàn)和復(fù)現(xiàn)實(shí)驗(yàn))都產(chǎn)生彼此獨(dú)立的p值。直觀地,如果兩個(gè)p值均小于0.05,比只有一個(gè)p值小于0.05更有力地證明了該方法有效。 Fisher在他的薈萃分析方法中將這種直覺(jué)形式化(Fisher 1925),稱(chēng)我們可以將多個(gè)獨(dú)立統(tǒng)計(jì)檢驗(yàn)的p值組合為一個(gè)檢驗(yàn)統(tǒng)計(jì)量,如公式17.9所示:其中pi是第i個(gè)假設(shè)檢驗(yàn)的p值。如果所有k個(gè)零假設(shè)都成立,則該檢驗(yàn)統(tǒng)計(jì)量遵循2k自由度的卡方分布。 Brown(1975)將Fisher的方法擴(kuò)展到p值不獨(dú)立的情況。還有其他p值組合方法,例如Edgington(1972),Volumne 80(2)以及Mudholkar和George(1979)。有關(guān)更多討論,請(qǐng)參見(jiàn)Hedges和Olkin(2014)。

image.png

通常,F(xiàn)isher的方法(或任何其他薈萃分析技術(shù))對(duì)于提高功效和減少假陽(yáng)性非常有用。即使應(yīng)用了所有增加功率的技術(shù)(例如最大功率流量分配(請(qǐng)參閱第15章)和方差減少(請(qǐng)參閱第22章))之后,實(shí)驗(yàn)也可能功率不足。在這種情況下,可以考慮同一實(shí)驗(yàn)的兩個(gè)或多個(gè)(正交)復(fù)現(xiàn)(一個(gè)接一個(gè)),并通過(guò)使用Fisher的方法組合結(jié)果來(lái)獲得更高的 Power。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容