Trustworthy Online Controlled Experiments Part 5 Chap 17

第五部分實(shí)驗(yàn)分析的高級(jí)話題

第五部分包括七個(gè)高級(jí)分析主題，主要針對(duì)數(shù)據(jù)科學(xué)家和愿意深入了解受控實(shí)驗(yàn)的的人員。

我們從在線控制實(shí)驗(yàn)背后的統(tǒng)計(jì)學(xué)開(kāi)始，該統(tǒng)計(jì)數(shù)據(jù)概述了t檢驗(yàn)，p值和置信區(qū)間計(jì)算，正態(tài)性假設(shè)，統(tǒng)計(jì)功效以及I / II型錯(cuò)誤。它涵蓋了多種測(cè)試和費(fèi)舍爾的薈萃分析方法。

下一章是方差估計(jì)和改進(jìn)的靈敏度：陷阱和解決方案，我們從標(biāo)準(zhǔn)公式開(kāi)始，隨后展示了一個(gè)非常常見(jiàn)的陷阱，需要使用增量法。然后，我們回顧了減少方差的方法，從而提高了實(shí)驗(yàn)的靈敏度。

A / A測(cè)試涵蓋了提高實(shí)驗(yàn)系統(tǒng)的可信度并發(fā)現(xiàn)軟件或使用的統(tǒng)計(jì)信息中的實(shí)際問(wèn)題和錯(cuò)誤的最佳方法。借助于 A / A測(cè)試，我們發(fā)現(xiàn)了許多陷阱。

提高觸發(fā)靈敏度的一章詳細(xì)介紹了關(guān)鍵概念-觸發(fā)。因?yàn)椴⒎敲總€(gè)實(shí)驗(yàn)都會(huì)影響所有用戶，所以可以通過(guò)減少可能沒(méi)有受到影響的用戶的噪音來(lái)提高敏感性。隨著組織的成熟，觸發(fā)的使用也在增長(zhǎng)，隨之而來(lái)的是有助于分析和調(diào)試的工具。

接下一章著眼于樣本比率不匹配（SRM）和其他與信任相關(guān)的護(hù)欄指標(biāo)。 SRM在實(shí)踐中很常見(jiàn)，當(dāng)存在SRM時(shí)，結(jié)果看起來(lái)非常正面或極端負(fù)面，但是是不可信的。自動(dòng)運(yùn)行這種測(cè)試（和其他測(cè)試）對(duì)于結(jié)果的可信賴(lài)性至關(guān)重要。

在某些現(xiàn)實(shí)環(huán)境中，例如多邊市場(chǎng)和社交網(wǎng)絡(luò)，實(shí)驗(yàn)版本可能會(huì)泄漏信息，這是我們?cè)诓煌姹局g的泄漏和干擾中涉及的主題。

在結(jié)束時(shí)提出了一個(gè)仍在研究中的重要問(wèn)題：測(cè)量長(zhǎng)期效果。我們嘗試提幾種實(shí)驗(yàn)設(shè)計(jì)來(lái)解決這一目標(biāo)。

在線受控實(shí)驗(yàn)背后的統(tǒng)計(jì)方法

吸煙是統(tǒng)計(jì)學(xué)出現(xiàn)的主要原因
– Fletcher Knebel

為什么重要

統(tǒng)計(jì)是設(shè)計(jì)和分析實(shí)驗(yàn)的基礎(chǔ)。

本章介紹幾種統(tǒng)計(jì)概念，并且將深入探討對(duì)實(shí)驗(yàn)至關(guān)重要的統(tǒng)計(jì)學(xué)，包括假設(shè)檢驗(yàn)和統(tǒng)計(jì)能力（Lehmann和Romano 2005，Casella和Berger 2001，Kohavi，Longbotham等2009）。

Two-Sample t 檢驗(yàn)

Two-Sample t 檢驗(yàn)（雙樣本t檢驗(yàn)）是最常見(jiàn)的統(tǒng)計(jì)顯著性檢驗(yàn)，用于確定我們看到的治療和控制之間的差異是真實(shí)的還是僅是噪音（Student 1908； Wasserman 2004）。雙樣本t檢驗(yàn)考察了兩個(gè)均值之間的差異相對(duì)于方差的大小。差異的顯著性由p值表示。 p值越低，則表明治療與對(duì)照不同的證據(jù)越強(qiáng)。為了將兩個(gè)樣本的t檢驗(yàn)應(yīng)用于感興趣的度量Y（例如，每個(gè)用戶的查詢），假定在干預(yù)和控制中用戶對(duì)度量的觀察值是隨機(jī)變量 $Y^{t}$ 和 $Y^{c}$ 的獨(dú)立的。 Null假設(shè)（ $H_{0}$ ）是 $Y^{t}$ 和 $Y^{c}$ 具有相同的均值，備則假設(shè)（ $H_{1}$ ）是它們均值不相同（請(qǐng)參見(jiàn)公式17.1）：

image.png

雙樣本t檢驗(yàn)基于t統(tǒng)計(jì)量T：

image.png

其中， $\Delta=\overline{Y^{t}}-\overline{Y^{c}}$ 是治療平均值和對(duì)照平均值之間的差，平均值的偏移量為無(wú)偏估計(jì)量。由于樣本是獨(dú)立的：

image.png

t統(tǒng)計(jì)量T只是 $\Delta$ 的歸一化形式。

憑直覺(jué)，T越大，均值相同的可能性就越小。換句話說(shuō)，T越大越有可能拒絕零假設(shè)。如何量化呢？

p 值和置信區(qū)間

有了t統(tǒng)計(jì)量T，就可以計(jì)算p值了，這是如果在治療和控制之間確實(shí)沒(méi)有差異的情況下T至少會(huì)達(dá)到這個(gè)極值的可能性。按照慣例，p值小于0.05的差異都被視為“具有統(tǒng)計(jì)學(xué)意義”，盡管正在進(jìn)行的辯論要求默認(rèn)使用較低的p值（Benjamin等人，2017）。小于0.01的p值被認(rèn)為是非常重要的。

盡管p值是最著名的統(tǒng)計(jì)術(shù)語(yǔ)之一，但它經(jīng)常被誤解。一種常見(jiàn)的誤解是，在觀察到的數(shù)據(jù)給定的情況下，p值會(huì)捕獲Null假設(shè)為真的概率。從表面上看，這是一個(gè)合理的解釋?zhuān)驗(yàn)榇蠖鄶?shù)實(shí)驗(yàn)者都希望他們的干預(yù)方法有效。但是，正確的解釋幾乎相反，真正的解釋是在 Null假設(shè)為真的情況下，觀察到當(dāng)前的差異的可能性。要了解這兩種解釋有何不同，且有什么關(guān)聯(lián)，可以使用貝葉斯規(guī)則將其分解：

image.png

如方程式所示，要根據(jù)收集的數(shù)據(jù)（后驗(yàn)概率）知道Null假設(shè)是否正確，不僅需要p值，還需要Null假設(shè)正確的可能性。

檢查差異是否在統(tǒng)計(jì)上有意義的另一種方法是檢查置信區(qū)間是否包含0值。某些人發(fā)現(xiàn)置信區(qū)間是一種比p值更直觀的方式來(lái)解釋觀察到的增量附近的噪聲和不確定性。 95％的置信區(qū)間是指覆蓋95％的時(shí)間的真實(shí)差異并且等效于0.05的p值的范圍；如果95％置信區(qū)間不包含零或p值小于0.05，則該差異在0.05的顯著性水平上具有統(tǒng)計(jì)學(xué)意義。在大多數(shù)情況下， $\delta$ 的置信區(qū)間以觀察到的 $\delta$ 為中心，并在每一側(cè)延伸約兩個(gè)標(biāo)準(zhǔn)差。對(duì)于（近似）服從正態(tài)分布的所有統(tǒng)計(jì)信息（包括百分比增量），都是如此。

正態(tài)假設(shè)

在大多數(shù)情況下，我們以t統(tǒng)計(jì)量T服從正態(tài)分布為前提來(lái)計(jì)算p值，并且在Null假設(shè)下，分布的均值為0，方差為1。p值只是正態(tài)曲線下的面積，正如第2章中的圖2.1中突出顯示的那樣。許多人誤以為正態(tài)性假設(shè)是度量Y的分布的假設(shè)，并認(rèn)為這是一個(gè)糟糕的假設(shè)，因?yàn)樵趯?shí)踐中幾乎沒(méi)有度量遵循正態(tài)分布。但是，在大多數(shù)在線實(shí)驗(yàn)中，“對(duì)照”和“治療”的樣本量至少為數(shù)千，此時(shí)，盡管Y的樣本分布不服從正態(tài)分布，但由于中心極限定理（Billingsly 1995），通常采用平均值分布。圖17.1說(shuō)明了從β分布抽取的樣本Y的收斂性。隨著樣本數(shù)量的增加，平均值的分布將變得更正態(tài)分布。

image.png

隨著樣本數(shù)量n的增加，平均值的分布變得越來(lái)越正態(tài)

每個(gè)變量的平均值具有正態(tài)分布所需的最小樣本數(shù)的一個(gè)經(jīng)驗(yàn)法則是 $355s^{2}$ （Kohavi 2014），其中??是度量Y的樣本分布的偏度系數(shù)，如公式17.5所定義：

image.png

一些度量標(biāo)準(zhǔn)，尤其是收入度量標(biāo)準(zhǔn)，往往具有較高的偏度系數(shù)。減少偏度的一種有效方法是轉(zhuǎn)換度量標(biāo)準(zhǔn)或設(shè)置值的上限。例如，在Bing將“每位用戶的每周收入/用戶”設(shè)置為10美元之后，他們發(fā)現(xiàn)偏斜度從18下降到5，而所需的最低樣本量也從114k下降到10k。此經(jīng)驗(yàn)法則為| s |> 1 時(shí)提供了很好的指導(dǎo), 但對(duì)當(dāng)偏度比較小的時(shí)候，比較無(wú)效。不過(guò)，當(dāng)偏斜度較小時(shí)，通常需要較少的樣本（Tyurin 2009）。

對(duì)于兩樣本t檢驗(yàn)，因?yàn)槟诓榭淳哂邢嗨品植嫉膬蓚€(gè)變量的差異，所以使正態(tài)性假設(shè)合理的樣本數(shù)往往會(huì)減少。如果治療和控制具有相同的流量分配，則尤其如此（Kohavi 2014），因?yàn)椴町惖姆植冀茖?duì)稱(chēng)（在零假設(shè)下，零偏度是完全對(duì)稱(chēng)的）。

如果您想知道樣本量是否足夠大以假定正態(tài)性，請(qǐng)使用脫機(jī)模擬對(duì)其進(jìn)行至少一次測(cè)試。您可以在“治療和控制”中隨機(jī)洗檢樣本以生成零分布，并使用統(tǒng)計(jì)檢驗(yàn)（例如Kolmogorov-Smirnov和Anderson-Darling）將該分布與正態(tài)曲線進(jìn)行比較（Razali和Wah 2011）。由于在假設(shè)檢驗(yàn)中關(guān)注尾分布，因此您也可以通過(guò)僅關(guān)注I型錯(cuò)誤率是否受預(yù)設(shè)閾值（例如0.05）限制來(lái)提高檢驗(yàn)靈敏度。

當(dāng)正態(tài)性假設(shè)失敗時(shí)，您可以進(jìn)行置換檢驗(yàn)（Efron和Tibshriani 1994），并觀察相對(duì)于模擬零分布的觀察位置。請(qǐng)注意，即使大規(guī)模進(jìn)行排列測(cè)試非常昂貴，但有時(shí)需要使用較小樣本量的情況，因此在實(shí)踐中效果很好。

I / II型錯(cuò)誤和 Power

任何測(cè)試都會(huì)出錯(cuò)。在假設(shè)檢驗(yàn)中，我們關(guān)心I型和II型錯(cuò)誤。 I型錯(cuò)誤的結(jié)論是，在沒(méi)有實(shí)質(zhì)性差異的情況下，實(shí)驗(yàn)宣稱(chēng)治療與控制之間存在顯著差異。 II型錯(cuò)誤是實(shí)驗(yàn)宣稱(chēng)Null 假設(shè)為真，也就是說(shuō)，實(shí)驗(yàn)沒(méi)有發(fā)現(xiàn)差異，但是實(shí)際上二者存在差異。可以預(yù)見(jiàn)，p值的閾值選取會(huì)對(duì) I / II型錯(cuò)誤同時(shí)造成影響，如果想降低 1型錯(cuò)誤概率，就會(huì)提高2型錯(cuò)誤的概率，反之亦然。

II型錯(cuò)誤的概念被稱(chēng)為 Power。Power 是在確實(shí)存在差異時(shí)檢測(cè)變體之間差異的可能性，即拒絕Null 假設(shè)的概率（請(qǐng)參見(jiàn)公式17.6）：

image.png

功率通常由實(shí)際應(yīng)用的最小增量δ來(lái)參數(shù)化。在數(shù)學(xué)上，假設(shè)所需的置信度為95％，則公式如公式17.7所示：

image.png

行業(yè)標(biāo)準(zhǔn)是在我們的測(cè)試中至少達(dá)到80％的功率。因此，通常在開(kāi)始實(shí)驗(yàn)之前進(jìn)行功率分析，且需要多少樣本才能獲得足夠的功率。假設(shè)處理組和控制組較小，則可以從上面的功效公式中達(dá)計(jì)算達(dá)到80％功效所需的樣本總數(shù)，大約等于公式17.8（van Belle 2008）：

image.png

其中， $\sigma^{2}$ 是樣本方差，而δ是處理與對(duì)照之間的差異。人們經(jīng)常問(wèn)的一個(gè)問(wèn)題是，他們?cè)谶M(jìn)行實(shí)驗(yàn)之前如何知道 $\delta$ ？的確，我們不知道真實(shí)的 $\delta$ ，這就是進(jìn)行實(shí)驗(yàn)的原因。

但是，我們知道在實(shí)踐中 $\delta$ 多大才有意義，換句話說(shuō)，具有實(shí)際意義的大小。例如，收入相差0.1％的時(shí)候大家不太會(huì)關(guān)心，但是收入下降1％的情況就不行了。在這種情況下，實(shí)際上0.1％無(wú)效，而1％實(shí)際有效。要估算所需的最小樣本量，首先需要確定最小 $\delta$ （也稱(chēng)為最小可檢測(cè)效果）。

對(duì)于在線實(shí)驗(yàn)，由于在線用戶的數(shù)量是在一段時(shí)間內(nèi)統(tǒng)計(jì)出來(lái)的，因此樣本大小估算更為復(fù)雜，因此實(shí)驗(yàn)的持續(xù)時(shí)間也對(duì)實(shí)驗(yàn)的實(shí)際樣本大小起著重要作用。取決于隨機(jī)單位，樣本方差 $\sigma^{2}$ 也可以隨時(shí)間變化。另一個(gè)挑戰(zhàn)是使用觸發(fā)分析（請(qǐng)參閱第20章），隨著觸發(fā)條件在整個(gè)實(shí)驗(yàn)中的變化， $\sigma^{2}$ 和 $\delta$ 值也會(huì)變化。由于這些原因，我們?cè)诘?5章介紹了一種更為實(shí)用的方法，用于確定流量分配和大多數(shù)在線實(shí)驗(yàn)的持續(xù)時(shí)間。

我們要強(qiáng)調(diào)對(duì)Power概念的常見(jiàn)誤解。許多人認(rèn)為功率是測(cè)試的絕對(duì)屬性，卻忘記了它與要檢測(cè)的效果的大小有關(guān)。具有足夠能力檢測(cè)10％差異的實(shí)驗(yàn)不一定具有足夠能力檢測(cè)1％差異。一個(gè)很好的類(lèi)比是“找不同”的游戲。圖17.2證明，相對(duì)于斑點(diǎn)的差異（實(shí)心圓），更容易檢測(cè)到睡蓮葉上的差異（因?yàn)椴町惔螅ㄌ摼€圓）。

image.png

用統(tǒng)計(jì)能力比喻“發(fā)現(xiàn)差異”。

功耗分析與I型和II型錯(cuò)誤緊密相關(guān)。 Gelman和Carlin（2014）認(rèn)為，對(duì)于較小的樣本量設(shè)置，計(jì)算a）估計(jì)方向錯(cuò)誤的可能性（Type S [sign]誤差）和b）影響幅度大小的因素也很重要。效果可能被高估了（類(lèi)型M [幅值]誤差或夸張率）。

偏誤

在實(shí)驗(yàn)結(jié)果中，當(dāng)均值的估計(jì)值和真實(shí)值系統(tǒng)不同時(shí)，就會(huì)出現(xiàn)偏差。這可能是由于平臺(tái)錯(cuò)誤，有缺陷的實(shí)驗(yàn)設(shè)計(jì)或無(wú)代表性的樣本（例如公司員工或測(cè)試帳戶）引起的。我們?cè)诘?章中討論了一些預(yù)防和檢測(cè)這些問(wèn)題的例子和建議。

多重實(shí)驗(yàn)

當(dāng)我們?yōu)槊總€(gè)實(shí)驗(yàn)計(jì)算數(shù)百個(gè)指標(biāo)，常會(huì)聽(tīng)到實(shí)驗(yàn)者抱怨 “為什么這個(gè)看似無(wú)關(guān)緊要的指標(biāo)很重要？” 這是一種簡(jiǎn)答化的看法。如果為實(shí)驗(yàn)計(jì)算100個(gè)指標(biāo)，那么即使不執(zhí)行任何操作，猜猜你仍會(huì)看到多少個(gè)具有統(tǒng)計(jì)意義的指標(biāo)？在顯著性水平為5％的情況下，答案大約為5個(gè)（假設(shè)指標(biāo)是獨(dú)立的）。當(dāng)檢查數(shù)百個(gè)實(shí)驗(yàn)并且每個(gè)實(shí)驗(yàn)進(jìn)行多次迭代時(shí)，這個(gè)問(wèn)題會(huì)更嚴(yán)重。當(dāng)并行測(cè)試多個(gè)事物時(shí)，錯(cuò)誤發(fā)現(xiàn)的數(shù)量就會(huì)增加。這稱(chēng)為“多重測(cè)試”問(wèn)題。

如何確保在多次測(cè)試中仍能合理控制I型和II型錯(cuò)誤？有許多經(jīng)過(guò)深入研究的方法。但是，大多數(shù)方法要么簡(jiǎn)單但過(guò)于保守，要么復(fù)雜，因此難以實(shí)施。例如，流行的Bonferroni校正使用了一致但較小的p值閾值（0.05除以測(cè)試次數(shù)），這過(guò)于保守。 Benjamini-Hochberg過(guò)程（Hochberg和Benjamini 1995）對(duì)不同的測(cè)試使用不同的p值閾值，這又過(guò)于復(fù)雜。

因此，當(dāng)一個(gè)指標(biāo)出乎意料地重要時(shí)，應(yīng)該怎么做？這是一個(gè)簡(jiǎn)單的兩步法則：

1.將所有指標(biāo)分為三組：

一階指標(biāo)：希望受到實(shí)驗(yàn)影響的指標(biāo)
二階指標(biāo)：可能受到影響的指標(biāo)
三階指標(biāo)：那些不太可能受到影響的指標(biāo)。

2.將分層的顯著性水平應(yīng)用于每個(gè)組（例如分別為0.05、0.01和0.001）。

這些經(jīng)驗(yàn)法則基于一個(gè)有趣的貝葉斯解釋?zhuān)哼M(jìn)行實(shí)驗(yàn)之前就相信零假設(shè)（H0）是正確的？信心越強(qiáng)，就應(yīng)該使用更加嚴(yán)格的p門(mén)檻。

Fisher 薈萃分析

在第8章中，我們講述了如何利用歷史實(shí)驗(yàn)的薈萃分析，以進(jìn)行模式識(shí)別，創(chuàng)建和利用機(jī)構(gòu)記憶。在本節(jié)中，我們特別感興趣的是將對(duì)同一假設(shè)進(jìn)行檢驗(yàn)的多個(gè)實(shí)驗(yàn)的結(jié)果進(jìn)行組合。例如，復(fù)現(xiàn)具有令人驚訝結(jié)果的實(shí)驗(yàn)是一種常見(jiàn)的技術(shù)。一般使用正交隨機(jī)分配的用戶進(jìn)行復(fù)現(xiàn)。這兩個(gè)實(shí)驗(yàn)（原始實(shí)驗(yàn)和復(fù)現(xiàn)實(shí)驗(yàn)）都產(chǎn)生彼此獨(dú)立的p值。直觀地，如果兩個(gè)p值均小于0.05，比只有一個(gè)p值小于0.05更有力地證明了該方法有效。 Fisher在他的薈萃分析方法中將這種直覺(jué)形式化（Fisher 1925），稱(chēng)我們可以將多個(gè)獨(dú)立統(tǒng)計(jì)檢驗(yàn)的p值組合為一個(gè)檢驗(yàn)統(tǒng)計(jì)量，如公式17.9所示：其中pi是第i個(gè)假設(shè)檢驗(yàn)的p值。如果所有k個(gè)零假設(shè)都成立，則該檢驗(yàn)統(tǒng)計(jì)量遵循 $2k$ 自由度的卡方分布。 Brown（1975）將Fisher的方法擴(kuò)展到p值不獨(dú)立的情況。還有其他p值組合方法，例如Edgington（1972），Volumne 80（2）以及Mudholkar和George（1979）。有關(guān)更多討論，請(qǐng)參見(jiàn)Hedges和Olkin（2014）。

image.png

通常，F(xiàn)isher的方法（或任何其他薈萃分析技術(shù)）對(duì)于提高功效和減少假陽(yáng)性非常有用。即使應(yīng)用了所有增加功率的技術(shù)（例如最大功率流量分配（請(qǐng)參閱第15章）和方差減少（請(qǐng)參閱第22章））之后，實(shí)驗(yàn)也可能功率不足。在這種情況下，可以考慮同一實(shí)驗(yàn)的兩個(gè)或多個(gè)（正交）復(fù)現(xiàn)（一個(gè)接一個(gè)），并通過(guò)使用Fisher的方法組合結(jié)果來(lái)獲得更高的 Power。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

[TOCE] 33 P5-C17-S1 在線受控實(shí)驗(yàn)背后的統(tǒng)計(jì)方法

[TOCE] 33 P5-C17-S1 在線受控實(shí)驗(yàn)背后的統(tǒng)計(jì)方法

第五部分實(shí)驗(yàn)分析的高級(jí)話題