十、假設(shè)檢驗(yàn)
譯者:飛龍
協(xié)議:CC BY-NC-SA 4.0
自豪地采用谷歌翻譯
數(shù)據(jù)科學(xué)家們經(jīng)常面對(duì)世界的是或不是的問(wèn)題。你在這個(gè)課程中看到了一些這樣的問(wèn)題的例子:
- 巧克力對(duì)你有好處嗎?
- Broad Street 水泵的水是否會(huì)導(dǎo)致霍亂?
- 加州的人口統(tǒng)計(jì)在過(guò)去的十年中有所改變嗎?
我們是否回答這些問(wèn)題取決于我們的數(shù)據(jù)。加州的人口普查數(shù)據(jù)可以解決人口統(tǒng)計(jì)的問(wèn)題,而答案幾乎沒(méi)有任何不確定性。我們知道 Broad Street 水泵的水源受到霍亂病人的污染,所以我們可以很好地猜測(cè)它是否會(huì)引起霍亂。
巧克力還是其他任何實(shí)驗(yàn)對(duì)你有好處,幾乎肯定要由醫(yī)學(xué)專家來(lái)決定,但是第一步是使用數(shù)據(jù)科學(xué)分析來(lái)自研究和隨機(jī)實(shí)驗(yàn)的數(shù)據(jù)。
在本章中,我們將試圖回答這樣的問(wèn)題,根據(jù)樣本和經(jīng)驗(yàn)分布的結(jié)論。我們將以北加利福尼亞州公民自由聯(lián)盟(ACLU)2010 年進(jìn)行的一項(xiàng)研究為例。
陪審團(tuán)選拔
2010 年,ACLU 在加利福尼亞州阿拉米達(dá)縣提交了一份陪審團(tuán)選擇的報(bào)告。報(bào)告得出的結(jié)論是,在阿拉米達(dá)縣的陪審團(tuán)小組成員中,某些族裔人數(shù)不足,并建議對(duì)專家組進(jìn)行一些改革,來(lái)合理分配陪審員。在本節(jié)中,我們將自己分析數(shù)據(jù),并檢查出現(xiàn)的一些問(wèn)題。
陪審團(tuán)
陪審團(tuán)是一群被選為準(zhǔn)陪審員的人;終審的陪審團(tuán)是從他們中挑選的。陪審團(tuán)可以由幾十人或幾千人組成,具體情況取決于審判情況。根據(jù)法律,陪審團(tuán)應(yīng)該是審判所在社區(qū)的代表。加州“民事訴訟法(California's Code of Civil Procedure)”第 197 條規(guī)定:“All persons selected for jury service shall be selected at random, from a source or sources inclusive of a representative cross section of the population of the area served by the court.”
最終的陪審團(tuán)是通過(guò)故意納入或排除,從陪審團(tuán)中挑選出來(lái)的。法律允許潛在的陪審員出于醫(yī)療原因而被免責(zé);雙方的律師可以從名單上挑選一些潛在的陪審員進(jìn)行所謂的“先制性反對(duì)(peremptory challenges)”。初審法官可以根據(jù)陪審團(tuán)填寫(xiě)的問(wèn)卷進(jìn)行選擇;等等。但最初的陪審團(tuán)似乎是合格陪審員的總體的隨機(jī)樣本。
阿拉米達(dá)縣的陪審團(tuán)構(gòu)成
ACLU 的研究重點(diǎn)是阿拉米達(dá)縣陪審團(tuán)的種族組成。 ACLU 編輯了 2009 年和 2010 年在阿拉米達(dá)縣進(jìn)行的 11 次重罪審判中陪審團(tuán)的種族組成的數(shù)據(jù)。在這些陪審團(tuán)中,報(bào)告出庭的陪審員的總?cè)藬?shù)是 1453 人。ACLU 收集了所有人口的統(tǒng)計(jì)數(shù)據(jù),并將這些數(shù)據(jù)與該縣所有合格陪審員的組成進(jìn)行比較。
數(shù)據(jù)列在下面的表格中,稱為jury。 對(duì)于每個(gè)種族來(lái)說(shuō),第一個(gè)值就是該種族所有合格的陪審員候選人的比例。 第二個(gè)值是出現(xiàn)在出現(xiàn)在陪審團(tuán)選拔過(guò)程的人中,那個(gè)種族的人的比例。
jury = Table().with_columns(
'Ethnicity', make_array('Asian', 'Black', 'Latino', 'White', 'Other'),
'Eligible', make_array(0.15, 0.18, 0.12, 0.54, 0.01),
'Panels', make_array(0.26, 0.08, 0.08, 0.54, 0.04)
)
jury
| Ethnicity | Eligible | Panels |
|---|---|---|
| Asian | 0.15 | 0.26 |
| Black | 0.18 | 0.08 |
| Latino | 0.12 | 0.08 |
| White | 0.54 | 0.54 |
| Other | 0.01 | 0.04 |
研究中的一些種族代表性過(guò)多,一些代表性不足。 條形圖有助于顯示差異。
jury.barh('Ethnicity')
https://gitee.com/wizardforcel/data8-textbook-zh/raw/master/img/10-1.png
兩個(gè)分布的距離
可視化使我們能夠快速了解,兩個(gè)分布之間的相似性和差異。 為了更準(zhǔn)確地說(shuō)出這些差異,我們必須首先量化兩個(gè)分布之間的差異。 這將使我們的分析能夠基于更多東西,不僅僅是我們能夠通過(guò)眼睛做出的評(píng)估。
為了測(cè)量?jī)蓚€(gè)分布之間的差異,我們將計(jì)算一個(gè)數(shù)量,稱之為它們之間的總變異距離(total variation distance)。
為了計(jì)算總變異距離,我們首先考慮每個(gè)類別中兩個(gè)比例之間的差異。
# Augment the table with a column of differences between proportions
jury_with_diffs = jury.with_column(
'Difference', jury.column('Panels') - jury.column('Eligible')
)
jury_with_diffs
| Ethnicity | Eligible | Panels | Difference |
|---|---|---|---|
| Asian | 0.15 | 0.26 | 0.11 |
| Black | 0.18 | 0.08 | -0.1 |
| Latino | 0.12 | 0.08 | -0.04 |
| White | 0.54 | 0.54 | 0 |
| Other | 0.01 | 0.04 | 0.03 |
jury_with_diffs.column('Abs. Difference').sum()/2
0.14000000000000001
這個(gè)數(shù)量 0.14 是合格陪審員總體中種族分布與陪審團(tuán)分布情況之間的總變異距離(TVD)。
只要加上正的差異,我們就可以得到相同的結(jié)果。 但是,我們的方法包含所有絕對(duì)差異,不需要追蹤哪些差異是正的而哪些不是。
計(jì)算 TVD 的函數(shù)
函數(shù)total_variation_distance返回兩個(gè)數(shù)組中的分布的 TVD。
def total_variation_distance(distribution_1, distribution_2):
return np.abs(distribution_1 - distribution_2).sum()/2
函數(shù)table_tvd使用函數(shù)total_variation_distance來(lái)返回表的兩列中的分布的 TVD。
def table_tvd(table, label, other):
return total_variation_distance(table.column(label), table.column(other))
table_tvd(jury, 'Eligible', 'Panels')
0.14000000000000001
陪審團(tuán)是否是總體的代表?
現(xiàn)在我們將轉(zhuǎn)到合格的陪審員和陪審團(tuán)的 TVD 的值。我們?nèi)绾谓忉?0.14 的距離呢?要回答這個(gè)問(wèn)題,請(qǐng)回想一下,陪審團(tuán)應(yīng)該是隨機(jī)選擇的。因此,將 0.14 的值與合格的陪審員和隨機(jī)選擇的陪審團(tuán)的 TVD 進(jìn)行比較,會(huì)有幫助。
為了這樣做,我們將在模擬中使用我們的技能。研究共有 1453 名準(zhǔn)陪審員。所以讓我們從合格的陪審員的總體中隨機(jī)抽取大小為 1453 的樣本。
技術(shù)注解。準(zhǔn)陪審員的隨機(jī)樣本將會(huì)不放回地選中。但是,如果樣本的大小相對(duì)于總體的大小較小,那么無(wú)放回的取樣類似于放回的取樣;總體中的比例在幾次抽取之間變化不大。阿拉米達(dá)縣的合格陪審員的總體超過(guò)一百萬(wàn),與此相比,約 1500 人的樣本量相當(dāng)小。因此,我們將帶放回地抽樣。
從合格的陪審員中隨機(jī)抽樣
到目前為止,我們已經(jīng)使用np.random.choice從數(shù)組元素中隨機(jī)抽樣,并使用sample對(duì)表的行進(jìn)行抽樣。 但是現(xiàn)在我們必須從一個(gè)分布中抽樣:一組種族以及它們的比例。
為此,我們使用函數(shù)proportions_from_distribution。 它有三個(gè)參數(shù):
- 表名
- 包含比例的列的標(biāo)簽
- 樣本大小
該函數(shù)執(zhí)行帶放回地隨機(jī)抽樣,并返回一個(gè)新的表,該表多出了一列Random Sample,是隨機(jī)樣本中所出現(xiàn)的比例。
所有陪審團(tuán)的總大小是 1453,所以讓我們把這個(gè)數(shù)字賦給給一個(gè)名成,然后調(diào)用:
proportions_from_distribution.
panel_size = 1453
panels_and_sample = proportions_from_distribution(jury, 'Eligible', panel_size)
panels_and_sample
| Ethnicity | Eligible | Panels | Random Sample |
|---|---|---|---|
| Asian | 0.15 | 0.26 | 0.14797 |
| Black | 0.18 | 0.08 | 0.193393 |
| Latino | 0.12 | 0.08 | 0.116311 |
| White | 0.54 | 0.54 | 0.532691 |
| Other | 0.01 | 0.04 | 0.00963524 |
從結(jié)果中可以清楚地看出,隨機(jī)樣本的分布與合格總體的分布非常接近,與陪審團(tuán)的分布不同。
和之前一樣,可視化會(huì)有幫助。
panels_and_sample.barh('Ethnicity')
https://gitee.com/wizardforcel/data8-textbook-zh/raw/master/img/10-2.png
灰色條形與藍(lán)色條形比金色條形更接近。 隨機(jī)樣本類似于合格的總體,而不是陪審團(tuán)。
我們可以通過(guò)計(jì)算合格總體的分布與隨機(jī)樣本之間的 TVD,來(lái)量化這一觀察結(jié)果。
table_tvd(panels_and_sample, 'Eligible', 'Random Sample')
0.013392980041293877
將其與陪審團(tuán)的距離 0.14 進(jìn)行比較,可以看到我們?cè)跅l形圖中看到的數(shù)值。 合格總體與陪審團(tuán)之間的 TVD 為 0.14,但合格總體與隨機(jī)樣本之間的 TVD 小得多。
當(dāng)然,隨機(jī)樣本和合格陪審員的分布之間的距離取決于樣本。 再次抽樣可能會(huì)給出不同的結(jié)果。
隨機(jī)樣本和總體之間有多少差異?
隨機(jī)樣本與合格陪審員的分布之間的 TVD,是我們用來(lái)衡量?jī)蓚€(gè)分布之間距離的統(tǒng)計(jì)量。 通過(guò)重復(fù)抽樣過(guò)程,我們可以看到不同隨機(jī)樣本的統(tǒng)計(jì)量是多少。 下面的代碼根據(jù)抽樣過(guò)程的大量重復(fù),來(lái)計(jì)算統(tǒng)計(jì)量的經(jīng)驗(yàn)分布。
# Compute empirical distribution of TVDs
panel_size = 1453
repetitions = 5000
tvds = make_array()
for i in np.arange(repetitions):
new_sample = proportions_from_distribution(jury, 'Eligible', panel_size)
tvds = np.append(tvds, table_tvd(new_sample, 'Eligible', 'Random Sample'))
results = Table().with_column('TVD', tvds)
results
| TVD |
|---|
| 0.0247075 |
| 0.0141569 |
| 0.0138403 |
| 0.0214384 |
| 0.012278 |
| 0.017309 |
| 0.0219752 |
| 0.0192017 |
| 0.02351 |
| 0.00818995 |
(省略了 4990 行)
上面每一行包含大小為 1453 的隨機(jī)樣本與合格的陪審員的 TVD。
這一列的直方圖顯示,從合格候選人中隨機(jī)抽取 1453 名陪審員的結(jié)果是,偏離合格陪審員的種族分布的分布幾乎不超過(guò) 0.05。
results.hist(bins=np.arange(0, 0.2, 0.005))
https://gitee.com/wizardforcel/data8-textbook-zh/raw/master/img/10-3.png
陪審團(tuán)和隨機(jī)樣本比如何?
然而,研究中的陪審團(tuán)與合格總體并不十分相似。陪審團(tuán)和總體之間的 TVD 是 0.14,這距離上面的直方圖的尾部很遠(yuǎn)。這看起來(lái)不像是隨機(jī)樣本和合格總體之間的典型距離。
所以我們的分析支持 ACLU 的計(jì)算,即陪審團(tuán)不是合格陪審員的分布的代表。然而,與大多數(shù)這樣的分析一樣,它并沒(méi)有說(shuō)明分布為什么不同,或者差異可能暗示了什么。
ACLU 報(bào)告討論了這些差異的幾個(gè)可能的原因。例如,一些少數(shù)群體在選民登記記錄和機(jī)動(dòng)車輛部門(mén)(選擇陪審員的兩個(gè)主要來(lái)源)的代表性不足。在進(jìn)行研究時(shí),該縣沒(méi)有一個(gè)有效的程序,用于跟蹤那些被選中但未出庭的準(zhǔn)陪審員。ACLU 列舉了其他幾個(gè)原因。不管出于何種原因,似乎很明顯,陪審團(tuán)的組成與我們對(duì)隨機(jī)樣本的預(yù)期不同,它來(lái)自Eligible列的分布。
數(shù)據(jù)上的問(wèn)題
我們已經(jīng)開(kāi)發(fā)出一種強(qiáng)大的技術(shù),來(lái)幫助決定一個(gè)分布是否像另一個(gè)分布的隨機(jī)樣本。但是數(shù)據(jù)科學(xué)不僅僅是技術(shù)。特別是數(shù)據(jù)科學(xué)總是需要仔細(xì)研究如何收集數(shù)據(jù)。
合格的陪審員。首先,重要的是要記住,不是每個(gè)人都有資格擔(dān)任陪審團(tuán)的職位。阿拉米達(dá)縣高級(jí)法院在其網(wǎng)站上說(shuō):“如果你是18 歲的美國(guó)公民,和傳召所在的縣或區(qū)的居民,你可能會(huì)被要求擔(dān)任職位。你必須能夠理解英語(yǔ),身體上和精神上都有能力擔(dān)任,此外,你在過(guò)去 12 個(gè)月內(nèi)不得擔(dān)任任何類型的陪審員,也沒(méi)有被判重罪。
人口普查沒(méi)有保存所有這些類別的人口記錄。因此 ACLU 必須以其他方式獲得合格陪審員的人口統(tǒng)計(jì)資料。以下是他們對(duì)自己所遵循的過(guò)程的描述,以及它可能包含的一些缺陷。
“為了確定阿拉米達(dá)縣具有陪審團(tuán)資格的人口的統(tǒng)計(jì)數(shù)據(jù),我們使用了一個(gè)聲明,它為阿拉米達(dá)縣人民起訴斯圖亞特·亞歷山大的審判而準(zhǔn)備。在聲明中,圣地亞哥州立大學(xué)的人口統(tǒng)計(jì)學(xué)家 Weeks 教授,根據(jù) 2000 年的人口普查數(shù)據(jù)估算了阿拉米達(dá)縣的具有陪審團(tuán)資格的人口,為了得出這個(gè)估計(jì)值,Weeks 教授考慮到了不符合陪審團(tuán)擔(dān)任條件的人數(shù),因?yàn)樗麄儾粫?huì)說(shuō)英文,不是公民,因此,他的估計(jì)應(yīng)該是對(duì)阿拉米達(dá)縣實(shí)際具有陪審團(tuán)資格的人口的準(zhǔn)確評(píng)估,而不僅僅是審查居住在阿拉米達(dá)的所有人口的種族和族裔的人口普查報(bào)告。應(yīng)該指出的是,Weeks 教授所依據(jù)的人口普查數(shù)據(jù)現(xiàn)在已經(jīng)有十年了,縣的人口統(tǒng)計(jì)數(shù)據(jù)的某些類別,可能已經(jīng)改變了兩到三個(gè)百分點(diǎn)。”
因此,分析中使用的合格陪審員的種族分布本身就是一個(gè)估計(jì),可能有點(diǎn)過(guò)時(shí)。
陪審團(tuán)。 此外,陪審團(tuán)并不從整個(gè)合格總體中選出。 阿拉米達(dá)縣高等法院說(shuō):“法院的目標(biāo)是提供縣人口的準(zhǔn)確的橫截面,陪審員的名字是從登記選民和/或車管局發(fā)出的駕駛執(zhí)照中隨機(jī)抽取的”。
所有這些都產(chǎn)生了復(fù)雜問(wèn)題,就是如何準(zhǔn)確估計(jì)阿拉米達(dá)縣合格陪審員的種族構(gòu)成。
目前還不清楚,1453 個(gè)陪審團(tuán)成員如何劃分為不同的種族類別(ACLU 報(bào)告稱“律師......合作收集陪審團(tuán)數(shù)據(jù)”)。 存在嚴(yán)重的社會(huì),文化和政治因素,影響誰(shuí)被歸類或自我分類到每個(gè)種族類別。 我們也不知道陪審團(tuán)中這些類別的定義,是否與 Weeks 教授所使用的定義相同,Weeks 教授又在它的估算過(guò)程中使用了人口普查類別。 因此被比較的兩個(gè)分布的對(duì)應(yīng)關(guān)系,也存在問(wèn)題。
美國(guó)最高法院,1965年:斯溫 VS 阿拉巴馬州
在二十世紀(jì)六十年代初期,阿拉巴馬州的塔拉迪加縣,一個(gè)名叫羅伯特·斯溫的黑人被指控強(qiáng)奸一名白人婦女,并被判處死刑。
他援引所有陪審團(tuán)是白人的其他因素,對(duì)他的判決提出上訴。當(dāng)時(shí),只有 21 歲或以上的男子被允許在塔拉迪加縣的陪審團(tuán)中任職。 在縣里,合格的陪審員中有 26% 是黑人,但在 Swain 的審判中選出的 100 名陪審團(tuán)中只有 8 名黑人男子。 審判陪審團(tuán)沒(méi)有選定黑人。
1965 年,美國(guó)最高法院駁回了斯溫的上訴。 法院在其裁決中寫(xiě)道:“整體百分比差距很小,沒(méi)有反映出包括或排除特定數(shù)量的黑人的嘗試”。(... the overall percentage disparity has been small and reflects no studied attempt to include or exclude a specified number of Negroes.)
讓我們用我們開(kāi)發(fā)的方法來(lái)檢查,陪審團(tuán)中的 100 名黑人中的 8 名與合格陪審員的分布之間的差異。
swain_jury = Table().with_columns(
'Ethnicity', make_array('Black', 'Other'),
'Eligible', make_array(0.26, 0.74),
'Panel', make_array(0.08, 0.92)
)
swain_jury
| Ethnicity | Eligible | Panel |
|---|---|---|
| Black | 0.26 | 0.08 |
| Other | 0.74 | 0.92 |
table_tvd(swain_jury, 'Eligible', 'Panel')
0.18000000000000002
兩個(gè)分布之間的 TVD 是 0.18。 這與合格總體的分布和隨機(jī)樣本之間的 TVD 比較如何?
為了回答這個(gè)問(wèn)題,我們可以模擬從隨機(jī)樣本中計(jì)算的 TVD。
# Compute empirical distribution of TVDs
panel_size = 100
repetitions = 5000
tvds = make_array()
for i in np.arange(repetitions):
new_sample = proportions_from_distribution(swain_jury, 'Eligible', panel_size)
tvds = np.append(tvds, table_tvd(new_sample, 'Eligible', 'Random Sample'))
results = Table().with_column('TVD', tvds)
results.hist(bins = np.arange(0, 0.2, 0.01))
https://gitee.com/wizardforcel/data8-textbook-zh/raw/master/img/10-4.png
隨機(jī)樣本的 TVD 小于我們所得的值 0.18,它是陪審團(tuán)和合格陪審員的 TVD。
在這個(gè)分析中,數(shù)據(jù)并沒(méi)有像我們以前的分析那樣被問(wèn)題蓋住 - 涉及的人總數(shù)相對(duì)較少,而且最高法院案件的統(tǒng)計(jì)工作也很仔細(xì)。
因此,我們的分析有了明確的結(jié)論,那就是陪審團(tuán)不是總體的代表。 最高法院的判決“整體百分比差距很小”是很難接受的。
檢驗(yàn)的術(shù)語(yǔ)
在陪審團(tuán)選擇的例子的背景下,我們已經(jīng)形成了一些假設(shè)統(tǒng)計(jì)檢驗(yàn)的基本概念。使用統(tǒng)計(jì)檢驗(yàn)作為決策的一種方法是許多領(lǐng)域的標(biāo)準(zhǔn),并且存在標(biāo)準(zhǔn)的術(shù)語(yǔ)。以下是大多數(shù)統(tǒng)計(jì)檢驗(yàn)中的步驟順序,以及一些術(shù)語(yǔ)和示例。
第一步:假設(shè)
所有的統(tǒng)計(jì)檢驗(yàn)都試圖在世界的兩種觀點(diǎn)中進(jìn)行選擇。具體而言,選擇是如何生成數(shù)據(jù)的兩種觀點(diǎn)之間的選擇。這兩種觀點(diǎn)被稱為假設(shè)。
原(零)假設(shè)。這就是說(shuō),數(shù)據(jù)在明確指定的假設(shè)條件下隨機(jī)生成,這些假設(shè)使計(jì)算幾率成為可能。 “零”一詞強(qiáng)化了這樣一個(gè)觀點(diǎn),即如果數(shù)據(jù)看起來(lái)與零假設(shè)的預(yù)測(cè)不同,那么這種差異只是偶然的。
在阿拉米達(dá)縣陪審團(tuán)選擇的例子中,原假設(shè)是從合格的陪審員人群中,隨機(jī)抽取這些陪審團(tuán)。雖然審團(tuán)的種族組成與合格的陪審員的總體不同,但除了機(jī)會(huì)變異以外,沒(méi)有任何理由存在差異。
備選假設(shè)。這就是說(shuō),除了幾率以外的某些原因使數(shù)據(jù)與原假設(shè)所預(yù)測(cè)的數(shù)據(jù)不同。非正式而言,備選假設(shè)認(rèn)為觀察到的差異是“真實(shí)的”。
在我們阿拉米達(dá)縣陪審團(tuán)選擇的例子中,備選假設(shè)是,這些小組不是隨機(jī)選出來(lái)的。除了幾率以外的事情導(dǎo)致了,陪審團(tuán)的種族組成和合格陪審員總體的種族組成之間存在差異。
第二步:檢驗(yàn)統(tǒng)計(jì)量
為了在這兩個(gè)假設(shè)之間作出決策,我們必須選擇一個(gè)統(tǒng)計(jì)量作為我們決策的依據(jù)。 這被稱為檢驗(yàn)統(tǒng)計(jì)量。
在阿拉米達(dá)縣陪審團(tuán)的例子中,我們使用的檢驗(yàn)統(tǒng)計(jì)量是,陪審團(tuán)與合格陪審員的總體的種族分布之間的總變異距離。
計(jì)算檢驗(yàn)統(tǒng)計(jì)量的觀察值通常是統(tǒng)計(jì)檢驗(yàn)中的第一個(gè)計(jì)算步驟。 在我們的例子中,陪審團(tuán)與總體之間的總變異距離的觀察值是 0.14。
第三步:檢驗(yàn)統(tǒng)計(jì)量的概率分布,在原假設(shè)下
這個(gè)步驟把檢驗(yàn)統(tǒng)計(jì)量的觀察值放在一邊,而是把重點(diǎn)放在,如果原假設(shè)為真,統(tǒng)計(jì)量的值是什么。 在原假設(shè)下,由于幾率,樣本可能出現(xiàn)不同的情況。 所以檢驗(yàn)統(tǒng)計(jì)量可能會(huì)有所不同。 這個(gè)步驟包括在隨機(jī)性的原假設(shè)下,計(jì)算出所有可能的檢驗(yàn)統(tǒng)計(jì)量及其所有概率。
換句話說(shuō),在這個(gè)步驟中,我們假設(shè)原假設(shè)為真,并計(jì)算檢驗(yàn)統(tǒng)計(jì)量的概率分布。 對(duì)于許多檢驗(yàn)統(tǒng)計(jì)量來(lái)說(shuō),這在數(shù)學(xué)和計(jì)算上都是一項(xiàng)艱巨的任務(wù)。 因此,我們通過(guò)抽樣過(guò)程的大量重復(fù),通過(guò)統(tǒng)計(jì)量的經(jīng)驗(yàn)分布來(lái)近似檢驗(yàn)統(tǒng)計(jì)量的概率分布。
在我們的例子中,我們通過(guò)直方圖可視化了這個(gè)分布。
第四步 檢驗(yàn)的結(jié)論
原假設(shè)和備選假設(shè)之間的選擇,取決于步驟 2 和 3 的結(jié)果之間的比較:檢驗(yàn)統(tǒng)計(jì)量的觀察值以及它的分布,就像由原假設(shè)預(yù)測(cè)的那樣。
如果二者一致,則觀察到的檢驗(yàn)統(tǒng)計(jì)量與原假設(shè)的預(yù)測(cè)一致。 換句話說(shuō),這個(gè)檢驗(yàn)并不偏向備選假設(shè);數(shù)據(jù)更加支持原假設(shè)。
但如果兩者不一致,就像我們阿拉米達(dá)縣陪審團(tuán)的例子那樣,那么數(shù)據(jù)就不支持原假設(shè)。 這就是為什么我們得出結(jié)論,陪審團(tuán)不是隨機(jī)挑選的。 幾率之外的東西影響了他們的構(gòu)成。
如果數(shù)據(jù)不支持原假設(shè),我們說(shuō)檢驗(yàn)拒絕了原假設(shè)。
孟德?tīng)柕耐愣够?/h2>
格雷戈·孟德?tīng)枺?822-1884)是一位奧地利僧侶,被公認(rèn)為現(xiàn)代遺傳學(xué)領(lǐng)域的奠基人。 孟德?tīng)枌?duì)植物進(jìn)行了仔細(xì)而大規(guī)模的實(shí)驗(yàn),提出遺傳學(xué)的基本規(guī)律。
他的許多實(shí)驗(yàn)都在各種豌豆上進(jìn)行。 他提出了一系列每個(gè)品種的假設(shè)。 這些被稱為模型。 然后他通過(guò)種植植物和收集數(shù)據(jù)來(lái)測(cè)試他的模型的有效性。
讓我們分析這樣的實(shí)驗(yàn)的數(shù)據(jù),看看孟德?tīng)柕哪P褪欠窈谩?/p>
在一個(gè)特定的品種中,每個(gè)植物具有紫色或白色的花。 每個(gè)植物的顏色不受其他植物顏色的影響。 孟德?tīng)柾茰y(cè),植物應(yīng)隨機(jī)具有紫色或白色的花,比例為 3:1。
原假設(shè)。 對(duì)于每種植物,75% 的幾率是紫色的花,25% 的幾率是白色的花,無(wú)論其他植物的顏色如何。
也就是說(shuō),原假設(shè)是孟德?tīng)柕哪P褪呛玫摹?任何觀察到的模型偏差都是機(jī)會(huì)變異的結(jié)果。
當(dāng)然,有一個(gè)相反的觀點(diǎn)。
備選假設(shè)。 孟德?tīng)柕哪P褪菬o(wú)效的。
讓我們看看孟德?tīng)柺占臄?shù)據(jù)更加支持這些假設(shè)中的哪一個(gè)。
flowers表包含了由模型預(yù)測(cè)的比例,以及孟德?tīng)柗N植的植物數(shù)據(jù)。
flowers = Table().with_columns(
'Color', make_array('Purple', 'White'),
'Model Proportion', make_array(0.75, 0.25),
'Plants', make_array(705, 224)
)
flowers
| Color | Model Proportion | Plants |
|---|---|---|
| Purple | 0.75 | 705 |
| White | 0.25 | 224 |
共有 929 株植物。 為了觀察顏色的分布是否接近模型預(yù)測(cè)的結(jié)果,我們可以找到觀察到的比例和模型比例之間的總變異距離,就像我們之前那樣。 但是只有兩個(gè)類別(紫色和白色),我們有一個(gè)更簡(jiǎn)單的選擇:我們可以查看紫色的花的比例。 白色的比例沒(méi)有新的信息,因?yàn)樗皇?1 減去紫色的比例。
total_plants = flowers.column('Plants').sum()
total_plants
929
observed_proportion = flowers.column('Plants').item(0)/total_plants
observed_proportion
0.7588805166846071
檢驗(yàn)統(tǒng)計(jì)量。 由于該模型預(yù)測(cè) 75% 的植物花為紫色,相關(guān)的統(tǒng)計(jì)量是 0.75 與觀察到的花為紫色的植物的比例之間的差異。
observed_statistic = abs(observed_proportion - 0.75)
observed_statistic
0.0088805166846070982
這個(gè)值與原假設(shè)所說(shuō)的應(yīng)該的情況相比如何? 為了回答這個(gè)問(wèn)題,我們需要使用模型來(lái)模擬植物的新樣本并計(jì)算每個(gè)樣本的統(tǒng)計(jì)量。
我們將首先創(chuàng)建數(shù)組model_colors,包含顏色,比例由模型給定。 然后我們可以使用np.random.choice從這個(gè)數(shù)組中,帶放回地隨機(jī)抽樣 929 次。 根據(jù)孟德?tīng)柕哪P?,這就是植物的生成過(guò)程。
model_colors = make_array('Purple', 'Purple', 'Purple', 'White')
new_sample = np.random.choice(model_colors, total_plants)
譯者注:這里可以使用
np.random.choice的p參數(shù)來(lái)簡(jiǎn)化編程。
new_sample = np.random.choice(['Purple', 'White'], total_plants, p=[0.75, 0.25])
為了與我們觀察到的統(tǒng)計(jì)量進(jìn)行比較,我們需要知道這個(gè)新樣本中,花為紫色的植物的比例與 0.75 的差。
proportion_purple = np.count_nonzero(new_sample == 'Purple')/total_plants
abs(proportion_purple - 0.75)
0.016953713670613602
檢驗(yàn)統(tǒng)計(jì)量的經(jīng)驗(yàn)分布,在原假設(shè)為真的情況下。 毫不奇怪,我們得到的值與我們觀察到的統(tǒng)計(jì)量之間的差約為 0.00888。 但是如果我們又取了一個(gè)樣本,會(huì)有多大的不同呢? 你可以通過(guò)重新運(yùn)行上面的兩個(gè)單元格來(lái)回答這個(gè)問(wèn)題,或者使用for循環(huán)來(lái)模擬統(tǒng)計(jì)量。
repetitions = 5000
sampled_stats = make_array()
for i in np.arange(repetitions):
new_sample = np.random.choice(model_colors, total_plants)
proportion_purple = np.count_nonzero(new_sample == 'Purple')/total_plants
sampled_stats = np.append(sampled_stats, abs(proportion_purple - 0.75))
results = Table().with_column('Distance from 0.75', sampled_stats)
results.hist()
https://gitee.com/wizardforcel/data8-textbook-zh/raw/master/img/10-5.png
檢驗(yàn)的結(jié)論。 根據(jù)孟德?tīng)柕臄?shù)據(jù),統(tǒng)計(jì)量的觀測(cè)值是 0.00888,剛好 0.01 以下。 這正好在這個(gè)分布的中心。
results.hist()
#Plot the observed statistic as a large red point on the horizontal axis
plots.scatter(observed_statistic, 0, color='red', s=30);
https://gitee.com/wizardforcel/data8-textbook-zh/raw/master/img/10-6.png
基于孟德?tīng)枖?shù)據(jù)的統(tǒng)計(jì)量,與我們基于孟德?tīng)柲P偷哪M的分布是一致的。 因此,與備選假設(shè)相比,數(shù)據(jù)更加支持原假設(shè) - 孟德?tīng)柕哪P褪呛玫摹?/p>
P 值和“一致”的含義
在阿拉米達(dá)縣陪審團(tuán)的例子中,我們觀察到的檢驗(yàn)統(tǒng)計(jì)量顯然與原假設(shè)的預(yù)測(cè)差距很大。在豌豆花的例子中,觀察到的統(tǒng)計(jì)量與原假設(shè)所預(yù)測(cè)的分布一致。所以在這兩個(gè)例子中,選擇哪個(gè)假設(shè)是明顯的。
但是有時(shí)候這個(gè)決策還不是很明顯。觀察到的檢驗(yàn)統(tǒng)計(jì)量是否與原假設(shè)預(yù)測(cè)的分布一致,是一個(gè)判斷問(wèn)題。我們建議你使用檢驗(yàn)統(tǒng)計(jì)量的值以及原假設(shè)預(yù)測(cè)的分布圖,來(lái)做出判斷。這將使你的讀者可以自己判斷兩者是否一致。
如果你不想做出自己的判斷,你可以遵循一些慣例。這些慣例基于所謂的觀察到的顯著性水平,或簡(jiǎn)稱 P 值。 P 值是一個(gè)幾率,使用檢驗(yàn)統(tǒng)計(jì)量的概率分布計(jì)算,可以用步驟 3 中的經(jīng)驗(yàn)分布來(lái)近似。
求出 P 值的實(shí)用說(shuō)明。現(xiàn)在,我們只是給出一個(gè)求出該值的機(jī)械的方法;意義和解釋放到下一節(jié)中。方法:將觀察到的檢驗(yàn)統(tǒng)計(jì)量放在直方圖的橫軸上,求出從以該點(diǎn)起始的尾部比例。這就是 P 值,或者是基于經(jīng)驗(yàn)分布的 P 值的相當(dāng)好的近似值。
empirical_P = np.count_nonzero(sampled_stats >= observed_statistic)/repetitions
empirical_P
0.5508
觀察到的統(tǒng)計(jì)量 0.00888 非常接近孟德?tīng)柲P拖滤薪y(tǒng)計(jì)量的中位數(shù)。 你可以把它看作是我們之前評(píng)論的一個(gè)量化,即觀察到的統(tǒng)計(jì)量正好在原假設(shè)的分布中心。
但是如果離得更遠(yuǎn)呢? 例如,如果觀察到的統(tǒng)計(jì)量是 0.035 呢? 那么我們會(huì)得出什么結(jié)論呢?
np.count_nonzero(sampled_stats >= 0.035)/repetitions
0.0122
這個(gè)比例就很小了。 如果 P 值較小,那就意味著它的尾部很小,所以觀察到的統(tǒng)計(jì)量遠(yuǎn)離原假設(shè)的預(yù)測(cè)。 這意味著數(shù)據(jù)支持備選假設(shè)而不是支持原假設(shè)。
所以如果我們觀察到的統(tǒng)計(jì)量是 0.035 而不是 0.00888,我們會(huì)選擇備選假設(shè)。
那么多小算“小”呢? 這里有個(gè)約定。
如果 P 值小于 5%,結(jié)果稱為“統(tǒng)計(jì)學(xué)顯著”。
如果 P 值更小 - 小于 1%,結(jié)果被稱為“高度統(tǒng)計(jì)學(xué)顯著”。
在這兩種情況下,檢驗(yàn)的結(jié)論是數(shù)據(jù)支持備選假設(shè)。
約定的歷史注解
上面定義的統(tǒng)計(jì)學(xué)顯著性的確定,已經(jīng)在所有應(yīng)用領(lǐng)域的統(tǒng)計(jì)分析中成為標(biāo)準(zhǔn)。當(dāng)一個(gè)約定被如此普遍遵循時(shí),研究它是如何產(chǎn)生的就有趣了。
統(tǒng)計(jì)檢驗(yàn)方法 - 基于隨機(jī)樣本數(shù)據(jù)在假設(shè)之間選擇 - 由 Ronald Fisher 爵士在 20 世紀(jì)初開(kāi)發(fā)。在 1925 年出版的《寫(xiě)給研究工作者的統(tǒng)計(jì)學(xué)方法》(Statistical Methods for Research Workers)一書(shū)中的下列陳述中,Ronald 爵士可能在不知情的情況下建立了統(tǒng)計(jì)學(xué)顯著的約定。對(duì)于 5% 的水平,他寫(xiě)道:“判斷一個(gè)偏差是否顯著的時(shí)候,將它當(dāng)做一個(gè)極限非常方便。
Ronald 爵士覺(jué)得“方便”的東西變成了截?cái)啵@得了普適常數(shù)的地位。無(wú)論羅納德爵士如何選出了這個(gè)點(diǎn),這個(gè)值是他在眾多值中的個(gè)人選擇:在 1926 年的一篇文章中,他寫(xiě)道:“如果二十分之一看起來(lái)還是不夠高,如果我們?cè)敢獾脑挘?我們可以把線畫(huà)在百分之二的地方,或者百分之一。個(gè)人來(lái)說(shuō),作者更傾向于把顯著的較低標(biāo)準(zhǔn)設(shè)為 5%...”
Fisher 知道“低”是一個(gè)判斷問(wèn)題,沒(méi)有獨(dú)特的定義。我們建議你遵循他的優(yōu)秀例子。提供你的數(shù)據(jù),作出判斷,并解釋你為什么這樣做。
GSI 的辯護(hù)
假設(shè)檢驗(yàn)是最廣泛使用的統(tǒng)計(jì)推斷方法之一。我們已經(jīng)看到,它的用途十分廣泛,例如審團(tuán)選擇和豌豆花。在本節(jié)的最后一個(gè)例子中,我們將在另一個(gè)完全不同的語(yǔ)境中對(duì)假設(shè)進(jìn)行測(cè)試。
伯克利統(tǒng)計(jì)班的 350 名學(xué)生被分為 12 個(gè)討論小組,由研究生導(dǎo)師(GSI)帶領(lǐng)。期中之后后,第三組的學(xué)生注意到,他們的成績(jī)平均上低于班上的其他人。
在這種情況下,學(xué)生們往往會(huì)抱怨這一組的 GSI 。他們肯定覺(jué)得,GSI 的教學(xué)一定是有問(wèn)題的。否則為什么他們組會(huì)比別人做得更差呢?
GSI 通常有更多的統(tǒng)計(jì)學(xué)經(jīng)驗(yàn),他們的觀點(diǎn)往往是不同的:如果你只是從全班隨機(jī)抽取一部分學(xué)生,他們的平均分?jǐn)?shù)就可能與學(xué)生不滿意的分?jǐn)?shù)相似。
GSI 的立場(chǎng)是一個(gè)明確的幾率模型。我們來(lái)檢驗(yàn)一下。
原假設(shè):第三組的平均成績(jī)類似于從班上隨機(jī)抽取的相同數(shù)量的學(xué)生的平均成績(jī)。
備選假設(shè):不是,太低了。
scores包含整個(gè)班級(jí)的每個(gè)學(xué)生的小組編號(hào)和期中成績(jī)。期中成績(jī)是 0 到 25 的整數(shù);0 的意思是學(xué)生沒(méi)來(lái)考試。
scores = Table.read_table('scores_by_section.csv')
scores
| Section | Midterm |
|---|---|
| 1 | 22 |
| 2 | 12 |
| 2 | 23 |
| 2 | 14 |
| 1 | 20 |
| 3 | 25 |
| 4 | 19 |
| 1 | 24 |
| 5 | 8 |
| 6 | 14 |
(省略了 349 行)
這是 12 個(gè)小組的平均成績(jī)。
scores.group('Section', np.mean).show()
| Section | Midterm mean |
|---|---|
| 1 | 15.5938 |
| 2 | 15.125 |
| 3 | 13.6667 |
| 4 | 14.7667 |
| 5 | 17.4545 |
| 6 | 15.0312 |
| 7 | 16.625 |
| 8 | 16.3103 |
| 9 | 14.5667 |
| 10 | 15.2353 |
| 11 | 15.8077 |
| 12 | 15.7333 |
第三組平均成績(jī)比其他組低一點(diǎn)。 這看起來(lái)像機(jī)會(huì)變異?
我們知道如何找出答案。 我們首先從全班隨機(jī)挑選一個(gè)“第三組”,看看它的平均得分是多少;然后再做一遍又一遍。
首先,我們需要第三組的學(xué)生人數(shù):
scores.group('Section')
| Section | count |
|---|---|
| 1 | 32 |
| 2 | 32 |
| 3 | 27 |
| 4 | 30 |
| 5 | 33 |
| 6 | 32 |
| 7 | 24 |
| 8 | 29 |
| 9 | 30 |
| 10 | 34 |
(省略了 2 行)
現(xiàn)在我們的計(jì)劃是,從班上隨機(jī)挑選 27 名學(xué)生,并計(jì)算他們的平均分?jǐn)?shù)。
所有學(xué)生的成績(jī)都在一張表上,每個(gè)學(xué)生一行。 因此,我們將使用sample來(lái)隨機(jī)選擇行,使用with_replacement = False選項(xiàng),以便我們無(wú)放回地抽樣。 (稍后我們會(huì)看到,結(jié)果幾乎與我們通過(guò)放回取樣所得到的結(jié)果相同)。
scores.sample(27, with_replacement=False).column('Midterm').mean()
13.703703703703704
我們已經(jīng)準(zhǔn)備好,模擬隨機(jī)的“第三組”的均值的經(jīng)驗(yàn)分布。
section_3_mean = 13.6667
repetitions = 10000
means = make_array()
for i in np.arange(repetitions):
new_mean = scores.sample(27, with_replacement=False).column('Midterm').mean()
means = np.append(means, new_mean)
emp_p_value = np.count_nonzero(means <= section_3_mean)/repetitions
print('Empirical P-value:', emp_p_value)
results = Table().with_column('Random Sample Mean', means)
results.hist()
#Plot the observed statistic as a large red point on the horizontal axis
plots.scatter(section_3_mean, 0, color='red', s=30);
Empirical P-value: 0.0581
https://gitee.com/wizardforcel/data8-textbook-zh/raw/master/img/10-7.png
從直方圖來(lái)看,第三組的較低均值看起來(lái)有些不尋常,但 5% 截?cái)嘀档膽T例更加偏向 GSI 的假設(shè)。 有了這個(gè)截?cái)嘀?,我們說(shuō)這個(gè)結(jié)果不是統(tǒng)計(jì)學(xué)顯著的。
錯(cuò)誤概率
在我們決定我們的數(shù)據(jù)更加支持哪個(gè)假設(shè)的過(guò)程中,最后一步涉及數(shù)據(jù)的原假設(shè)的一致性判斷。 雖然絕大多數(shù)時(shí)候這一步都能產(chǎn)生正確的決策,但有時(shí)也會(huì)讓我們誤入歧途。 原因是機(jī)會(huì)變異。 例如,即使當(dāng)原假設(shè)為真時(shí),機(jī)會(huì)變異也可能導(dǎo)致樣本看起來(lái)與原假設(shè)的預(yù)測(cè)完全不同。
在本節(jié)中,我們將研究假設(shè)的統(tǒng)計(jì)檢驗(yàn)如何可能得出這樣的結(jié)論,也就是實(shí)際上原假設(shè)為真時(shí),數(shù)據(jù)支持備選假設(shè)。
由于我們根據(jù) P 值做出決策,現(xiàn)在應(yīng)該給出一個(gè)更正式的定義,而不是“在經(jīng)驗(yàn)直方圖的橫坐標(biāo)上放置觀察到的統(tǒng)計(jì)量,并且求出大于它的尾部區(qū)域”的機(jī)械方法。
P 值的定義
P 值是在原假設(shè)下,檢驗(yàn)統(tǒng)計(jì)量等于在數(shù)據(jù)中觀察到的值,或甚至在備選假設(shè)方向上更進(jìn)一步的幾率。
讓我們先看看這個(gè)定義如何與前一節(jié)的計(jì)算結(jié)果一致。
回顧孟德?tīng)柕耐愣够?/h3>
在這個(gè)例子中,我們?cè)u(píng)估孟德?tīng)柕耐愣刮锓N的遺傳模型是否良好。 首先回顧一下我們?nèi)绾谓Q策過(guò)程,然后在這個(gè)背景下考察 P 值的定義。
原假設(shè)。 孟德?tīng)柕哪P褪呛玫模褐参锏幕ㄊ亲仙虬咨?,類似于?lái)自總體紫色,紫色,紫色,白色的帶放回隨機(jī)樣本。
備選假設(shè)。 孟德?tīng)柕哪P褪清e(cuò)誤的。
檢驗(yàn)統(tǒng)計(jì)量。0.75 與花為紫色的植物的觀察比例的距離:
樣本量較大(929),所以如果孟德?tīng)柕哪P秃?,那么觀察到的紫色花的比例應(yīng)該接近 0.75。 如果孟德?tīng)柕哪P褪清e(cuò)誤的,則觀察到的紫色比例不應(yīng)該接近0.75,從而使統(tǒng)計(jì)值量更大。
因此,在這種情況下,“備選假設(shè)的方向”意味著“更大”。
檢驗(yàn)統(tǒng)計(jì)量的觀測(cè)值(四舍五入到小數(shù)點(diǎn)后五位)是 https://www.zhihu.com/equation?tex=%7C0.75888%20-%200.75%7C%20%7E%3D%7E%200.00888。根據(jù)定義,P 值是從孟德?tīng)柕哪P椭谐槿〉臉颖荆a(chǎn)生 0.00888 或更大的統(tǒng)計(jì)量的幾率。
雖然我們還沒(méi)有學(xué)會(huì)如何精確地計(jì)算這個(gè)幾率,但我們可以通過(guò)模擬來(lái)逼近它,這就是我們?cè)谇耙还?jié)中所做的。 以下是該部分的所有相關(guān)代碼。
# The model and the data
model_colors = make_array('Purple', 'Purple', 'Purple', 'White')
total_plants = 929
observed_statistic = 0.0088805166846070982
# Simulating the test statistic under the null hypothesis
repetitions = 5000
sampled_stats = make_array()
for i in np.arange(repetitions):
new_sample = np.random.choice(model_colors, total_plants)
proportion_purple = np.count_nonzero(new_sample == 'Purple')/total_plants
sampled_stats = np.append(sampled_stats, abs(proportion_purple - 0.75))
# The P-value (an approximation based on the simulation)
empirical_P = np.count_nonzero(sampled_stats >= observed_statistic)/repetitions
# Displaying the results
results = Table().with_column('Distance from 0.75', sampled_stats)
print('Empirical P-value:', empirical_P)
results.hist()
plots.scatter(observed_statistic, 0, color='red', s=30);
Empirical P-value: 0.5436
https://gitee.com/wizardforcel/data8-textbook-zh/raw/master/img/10-8.png
注意 P 值的計(jì)算根據(jù)孟德?tīng)柕哪P?,基于所有抽取樣本的重?fù),并且每次都計(jì)算檢驗(yàn)統(tǒng)計(jì)量:
empirical_P = np.count_nonzero(sampled_stats >= observed_statistic)/repetitions
empirical_P
0.5436
這是統(tǒng)計(jì)量大于等于觀測(cè)值 0.00888 的樣本比例。
計(jì)算結(jié)果表明,如果孟德?tīng)柕募僭O(shè)是真實(shí)的,那么得到一個(gè)植物樣本,它的檢驗(yàn)統(tǒng)計(jì)量大于等于孟德?tīng)柕挠^測(cè)值,這個(gè)幾率大概是 54%。 這是一個(gè)很大的幾率(并且比“較小”的慣例上的 5% 截?cái)嘀狄蟮枚啵?因此,孟德?tīng)柕臄?shù)據(jù)產(chǎn)生了一個(gè)統(tǒng)計(jì)量,基于他的模型是不足為奇的,這個(gè)數(shù)據(jù)支持他的模型而不是支持備選假設(shè)。
回顧 GSI 的辯護(hù)
在這個(gè)例子中,第三組由一個(gè)班級(jí) 12 個(gè)組中的 27 個(gè)學(xué)生組成,期中分?jǐn)?shù)均值低于其他組。 我們?cè)噲D在以下假設(shè)之間作出決策:
原假設(shè):第三組的平均分?jǐn)?shù)類似于從班上隨機(jī)挑選的 27 名學(xué)生的平均分?jǐn)?shù)。
備選假設(shè):不是,太低了。
檢驗(yàn)統(tǒng)計(jì)量。 抽樣分?jǐn)?shù)的均值。
在這里,備選假設(shè)說(shuō)了,觀察到的平均值太低,并不從隨機(jī)抽樣中產(chǎn)生 - 第三組里面有些東西使得平均值較低。
所以在這里,“備選假設(shè)的方向”是指“較小”。
檢驗(yàn)統(tǒng)計(jì)量的觀測(cè)值是第三組的平均分 13.6667。因此,根據(jù)定義,P 值是 27 位隨機(jī)選取的學(xué)生的平均分 13.6667 或更小的幾率。
這是我們通過(guò)近似來(lái)模擬的幾率。 這是上一節(jié)的代碼。
# The data
scores = Table.read_table('scores_by_section.csv')
sec_3_mean = 13.6667
sec_3_size = 27
# Simulating the test statistic under the null hypothesis
repetitions = 10000
means = make_array()
for i in np.arange(repetitions):
new_mean = scores.sample(sec_3_size, with_replacement=False).column('Midterm').mean()
means = np.append(means, new_mean)
# The P-value (an empirical approximation based on the simulation)
empirical_P = np.count_nonzero(means <= sec_3_mean)/repetitions
# Displaying the results
print('Empirical P-value:', empirical_P)
results = Table().with_column('Random Sample Mean', means)
results.hist()
plots.scatter(sec_3_mean, 0, color='red', s=30);
Empirical P-value: 0.0569
https://gitee.com/wizardforcel/data8-textbook-zh/raw/master/img/10-9.png
經(jīng)驗(yàn) P 值的計(jì)算在下面的單元格中。
empirical_P = np.count_nonzero(means <= sec_3_mean)/repetitions
empirical_P
0.0569
這是隨機(jī)樣本的比例,其中樣本均值小于等于第三組的均值 13.667。
模擬結(jié)果顯示,隨機(jī)抽樣組的 27 名學(xué)生平均分?jǐn)?shù)低于第三組的均值,幾率為大約 6% ??。如果按照傳統(tǒng)的 5% 截?cái)嘀底鳛椤拜^小” P 值的定義,那么 6% 不小了,結(jié)果不是統(tǒng)計(jì)學(xué)顯著的。換句話說(shuō),你沒(méi)有足夠的證據(jù)來(lái)拒絕原假設(shè)的隨機(jī)性。
你可以盡管違背約定,選擇不同的截?cái)嘀?。如果你這樣做,請(qǐng)記住以下幾點(diǎn):
- 始終提供檢驗(yàn)統(tǒng)計(jì)量的觀察值和 P 值,以便讀者可以自行決定 P 值是否小。
- 只有當(dāng)傳統(tǒng)的所得結(jié)果不符合你的喜好時(shí),才需要違背約定。
- 即使你的檢驗(yàn)結(jié)論為,第三組平均分?jǐn)?shù)低于隨機(jī)抽樣的學(xué)生的平均分?jǐn)?shù),也沒(méi)有為什么它較低的信息。
做出錯(cuò)誤決策的概率
這種平均分?jǐn)?shù)的分析產(chǎn)生了一個(gè)重要的觀測(cè),關(guān)于我們的檢驗(yàn)做出錯(cuò)誤結(jié)論的概率。
假設(shè)你決定使用 5% 的截?cái)嘀底鳛?P 值。 也就是說(shuō),如果 P 值低于 5%,那么假設(shè)你會(huì)選擇備選假設(shè),否則保持原假設(shè)。
那么從樣本均值的經(jīng)驗(yàn)直方圖可以看出,如果第三組的平均值是 12,那么你會(huì)說(shuō)“太低了”。12 左側(cè)的面積不足 5%。
results.hist()
https://gitee.com/wizardforcel/data8-textbook-zh/raw/master/img/10-10.png
13 左邊的面積也不到 5%。 左側(cè)面積小于 5% 的所有樣本均值以紅色顯示。
https://gitee.com/wizardforcel/data8-textbook-zh/raw/master/img/10-11.png
你可以看到,如果第三組的平均值接近 13,并且你使用 5% 的截?cái)嘀底鳛?P 值,那么你應(yīng)該說(shuō)小組的均值不像隨機(jī)樣本的均值。
你也可以看到,隨機(jī)樣本的均值可能在 13 左右(盡管不太可能)。事實(shí)上,在我們的模擬中,5000 個(gè)隨機(jī)樣本中有幾個(gè)的均值與 13 相差 0.01 以內(nèi)。
results.where('Random Sample Mean', are.between(12.99, 13.01)).num_rows
13
你看到的是檢驗(yàn)做出錯(cuò)誤結(jié)論的可能性。
如果你使用了 10% 的截?cái)嘀刀皇?5%,那么這里的紅色部分意味著,你可能得出結(jié)論,它太低了,不能從隨機(jī)樣本中產(chǎn)生,即使在你不知情的情況下,它們是來(lái)自隨機(jī)樣本。
https://gitee.com/wizardforcel/data8-textbook-zh/raw/master/img/10-12.png
做出錯(cuò)誤決策的幾率
假設(shè)你想測(cè)試一個(gè)硬幣是否均勻。 那么假設(shè)是:
原假設(shè):硬幣是均勻的。 也就是說(shuō),結(jié)果是來(lái)自正面和反面的隨機(jī)樣本。
備選假設(shè):硬幣不均勻。
假設(shè)你的數(shù)據(jù)基于 400 個(gè)硬幣的投擲。 你會(huì)預(yù)計(jì)平等的硬幣能夠在 400 個(gè)次投擲中擁有 200 個(gè)正面,所以合理的檢驗(yàn)統(tǒng)計(jì)量就是使用 https://www.zhihu.com/equation?tex=%5Cmbox%7Btest%20statistic%7D%20%7E%3D%7E%20%7C%5Cmbox%7Bnumber%20of%20heads%7D%20-%20200%7C。
我們可以在均勻的原假設(shè)下模擬統(tǒng)計(jì)量。
coin = make_array('Heads', 'Tails')
num_tosses = 400
repetitions = 10000
heads = make_array()
for i in np.arange(repetitions):
tosses = np.random.choice(coin, 400)
heads = np.append(heads, np.count_nonzero(tosses == 'Heads'))
sampled_stats = abs(heads - 200)
results = Table().with_column('|Number of Heads - 200|', sampled_stats)
results.hist(bins = np.arange(0, 45, 5))
https://gitee.com/wizardforcel/data8-textbook-zh/raw/master/img/10-13.png
如果硬幣是不均勻的,那么你預(yù)計(jì)硬幣的數(shù)量就不是 200,或者換句話說(shuō),如果硬幣是均勻的,那么你預(yù)計(jì),檢驗(yàn)統(tǒng)計(jì)量就會(huì)大一些。
因此,正如在孟德?tīng)柕耐愣够ǖ睦又?,P 值是統(tǒng)計(jì)量經(jīng)驗(yàn)分布的右側(cè)尾部的區(qū)域。
假設(shè)你決定使用 3.5% 的截?cái)嘀底鳛?P 值。 那么即使硬幣碰巧是均勻的,對(duì)于模擬中的 10000 個(gè)檢驗(yàn)統(tǒng)計(jì)量的前 3.5%,你也會(huì)得出“不均勻”的結(jié)論。
換句話說(shuō),如果你用3.5% 的 P 值作為臨界值,而硬幣恰好是均勻的,那么大概有 3.5% 的概率你會(huì)認(rèn)為硬幣是不均勻的。
P 值的截?cái)嘀凳清e(cuò)誤概率
上面的例子是一個(gè)普遍事實(shí)的特例:
如果對(duì) P 值使用p%的截?cái)嘀?,并且原假設(shè)恰好是真的,那么大約有p%的概率,你的檢驗(yàn)就會(huì)得出結(jié)論:備選假設(shè)是正確的。
因此,1% 的截?cái)嘀当?5% 更保守 - 如果原假設(shè)恰好是真的,那么結(jié)論為“備選假設(shè)”的可能性就會(huì)降低。出于這個(gè)原因,醫(yī)學(xué)治療隨機(jī)對(duì)照試驗(yàn)通常使用 1% 作為決定以下兩個(gè)假設(shè)之間的臨界值:
原假設(shè):實(shí)驗(yàn)沒(méi)有效果;患者的實(shí)驗(yàn)組和對(duì)照組的結(jié)果之間的觀察到的差異,是由于隨機(jī)性造成的。
備選假設(shè):實(shí)驗(yàn)有效果。
這個(gè)想法是,控制結(jié)論為實(shí)驗(yàn)有效,而實(shí)際上無(wú)效的幾率。這減少了給予患者無(wú)效治療的風(fēng)險(xiǎn)。
盡管如此,即使你將截?cái)嘀翟O(shè)置為 1% 那樣低,并且實(shí)驗(yàn)沒(méi)有任何效果,但有大約 1% 的幾率得出結(jié)論:實(shí)驗(yàn)是有效的。這由于機(jī)會(huì)變異。來(lái)自隨機(jī)樣本的數(shù)據(jù)很可能最終導(dǎo)致你誤入歧途。
數(shù)據(jù)窺探
上面的討論意味著,如果我們進(jìn)行 500 個(gè)單獨(dú)的隨機(jī)對(duì)照實(shí)驗(yàn),其中實(shí)驗(yàn)實(shí)際上沒(méi)有效果,并且每個(gè)實(shí)驗(yàn)使用 1% 的截?cái)嘀担敲赐ㄟ^(guò)機(jī)會(huì)變異,500 個(gè)實(shí)驗(yàn)中的約 5 個(gè)將得出結(jié)論:實(shí)驗(yàn)確實(shí)有效果。
我們可以希望,沒(méi)有人會(huì)對(duì)一無(wú)所獲的實(shí)驗(yàn)進(jìn)行 500 次。但研究人員使用相同的數(shù)據(jù)測(cè)試多個(gè)假設(shè)并不罕見(jiàn)。例如,在一項(xiàng)關(guān)于藥物作用的隨機(jī)對(duì)照試驗(yàn)中,研究人員可能會(huì)測(cè)試該藥物是否對(duì)各種不同疾病有影響。
現(xiàn)在假設(shè)藥物對(duì)任何東西都沒(méi)有影響。只是機(jī)會(huì)變異,一小部分的測(cè)試可能會(huì)得出結(jié)論,它確實(shí)有效果。所以,當(dāng)你閱讀一篇使用假設(shè)檢驗(yàn)的研究,并得出實(shí)驗(yàn)有效的結(jié)論時(shí),總是詢問(wèn)研究人員,在發(fā)現(xiàn)所報(bào)告的效果之前,究竟檢驗(yàn)了多少種不同的效果。
如果研究人員在找到給出“高度統(tǒng)計(jì)學(xué)顯著”的結(jié)論之前,進(jìn)行了多個(gè)不同的檢驗(yàn),請(qǐng)謹(jǐn)慎使用結(jié)果。這項(xiàng)研究可能會(huì)受到數(shù)據(jù)窺探的影響,這實(shí)際上意味著將數(shù)據(jù)捏造成一個(gè)假象。
在這種情況下,驗(yàn)證報(bào)告結(jié)果的一種方法是,復(fù)制實(shí)驗(yàn)并單獨(dú)檢驗(yàn)該特定效果。如果它再次表現(xiàn)為顯著,就驗(yàn)證了原來(lái)的結(jié)論。
技術(shù)注解:其他類型的錯(cuò)誤
當(dāng)然,還有另外一種錯(cuò)誤:認(rèn)為治療什么也不做,事實(shí)上它做了一些事情。近似這個(gè)錯(cuò)誤超出了本節(jié)的范圍。要知道,如果你建立你的測(cè)試來(lái)減少兩個(gè)錯(cuò)誤之一,你幾乎總是增加另一個(gè)。
技術(shù)注解:識(shí)別拒絕域
在上面的硬幣投擲的例子中,我們基于 400 次投擲,使用 P 值的 3.5 倍的截?cái)嘀祦?lái)測(cè)試硬幣的平等性。檢驗(yàn)統(tǒng)計(jì)量是 https://www.zhihu.com/equation?tex=%7C%5Cmbox%7Bnumber%20of%20heads%7D%20-%20200%7C。我們?cè)谄降鹊脑僭O(shè)下模擬了這個(gè)統(tǒng)計(jì)量。
由于所有統(tǒng)計(jì)數(shù)據(jù)的前 3.5%,檢驗(yàn)的結(jié)論是硬幣是不平等的,在下面展示為紅色。
https://gitee.com/wizardforcel/data8-textbook-zh/raw/master/img/10-14.png
從圖中可以看出,在平等的原假設(shè)下,大約前 3.5% 的檢驗(yàn)統(tǒng)計(jì)量的值大于 20。你也可以通過(guò)求出這些值的比例來(lái)確認(rèn):
results.where('|Number of Heads - 200|', are.above_or_equal_to(21)).num_rows/results.num_rows
0.0372
也就是說(shuō),如果檢驗(yàn)統(tǒng)計(jì)量是 21 或更高,那么以 3.5% 的截?cái)帱c(diǎn),你會(huì)得出結(jié)論:硬幣是不公平的。
也就是說(shuō),如果檢驗(yàn)統(tǒng)計(jì)量是 21 或更高,你將拒絕原假設(shè)。因此,“21 以上”的范圍被稱為該檢驗(yàn)的拒絕域。它對(duì)應(yīng)的正面數(shù)量是 221 及以上,或者是 179 及以下。
如果你沒(méi)有在直方圖上將其標(biāo)記為紅色,你將如何找到這些值?百分位數(shù)函數(shù)在這里派上用場(chǎng)。它需要你嘗試查找的百分比水平以及包含數(shù)據(jù)的數(shù)組。統(tǒng)計(jì)量的“前 3.5%”對(duì)應(yīng)于統(tǒng)計(jì)量的第 96.5 個(gè)百分點(diǎn):
percentile(96.5, results.column(0))
21.0
注意。由于“重復(fù)”(即數(shù)據(jù)中的幾個(gè)相同的值)和數(shù)據(jù)數(shù)組的任意長(zhǎng)度,百分位數(shù)并不總是那么整齊。在本課程的后面,我們將給出一個(gè)涵蓋所有情況的百分位數(shù)的精確定義。就目前而言,只要認(rèn)為percentile函數(shù)返回一個(gè)答案,與你直覺(jué)上看做百分點(diǎn)的東西相近即可。
示例:漏風(fēng)門(mén)
2015 年 1 月 18 日,印第安納波利斯小馬隊(duì)(Indianapolis Colts)和新英格蘭愛(ài)國(guó)者隊(duì)(New England Patriots)進(jìn)行了美式橄欖球大會(huì)(AFC)冠軍賽,來(lái)確定哪支球隊(duì)將晉級(jí)超級(jí)碗(Super Bowl)。比賽結(jié)束后,有人指責(zé)愛(ài)國(guó)者的橄欖球沒(méi)有按照規(guī)定的要求膨脹,并且更軟。這可能是一個(gè)優(yōu)勢(shì),因?yàn)檩^軟的球可能更容易被捕獲。
幾個(gè)星期以來(lái),美國(guó)橄欖球界充滿了指責(zé),否認(rèn),理論和懷疑:在 20 世紀(jì) 70 年代水門(mén)事件的政治丑聞之后,新聞界標(biāo)記了“漏風(fēng)門(mén)”這個(gè)話題。國(guó)家橄欖球聯(lián)盟(NFL)委托了獨(dú)立分析小組。在這個(gè)例子中,我們將執(zhí)行我們自己的數(shù)據(jù)分析。
壓強(qiáng)通常以磅/平方英寸(psi)來(lái)衡量。 NFL 規(guī)則規(guī)定了比賽用球必須充氣為 12.5psi 到 13.5psi 的壓強(qiáng)。每個(gè)隊(duì)都擁有 12 個(gè)球。球隊(duì)有責(zé)任保持自己的球的壓強(qiáng),但比賽官方會(huì)檢查球。在 AFC 比賽開(kāi)始之前,所有愛(ài)國(guó)者的球都在 12.5psi 左右。小馬隊(duì)的大部分球在大約 13.0psi。但是,這些賽前數(shù)據(jù)沒(méi)有被記錄下來(lái)。
在第二節(jié),小馬隊(duì)攔截了一個(gè)愛(ài)國(guó)者的球。在邊線上,他們測(cè)量了球的壓強(qiáng),并確定它低于 12.5psi 的閾值。他們及時(shí)通知了官方。
中場(chǎng)休息時(shí),所有的比賽用球都被收集起來(lái)檢查。兩名官方人員 Clete Blakeman 和 Dyrol Prioleau 測(cè)量了每個(gè)球的壓強(qiáng)。這里是數(shù)據(jù);壓強(qiáng)的單位是磅/平方英寸。被小馬隊(duì)攔截的愛(ài)國(guó)者的球在這個(gè)時(shí)候沒(méi)有被檢查。大多數(shù)小馬隊(duì)的球也沒(méi)有 - 官方只是耗完了時(shí)間,為了下半場(chǎng)的開(kāi)始,不得不交出了這些球。
football = Table.read_table('football.csv')
football = football.drop('Team')
football.show()
| Ball | Blakeman | Prioleau |
|---|---|---|
| Patriots 1 | 11.5 | 11.8 |
| Patriots 2 | 10.85 | 11.2 |
| Patriots 3 | 11.15 | 11.5 |
| Patriots 4 | 10.7 | 11 |
| Patriots 5 | 11.1 | 11.45 |
| Patriots 6 | 11.6 | 11.95 |
| Patriots 7 | 11.85 | 12.3 |
| Patriots 8 | 11.1 | 11.55 |
| Patriots 9 | 10.95 | 11.35 |
| Patriots 10 | 10.5 | 10.9 |
| Patriots 11 | 10.9 | 11.35 |
| Colts 1 | 12.7 | 12.35 |
| Colts 2 | 12.75 | 12.3 |
| Colts 3 | 12.5 | 12.95 |
| Colts 4 | 12.55 | 12.15 |
對(duì)于被檢查的 15 個(gè)球中的每一個(gè),兩名官員獲得了不同的結(jié)果。 在同一物體上重復(fù)測(cè)量得到不同的結(jié)果并不少見(jiàn),特別是當(dāng)測(cè)量由不同的人進(jìn)行時(shí)。 所以我們將每個(gè)球賦為這個(gè)球上進(jìn)行的兩次測(cè)量的平均值。
football = football.with_column(
'Combined', (football.column(1)+football.column(2))/2
)
football.show()
| Ball | Blakeman | Prioleau | Combined |
|---|---|---|---|
| Patriots 1 | 11.5 | 11.8 | 11.65 |
| Patriots 2 | 10.85 | 11.2 | 11.025 |
| Patriots 3 | 11.15 | 11.5 | 11.325 |
| Patriots 4 | 10.7 | 11 | 10.85 |
| Patriots 5 | 11.1 | 11.45 | 11.275 |
| Patriots 6 | 11.6 | 11.95 | 11.775 |
| Patriots 7 | 11.85 | 12.3 | 12.075 |
| Patriots 8 | 11.1 | 11.55 | 11.325 |
| Patriots 9 | 10.95 | 11.35 | 11.15 |
| Patriots 10 | 10.5 | 10.9 | 10.7 |
| Patriots 11 | 10.9 | 11.35 | 11.125 |
| Colts 1 | 12.7 | 12.35 | 12.525 |
| Colts 2 | 12.75 | 12.3 | 12.525 |
| Colts 3 | 12.5 | 12.95 | 12.725 |
| Colts 4 | 12.55 | 12.15 | 12.35 |
一眼望去,愛(ài)國(guó)者隊(duì)的壓強(qiáng)顯然低于小馬隊(duì)。 由于一些放氣在比賽過(guò)程中是正常的,獨(dú)立分析師決定計(jì)算距離比賽開(kāi)始的壓強(qiáng)下降值。 回想一下,愛(ài)國(guó)者的球開(kāi)始時(shí)是大約 12.5psi,小馬隊(duì)的球是大約 13.0psi。 因此愛(ài)國(guó)者球的壓強(qiáng)下降值計(jì)算為 12.5 減中場(chǎng)時(shí)的壓強(qiáng),小馬隊(duì)的球的壓強(qiáng)下降值為 13.0 減半場(chǎng)的壓強(qiáng)。
我們來(lái)構(gòu)建兩張表,一張是愛(ài)國(guó)者的數(shù)據(jù),一張是小馬的。 每張表的最后一列是距離開(kāi)始的壓強(qiáng)下降值。
patriots = football.where('Ball', are.containing('Patriots'))
patriots = patriots.with_column('Drop', 12.5-patriots.column('Combined'))
patriots.show()
| Ball | Blakeman | Prioleau | Combined | Drop |
|---|---|---|---|---|
| Patriots 1 | 11.5 | 11.8 | 11.65 | 0.85 |
| Patriots 2 | 10.85 | 11.2 | 11.025 | 1.475 |
| Patriots 3 | 11.15 | 11.5 | 11.325 | 1.175 |
| Patriots 4 | 10.7 | 11 | 10.85 | 1.65 |
| Patriots 5 | 11.1 | 11.45 | 11.275 | 1.225 |
| Patriots 6 | 11.6 | 11.95 | 11.775 | 0.725 |
| Patriots 7 | 11.85 | 12.3 | 12.075 | 0.425 |
| Patriots 8 | 11.1 | 11.55 | 11.325 | 1.175 |
| Patriots 9 | 10.95 | 11.35 | 11.15 | 1.35 |
| Patriots 10 | 10.5 | 10.9 | 10.7 | 1.8 |
| Patriots 11 | 10.9 | 11.35 | 11.125 | 1.375 |
colts = football.where('Ball', are.containing('Colts'))
colts = colts.with_column('Drop', 13.0-colts.column('Combined'))
colts
| Ball | Blakeman | Prioleau | Combined | Drop |
|---|---|---|---|---|
| Colts 1 | 12.7 | 12.35 | 12.525 | 0.475 |
| Colts 2 | 12.75 | 12.3 | 12.525 | 0.475 |
| Colts 3 | 12.5 | 12.95 | 12.725 | 0.275 |
| Colts 4 | 12.55 | 12.15 | 12.35 | 0.65 |
看起來(lái)好像愛(ài)國(guó)者的漏氣比小馬隊(duì)更大。 自然統(tǒng)計(jì)量是兩個(gè)平均漏氣之間的差異。 我們將處理它,但你可以自由地用其他自然統(tǒng)計(jì)量重復(fù)分析,例如整體平均漏氣與愛(ài)國(guó)者之間的差異。
patriots_mean = patriots.column('Drop').mean()
colts_mean = colts.column('Drop').mean()
observed_statistic = patriots_mean - colts_mean
observed_statistic
0.73352272727272805
這種正面的差異反映了這樣的事實(shí),即愛(ài)國(guó)者的球的平均壓強(qiáng)下降值大于小馬隊(duì)。
難道這個(gè)差異是偶然的,還是愛(ài)國(guó)者的下降值太大? 這個(gè)問(wèn)題非常類似于我們之前問(wèn)過(guò)的問(wèn)題,關(guān)于一個(gè)大班中的一個(gè)小組的成績(jī)。就像我們?cè)谶@個(gè)例子中所做的那樣,我們將建立原假設(shè)。
原假設(shè):愛(ài)國(guó)者的下降值就是 15 次下降值中的,大小為 11 的隨機(jī)樣本。 由于機(jī)會(huì)變異,均值比小馬隊(duì)高。
備選假設(shè):愛(ài)國(guó)者的下降值太大,并不僅僅是機(jī)會(huì)變異的結(jié)果。
如果原假設(shè)是真的,那么愛(ài)國(guó)者的下降值就可以對(duì)比從 15 次下降值隨機(jī)不帶放回抽取的 11 個(gè)。 所以讓我們創(chuàng)建一個(gè),含有所有 15 個(gè)下降值,并從中隨機(jī)抽取。
drops = Table().with_column(
'Drop', np.append(patriots.column('Drop'), colts.column('Drop'))
)
drops.show()
| Drop |
|---|
| 0.85 |
| 1.475 |
| 1.175 |
| 1.65 |
| 1.225 |
| 0.725 |
| 0.425 |
| 1.175 |
| 1.35 |
| 1.8 |
| 1.375 |
| 0.475 |
| 0.475 |
| 0.275 |
| 0.65 |
drops.sample(with_replacement=False).show()
| Drop |
|---|
| 1.225 |
| 1.175 |
| 1.175 |
| 0.475 |
| 1.375 |
| 0.425 |
| 0.85 |
| 0.65 |
| 1.35 |
| 1.65 |
| 0.725 |
| 0.475 |
| 1.475 |
| 1.8 |
| 0.275 |
注意sample的使用沒(méi)有帶樣本大小。 這是因?yàn)?code>sample使用的默認(rèn)樣本大小是表格的行數(shù);如果你不指定樣本大小,則會(huì)返回與原始表格大小相同的樣本。 這對(duì)于我們的目的非常理想,因?yàn)楫?dāng)你不放回抽樣時(shí)(通過(guò)指定with_replacement = False),并且次數(shù)與行數(shù)相同,最終會(huì)對(duì)所有行進(jìn)行隨機(jī)洗牌。 運(yùn)行幾次該單元格來(lái)查看輸出如何變化。
我們現(xiàn)在可以使用打亂表的前 11 行作為原假設(shè)下的愛(ài)國(guó)者的下降值的模擬。 剩下的四行形成了對(duì)應(yīng)的小馬隊(duì)的下降值的模擬。 我們可以使用這兩個(gè)模擬數(shù)組來(lái)模擬我們?cè)谠僭O(shè)下的檢驗(yàn)統(tǒng)計(jì)量。
shuffled = drops.sample(with_replacement=False)
new_patriots = shuffled.take(np.arange(11))
new_patriots_mean = new_patriots.column(0).mean()
new_colts = shuffled.take(np.arange(11, drops.num_rows))
new_colts_mean = new_colts.column(0).mean()
simulated_stat = new_patriots_mean - new_colts_mean
simulated_stat
-0.70681818181818212
運(yùn)行幾次該單元格來(lái)查看檢驗(yàn)統(tǒng)計(jì)量的變化情況。 請(qǐng)記住,模擬是在原假設(shè)下,即愛(ài)國(guó)者的下降值類似于隨機(jī)抽樣的 15 個(gè)下降值。
現(xiàn)在是我們熟悉的步驟了。 我們將在院假設(shè)下重復(fù)模擬檢驗(yàn)統(tǒng)計(jì)量。 模擬結(jié)束時(shí),數(shù)組的simulated_statistics將包含所有模擬的檢驗(yàn)統(tǒng)計(jì)量。
simulated_statistics = make_array()
repetitions = 10000
for i in np.arange(repetitions):
shuffled = drops.sample(with_replacement=False)
new_patriots_mean = shuffled.take(np.arange(11)).column(0).mean()
new_colts_mean = shuffled.take(np.arange(11, drops.num_rows)).column(0).mean()
new_statistic = new_patriots_mean - new_colts_mean
simulated_statistics = np.append(simulated_statistics, new_statistic)
現(xiàn)在對(duì)于經(jīng)驗(yàn) P 值,這是一個(gè)幾率(在原假設(shè)下計(jì)算),所得的檢驗(yàn)統(tǒng)計(jì)量等于觀察到統(tǒng)計(jì)量,或者更加偏向備選假設(shè)方向。 為了弄清楚如何計(jì)算它,重要的是要回憶另一個(gè)假設(shè):
備選假設(shè):愛(ài)國(guó)者的下降值太大,并不僅僅是機(jī)會(huì)變異的結(jié)果。
“備選假設(shè)的方向”是愛(ài)國(guó)者的下降值很大,對(duì)應(yīng)我們的檢驗(yàn)統(tǒng)計(jì)量,“愛(ài)國(guó)者的均值減去小馬隊(duì)的均值”較大。 所以 P 值是幾率(在原假設(shè)下計(jì)算),所得檢驗(yàn)統(tǒng)計(jì)量大于等于我們 0.73352272727272805。
empirical_P = np.count_nonzero(simulated_statistics >= observed_statistic)/repetitions
empirical_P
0.0027
這是一個(gè)非常小的 P 值。 為了觀察它,下面是原假設(shè)下檢驗(yàn)統(tǒng)計(jì)量的經(jīng)驗(yàn)分布,其中觀察到的統(tǒng)計(jì)量標(biāo)在橫軸上。
print('Observed Statistic:', observed_statistic)
print('Empirical P:', empirical_P)
results = Table().with_column('Simulated Statistic', simulated_statistics)
results.hist()
plots.scatter(observed_statistic, 0, color='red', s=30);
Observed Statistic: 0.733522727273
Empirical P: 0.0027
https://gitee.com/wizardforcel/data8-textbook-zh/raw/master/img/10-15.png
請(qǐng)注意,分布大部分集中在 0 左右。在原假設(shè)下,愛(ài)國(guó)者的下降值是所有 15 下降值的隨機(jī)樣本,因此小馬對(duì)也是如此。 所以這兩組下降值的平均值應(yīng)該大致相等,因此它們的差值應(yīng)該在 0 左右。
但是檢驗(yàn)統(tǒng)計(jì)量的觀察值離分布的中心還有很遠(yuǎn)的距離。 使用什么是“小”的任何合理的截?cái)嘀?,?jīng)驗(yàn) P 值都是小的。 所以我們最終拒絕原假設(shè)的隨機(jī)性,并得出結(jié)論,愛(ài)國(guó)者的下降值太大,并不單獨(dú)反映機(jī)會(huì)變異。
獨(dú)立的調(diào)查小組以數(shù)種不同的方式分析數(shù)據(jù),并考慮到物理定律。最后的報(bào)告說(shuō):
“愛(ài)國(guó)者比賽用球的平均壓降超過(guò)了小馬隊(duì)的球的平均壓降 0.45psi 至 1.02psi,這取決于所使用的測(cè)量?jī)x的各種可能的假設(shè),并假設(shè)愛(ài)國(guó)者的球的初始?jí)簭?qiáng)為 12.5psi,小馬隊(duì)的球是 13.0psi。”
- 2015 年 1 月 18 日,由 NFL 委托對(duì) AFC 冠軍賽的調(diào)查報(bào)告
我們的分析顯示,平均壓降約為 0.73psi,接近“0.45 至 1.02psi”的中心,因此與官方分析一致。
請(qǐng)記住,我們對(duì)假設(shè)的檢驗(yàn)并沒(méi)有確定差異不是偶然的原因。 建立因果關(guān)系通常比進(jìn)行假設(shè)檢驗(yàn)更為復(fù)雜。
但足球世界里最重要的問(wèn)題是因果關(guān)系:?jiǎn)栴}是愛(ài)國(guó)者足球的壓強(qiáng)過(guò)大是否是故意的。 如果你對(duì)調(diào)查人員的答案感到好奇,這里是完整的報(bào)告。