十、假設(shè)檢驗(yàn)

原文：Testing Hypotheses

譯者：飛龍

協(xié)議：CC BY-NC-SA 4.0

自豪地采用谷歌翻譯

數(shù)據(jù)科學(xué)家們經(jīng)常面對(duì)世界的是或不是的問題。你在這個(gè)課程中看到了一些這樣的問題的例子：

巧克力對(duì)你有好處嗎？
Broad Street 水泵的水是否會(huì)導(dǎo)致霍亂？
加州的人口統(tǒng)計(jì)在過去的十年中有所改變嗎？

我們是否回答這些問題取決于我們的數(shù)據(jù)。加州的人口普查數(shù)據(jù)可以解決人口統(tǒng)計(jì)的問題，而答案幾乎沒有任何不確定性。我們知道 Broad Street 水泵的水源受到霍亂病人的污染，所以我們可以很好地猜測(cè)它是否會(huì)引起霍亂。

巧克力還是其他任何實(shí)驗(yàn)對(duì)你有好處，幾乎肯定要由醫(yī)學(xué)專家來決定，但是第一步是使用數(shù)據(jù)科學(xué)分析來自研究和隨機(jī)實(shí)驗(yàn)的數(shù)據(jù)。

在本章中，我們將試圖回答這樣的問題，根據(jù)樣本和經(jīng)驗(yàn)分布的結(jié)論。我們將以北加利福尼亞州公民自由聯(lián)盟（ACLU）2010 年進(jìn)行的一項(xiàng)研究為例。

陪審團(tuán)選拔

2010 年，ACLU 在加利福尼亞州阿拉米達(dá)縣提交了一份陪審團(tuán)選擇的報(bào)告。報(bào)告得出的結(jié)論是，在阿拉米達(dá)縣的陪審團(tuán)小組成員中，某些族裔人數(shù)不足，并建議對(duì)專家組進(jìn)行一些改革，來合理分配陪審員。在本節(jié)中，我們將自己分析數(shù)據(jù)，并檢查出現(xiàn)的一些問題。

陪審團(tuán)

陪審團(tuán)是一群被選為準(zhǔn)陪審員的人；終審的陪審團(tuán)是從他們中挑選的。陪審團(tuán)可以由幾十人或幾千人組成，具體情況取決于審判情況。根據(jù)法律，陪審團(tuán)應(yīng)該是審判所在社區(qū)的代表。加州“民事訴訟法（California's Code of Civil Procedure）”第 197 條規(guī)定：“All persons selected for jury service shall be selected at random, from a source or sources inclusive of a representative cross section of the population of the area served by the court.”

最終的陪審團(tuán)是通過故意納入或排除，從陪審團(tuán)中挑選出來的。法律允許潛在的陪審員出于醫(yī)療原因而被免責(zé)；雙方的律師可以從名單上挑選一些潛在的陪審員進(jìn)行所謂的“先制性反對(duì)（peremptory challenges）”。初審法官可以根據(jù)陪審團(tuán)填寫的問卷進(jìn)行選擇；等等。但最初的陪審團(tuán)似乎是合格陪審員的總體的隨機(jī)樣本。

阿拉米達(dá)縣的陪審團(tuán)構(gòu)成

ACLU 的研究重點(diǎn)是阿拉米達(dá)縣陪審團(tuán)的種族組成。 ACLU 編輯了 2009 年和 2010 年在阿拉米達(dá)縣進(jìn)行的 11 次重罪審判中陪審團(tuán)的種族組成的數(shù)據(jù)。在這些陪審團(tuán)中，報(bào)告出庭的陪審員的總?cè)藬?shù)是 1453 人。ACLU 收集了所有人口的統(tǒng)計(jì)數(shù)據(jù)，并將這些數(shù)據(jù)與該縣所有合格陪審員的組成進(jìn)行比較。

數(shù)據(jù)列在下面的表格中，稱為jury。對(duì)于每個(gè)種族來說，第一個(gè)值就是該種族所有合格的陪審員候選人的比例。第二個(gè)值是出現(xiàn)在出現(xiàn)在陪審團(tuán)選拔過程的人中，那個(gè)種族的人的比例。

jury = Table().with_columns(
    'Ethnicity', make_array('Asian', 'Black', 'Latino', 'White', 'Other'),
    'Eligible', make_array(0.15, 0.18, 0.12, 0.54, 0.01),
    'Panels', make_array(0.26, 0.08, 0.08, 0.54, 0.04)
)

jury

Ethnicity	Eligible	Panels
Asian	0.15	0.26
Black	0.18	0.08
Latino	0.12	0.08
White	0.54	0.54
Other	0.01	0.04

研究中的一些種族代表性過多，一些代表性不足。條形圖有助于顯示差異。

jury.barh('Ethnicity')

https://gitee.com/wizardforcel/data8-textbook-zh/raw/master/img/10-1.png

兩個(gè)分布的距離

可視化使我們能夠快速了解，兩個(gè)分布之間的相似性和差異。為了更準(zhǔn)確地說出這些差異，我們必須首先量化兩個(gè)分布之間的差異。這將使我們的分析能夠基于更多東西，不僅僅是我們能夠通過眼睛做出的評(píng)估。

為了測(cè)量兩個(gè)分布之間的差異，我們將計(jì)算一個(gè)數(shù)量，稱之為它們之間的總變異距離（total variation distance）。

為了計(jì)算總變異距離，我們首先考慮每個(gè)類別中兩個(gè)比例之間的差異。

# Augment the table with a column of differences between proportions

jury_with_diffs = jury.with_column(
    'Difference', jury.column('Panels') - jury.column('Eligible')
)
jury_with_diffs

Ethnicity	Eligible	Panels	Difference
Asian	0.15	0.26	0.11
Black	0.18	0.08	-0.1
Latino	0.12	0.08	-0.04
White	0.54	0.54	0
Other	0.01	0.04	0.03

jury_with_diffs.column('Abs. Difference').sum()/2
0.14000000000000001

這個(gè)數(shù)量 0.14 是合格陪審員總體中種族分布與陪審團(tuán)分布情況之間的總變異距離（TVD）。

只要加上正的差異，我們就可以得到相同的結(jié)果。但是，我們的方法包含所有絕對(duì)差異，不需要追蹤哪些差異是正的而哪些不是。

計(jì)算 TVD 的函數(shù)

函數(shù)total_variation_distance返回兩個(gè)數(shù)組中的分布的 TVD。

def total_variation_distance(distribution_1, distribution_2):
    return np.abs(distribution_1 - distribution_2).sum()/2

函數(shù)table_tvd使用函數(shù)total_variation_distance來返回表的兩列中的分布的 TVD。

def table_tvd(table, label, other):
    return total_variation_distance(table.column(label), table.column(other))

table_tvd(jury, 'Eligible', 'Panels')
0.14000000000000001

陪審團(tuán)是否是總體的代表？

現(xiàn)在我們將轉(zhuǎn)到合格的陪審員和陪審團(tuán)的 TVD 的值。我們?nèi)绾谓忉?0.14 的距離呢？要回答這個(gè)問題，請(qǐng)回想一下，陪審團(tuán)應(yīng)該是隨機(jī)選擇的。因此，將 0.14 的值與合格的陪審員和隨機(jī)選擇的陪審團(tuán)的 TVD 進(jìn)行比較，會(huì)有幫助。

為了這樣做，我們將在模擬中使用我們的技能。研究共有 1453 名準(zhǔn)陪審員。所以讓我們從合格的陪審員的總體中隨機(jī)抽取大小為 1453 的樣本。

技術(shù)注解。準(zhǔn)陪審員的隨機(jī)樣本將會(huì)不放回地選中。但是，如果樣本的大小相對(duì)于總體的大小較小，那么無放回的取樣類似于放回的取樣；總體中的比例在幾次抽取之間變化不大。阿拉米達(dá)縣的合格陪審員的總體超過一百萬，與此相比，約 1500 人的樣本量相當(dāng)小。因此，我們將帶放回地抽樣。

從合格的陪審員中隨機(jī)抽樣

到目前為止，我們已經(jīng)使用np.random.choice從數(shù)組元素中隨機(jī)抽樣，并使用sample對(duì)表的行進(jìn)行抽樣。但是現(xiàn)在我們必須從一個(gè)分布中抽樣：一組種族以及它們的比例。

為此，我們使用函數(shù)proportions_from_distribution。它有三個(gè)參數(shù)：

表名
包含比例的列的標(biāo)簽
樣本大小

該函數(shù)執(zhí)行帶放回地隨機(jī)抽樣，并返回一個(gè)新的表，該表多出了一列Random Sample，是隨機(jī)樣本中所出現(xiàn)的比例。

所有陪審團(tuán)的總大小是 1453，所以讓我們把這個(gè)數(shù)字賦給給一個(gè)名成，然后調(diào)用：

proportions_from_distribution.

panel_size = 1453
panels_and_sample = proportions_from_distribution(jury, 'Eligible', panel_size)
panels_and_sample

Ethnicity	Eligible	Panels	Random Sample
Asian	0.15	0.26	0.14797
Black	0.18	0.08	0.193393
Latino	0.12	0.08	0.116311
White	0.54	0.54	0.532691
Other	0.01	0.04	0.00963524

從結(jié)果中可以清楚地看出，隨機(jī)樣本的分布與合格總體的分布非常接近，與陪審團(tuán)的分布不同。

和之前一樣，可視化會(huì)有幫助。

panels_and_sample.barh('Ethnicity')

https://gitee.com/wizardforcel/data8-textbook-zh/raw/master/img/10-2.png

灰色條形與藍(lán)色條形比金色條形更接近。隨機(jī)樣本類似于合格的總體，而不是陪審團(tuán)。

我們可以通過計(jì)算合格總體的分布與隨機(jī)樣本之間的 TVD，來量化這一觀察結(jié)果。

table_tvd(panels_and_sample, 'Eligible', 'Random Sample')
0.013392980041293877

將其與陪審團(tuán)的距離 0.14 進(jìn)行比較，可以看到我們?cè)跅l形圖中看到的數(shù)值。合格總體與陪審團(tuán)之間的 TVD 為 0.14，但合格總體與隨機(jī)樣本之間的 TVD 小得多。

當(dāng)然，隨機(jī)樣本和合格陪審員的分布之間的距離取決于樣本。再次抽樣可能會(huì)給出不同的結(jié)果。

隨機(jī)樣本和總體之間有多少差異？

隨機(jī)樣本與合格陪審員的分布之間的 TVD，是我們用來衡量兩個(gè)分布之間距離的統(tǒng)計(jì)量。通過重復(fù)抽樣過程，我們可以看到不同隨機(jī)樣本的統(tǒng)計(jì)量是多少。下面的代碼根據(jù)抽樣過程的大量重復(fù)，來計(jì)算統(tǒng)計(jì)量的經(jīng)驗(yàn)分布。

# Compute empirical distribution of TVDs

panel_size = 1453
repetitions = 5000

tvds = make_array()

for i in np.arange(repetitions):

    new_sample = proportions_from_distribution(jury, 'Eligible', panel_size)
    tvds = np.append(tvds, table_tvd(new_sample, 'Eligible', 'Random Sample'))

results = Table().with_column('TVD', tvds)
results

TVD
0.0247075
0.0141569
0.0138403
0.0214384
0.012278
0.017309
0.0219752
0.0192017
0.02351
0.00818995

（省略了 4990 行）

上面每一行包含大小為 1453 的隨機(jī)樣本與合格的陪審員的 TVD。

這一列的直方圖顯示，從合格候選人中隨機(jī)抽取 1453 名陪審員的結(jié)果是，偏離合格陪審員的種族分布的分布幾乎不超過 0.05。

results.hist(bins=np.arange(0, 0.2, 0.005))

https://gitee.com/wizardforcel/data8-textbook-zh/raw/master/img/10-3.png

陪審團(tuán)和隨機(jī)樣本比如何？

然而，研究中的陪審團(tuán)與合格總體并不十分相似。陪審團(tuán)和總體之間的 TVD 是 0.14，這距離上面的直方圖的尾部很遠(yuǎn)。這看起來不像是隨機(jī)樣本和合格總體之間的典型距離。

所以我們的分析支持 ACLU 的計(jì)算，即陪審團(tuán)不是合格陪審員的分布的代表。然而，與大多數(shù)這樣的分析一樣，它并沒有說明分布為什么不同，或者差異可能暗示了什么。

ACLU 報(bào)告討論了這些差異的幾個(gè)可能的原因。例如，一些少數(shù)群體在選民登記記錄和機(jī)動(dòng)車輛部門（選擇陪審員的兩個(gè)主要來源）的代表性不足。在進(jìn)行研究時(shí)，該縣沒有一個(gè)有效的程序，用于跟蹤那些被選中但未出庭的準(zhǔn)陪審員。ACLU 列舉了其他幾個(gè)原因。不管出于何種原因，似乎很明顯，陪審團(tuán)的組成與我們對(duì)隨機(jī)樣本的預(yù)期不同，它來自Eligible列的分布。

數(shù)據(jù)上的問題

我們已經(jīng)開發(fā)出一種強(qiáng)大的技術(shù)，來幫助決定一個(gè)分布是否像另一個(gè)分布的隨機(jī)樣本。但是數(shù)據(jù)科學(xué)不僅僅是技術(shù)。特別是數(shù)據(jù)科學(xué)總是需要仔細(xì)研究如何收集數(shù)據(jù)。

合格的陪審員。首先，重要的是要記住，不是每個(gè)人都有資格擔(dān)任陪審團(tuán)的職位。阿拉米達(dá)縣高級(jí)法院在其網(wǎng)站上說：“如果你是18 歲的美國公民，和傳召所在的縣或區(qū)的居民，你可能會(huì)被要求擔(dān)任職位。你必須能夠理解英語，身體上和精神上都有能力擔(dān)任，此外，你在過去 12 個(gè)月內(nèi)不得擔(dān)任任何類型的陪審員，也沒有被判重罪。

人口普查沒有保存所有這些類別的人口記錄。因此 ACLU 必須以其他方式獲得合格陪審員的人口統(tǒng)計(jì)資料。以下是他們對(duì)自己所遵循的過程的描述，以及它可能包含的一些缺陷。

“為了確定阿拉米達(dá)縣具有陪審團(tuán)資格的人口的統(tǒng)計(jì)數(shù)據(jù)，我們使用了一個(gè)聲明，它為阿拉米達(dá)縣人民起訴斯圖亞特·亞歷山大的審判而準(zhǔn)備。在聲明中，圣地亞哥州立大學(xué)的人口統(tǒng)計(jì)學(xué)家 Weeks 教授，根據(jù) 2000 年的人口普查數(shù)據(jù)估算了阿拉米達(dá)縣的具有陪審團(tuán)資格的人口，為了得出這個(gè)估計(jì)值，Weeks 教授考慮到了不符合陪審團(tuán)擔(dān)任條件的人數(shù)，因?yàn)樗麄儾粫?huì)說英文，不是公民，因此，他的估計(jì)應(yīng)該是對(duì)阿拉米達(dá)縣實(shí)際具有陪審團(tuán)資格的人口的準(zhǔn)確評(píng)估，而不僅僅是審查居住在阿拉米達(dá)的所有人口的種族和族裔的人口普查報(bào)告。應(yīng)該指出的是，Weeks 教授所依據(jù)的人口普查數(shù)據(jù)現(xiàn)在已經(jīng)有十年了，縣的人口統(tǒng)計(jì)數(shù)據(jù)的某些類別，可能已經(jīng)改變了兩到三個(gè)百分點(diǎn)?！?/p>

因此，分析中使用的合格陪審員的種族分布本身就是一個(gè)估計(jì)，可能有點(diǎn)過時(shí)。

陪審團(tuán)。此外，陪審團(tuán)并不從整個(gè)合格總體中選出。阿拉米達(dá)縣高等法院說：“法院的目標(biāo)是提供縣人口的準(zhǔn)確的橫截面，陪審員的名字是從登記選民和/或車管局發(fā)出的駕駛執(zhí)照中隨機(jī)抽取的”。

所有這些都產(chǎn)生了復(fù)雜問題，就是如何準(zhǔn)確估計(jì)阿拉米達(dá)縣合格陪審員的種族構(gòu)成。

目前還不清楚，1453 個(gè)陪審團(tuán)成員如何劃分為不同的種族類別（ACLU 報(bào)告稱“律師......合作收集陪審團(tuán)數(shù)據(jù)”）。存在嚴(yán)重的社會(huì)，文化和政治因素，影響誰被歸類或自我分類到每個(gè)種族類別。我們也不知道陪審團(tuán)中這些類別的定義，是否與 Weeks 教授所使用的定義相同，Weeks 教授又在它的估算過程中使用了人口普查類別。因此被比較的兩個(gè)分布的對(duì)應(yīng)關(guān)系，也存在問題。

美國最高法院，1965年：斯溫 VS 阿拉巴馬州

在二十世紀(jì)六十年代初期，阿拉巴馬州的塔拉迪加縣，一個(gè)名叫羅伯特·斯溫的黑人被指控強(qiáng)奸一名白人婦女，并被判處死刑。
他援引所有陪審團(tuán)是白人的其他因素，對(duì)他的判決提出上訴。當(dāng)時(shí)，只有 21 歲或以上的男子被允許在塔拉迪加縣的陪審團(tuán)中任職。在縣里，合格的陪審員中有 26% 是黑人，但在 Swain 的審判中選出的 100 名陪審團(tuán)中只有 8 名黑人男子。審判陪審團(tuán)沒有選定黑人。

1965 年，美國最高法院駁回了斯溫的上訴。法院在其裁決中寫道：“整體百分比差距很小，沒有反映出包括或排除特定數(shù)量的黑人的嘗試”。（... the overall percentage disparity has been small and reflects no studied attempt to include or exclude a specified number of Negroes.）

讓我們用我們開發(fā)的方法來檢查，陪審團(tuán)中的 100 名黑人中的 8 名與合格陪審員的分布之間的差異。

swain_jury = Table().with_columns(
    'Ethnicity', make_array('Black', 'Other'),
    'Eligible', make_array(0.26, 0.74),
    'Panel', make_array(0.08, 0.92)
)

swain_jury

Ethnicity	Eligible	Panel
Black	0.26	0.08
Other	0.74	0.92

table_tvd(swain_jury, 'Eligible', 'Panel')
0.18000000000000002

兩個(gè)分布之間的 TVD 是 0.18。這與合格總體的分布和隨機(jī)樣本之間的 TVD 比較如何？

為了回答這個(gè)問題，我們可以模擬從隨機(jī)樣本中計(jì)算的 TVD。

# Compute empirical distribution of TVDs

panel_size = 100
repetitions = 5000

tvds = make_array()

for i in np.arange(repetitions):

    new_sample = proportions_from_distribution(swain_jury, 'Eligible', panel_size)
    tvds = np.append(tvds, table_tvd(new_sample, 'Eligible', 'Random Sample'))

results = Table().with_column('TVD', tvds)
results.hist(bins = np.arange(0, 0.2, 0.01))

https://gitee.com/wizardforcel/data8-textbook-zh/raw/master/img/10-4.png

隨機(jī)樣本的 TVD 小于我們所得的值 0.18，它是陪審團(tuán)和合格陪審員的 TVD。

在這個(gè)分析中，數(shù)據(jù)并沒有像我們以前的分析那樣被問題蓋住 - 涉及的人總數(shù)相對(duì)較少，而且最高法院案件的統(tǒng)計(jì)工作也很仔細(xì)。

因此，我們的分析有了明確的結(jié)論，那就是陪審團(tuán)不是總體的代表。最高法院的判決“整體百分比差距很小”是很難接受的。

檢驗(yàn)的術(shù)語

在陪審團(tuán)選擇的例子的背景下，我們已經(jīng)形成了一些假設(shè)統(tǒng)計(jì)檢驗(yàn)的基本概念。使用統(tǒng)計(jì)檢驗(yàn)作為決策的一種方法是許多領(lǐng)域的標(biāo)準(zhǔn)，并且存在標(biāo)準(zhǔn)的術(shù)語。以下是大多數(shù)統(tǒng)計(jì)檢驗(yàn)中的步驟順序，以及一些術(shù)語和示例。

第一步：假設(shè)

所有的統(tǒng)計(jì)檢驗(yàn)都試圖在世界的兩種觀點(diǎn)中進(jìn)行選擇。具體而言，選擇是如何生成數(shù)據(jù)的兩種觀點(diǎn)之間的選擇。這兩種觀點(diǎn)被稱為假設(shè)。

原（零）假設(shè)。這就是說，數(shù)據(jù)在明確指定的假設(shè)條件下隨機(jī)生成，這些假設(shè)使計(jì)算幾率成為可能。 “零”一詞強(qiáng)化了這樣一個(gè)觀點(diǎn)，即如果數(shù)據(jù)看起來與零假設(shè)的預(yù)測(cè)不同，那么這種差異只是偶然的。

在阿拉米達(dá)縣陪審團(tuán)選擇的例子中，原假設(shè)是從合格的陪審員人群中，隨機(jī)抽取這些陪審團(tuán)。雖然審團(tuán)的種族組成與合格的陪審員的總體不同，但除了機(jī)會(huì)變異以外，沒有任何理由存在差異。

備選假設(shè)。這就是說，除了幾率以外的某些原因使數(shù)據(jù)與原假設(shè)所預(yù)測(cè)的數(shù)據(jù)不同。非正式而言，備選假設(shè)認(rèn)為觀察到的差異是“真實(shí)的”。

在我們阿拉米達(dá)縣陪審團(tuán)選擇的例子中，備選假設(shè)是，這些小組不是隨機(jī)選出來的。除了幾率以外的事情導(dǎo)致了，陪審團(tuán)的種族組成和合格陪審員總體的種族組成之間存在差異。

第二步：檢驗(yàn)統(tǒng)計(jì)量

為了在這兩個(gè)假設(shè)之間作出決策，我們必須選擇一個(gè)統(tǒng)計(jì)量作為我們決策的依據(jù)。這被稱為檢驗(yàn)統(tǒng)計(jì)量。

在阿拉米達(dá)縣陪審團(tuán)的例子中，我們使用的檢驗(yàn)統(tǒng)計(jì)量是，陪審團(tuán)與合格陪審員的總體的種族分布之間的總變異距離。

計(jì)算檢驗(yàn)統(tǒng)計(jì)量的觀察值通常是統(tǒng)計(jì)檢驗(yàn)中的第一個(gè)計(jì)算步驟。在我們的例子中，陪審團(tuán)與總體之間的總變異距離的觀察值是 0.14。

第三步：檢驗(yàn)統(tǒng)計(jì)量的概率分布，在原假設(shè)下

這個(gè)步驟把檢驗(yàn)統(tǒng)計(jì)量的觀察值放在一邊，而是把重點(diǎn)放在，如果原假設(shè)為真，統(tǒng)計(jì)量的值是什么。在原假設(shè)下，由于幾率，樣本可能出現(xiàn)不同的情況。所以檢驗(yàn)統(tǒng)計(jì)量可能會(huì)有所不同。這個(gè)步驟包括在隨機(jī)性的原假設(shè)下，計(jì)算出所有可能的檢驗(yàn)統(tǒng)計(jì)量及其所有概率。

換句話說，在這個(gè)步驟中，我們假設(shè)原假設(shè)為真，并計(jì)算檢驗(yàn)統(tǒng)計(jì)量的概率分布。對(duì)于許多檢驗(yàn)統(tǒng)計(jì)量來說，這在數(shù)學(xué)和計(jì)算上都是一項(xiàng)艱巨的任務(wù)。因此，我們通過抽樣過程的大量重復(fù)，通過統(tǒng)計(jì)量的經(jīng)驗(yàn)分布來近似檢驗(yàn)統(tǒng)計(jì)量的概率分布。

在我們的例子中，我們通過直方圖可視化了這個(gè)分布。

第四步檢驗(yàn)的結(jié)論

原假設(shè)和備選假設(shè)之間的選擇，取決于步驟 2 和 3 的結(jié)果之間的比較：檢驗(yàn)統(tǒng)計(jì)量的觀察值以及它的分布，就像由原假設(shè)預(yù)測(cè)的那樣。

如果二者一致，則觀察到的檢驗(yàn)統(tǒng)計(jì)量與原假設(shè)的預(yù)測(cè)一致。換句話說，這個(gè)檢驗(yàn)并不偏向備選假設(shè)；數(shù)據(jù)更加支持原假設(shè)。

但如果兩者不一致，就像我們阿拉米達(dá)縣陪審團(tuán)的例子那樣，那么數(shù)據(jù)就不支持原假設(shè)。這就是為什么我們得出結(jié)論，陪審團(tuán)不是隨機(jī)挑選的。幾率之外的東西影響了他們的構(gòu)成。

如果數(shù)據(jù)不支持原假設(shè)，我們說檢驗(yàn)拒絕了原假設(shè)。

孟德爾的豌豆花

格雷戈·孟德爾（1822-1884）是一位奧地利僧侶，被公認(rèn)為現(xiàn)代遺傳學(xué)領(lǐng)域的奠基人。孟德爾對(duì)植物進(jìn)行了仔細(xì)而大規(guī)模的實(shí)驗(yàn)，提出遺傳學(xué)的基本規(guī)律。

他的許多實(shí)驗(yàn)都在各種豌豆上進(jìn)行。他提出了一系列每個(gè)品種的假設(shè)。這些被稱為模型。然后他通過種植植物和收集數(shù)據(jù)來測(cè)試他的模型的有效性。

讓我們分析這樣的實(shí)驗(yàn)的數(shù)據(jù)，看看孟德爾的模型是否好。

在一個(gè)特定的品種中，每個(gè)植物具有紫色或白色的花。每個(gè)植物的顏色不受其他植物顏色的影響。孟德爾推測(cè)，植物應(yīng)隨機(jī)具有紫色或白色的花，比例為 3：1。

原假設(shè)。對(duì)于每種植物，75% 的幾率是紫色的花，25% 的幾率是白色的花，無論其他植物的顏色如何。

也就是說，原假設(shè)是孟德爾的模型是好的。任何觀察到的模型偏差都是機(jī)會(huì)變異的結(jié)果。

當(dāng)然，有一個(gè)相反的觀點(diǎn)。

備選假設(shè)。孟德爾的模型是無效的。

讓我們看看孟德爾收集的數(shù)據(jù)更加支持這些假設(shè)中的哪一個(gè)。

flowers表包含了由模型預(yù)測(cè)的比例，以及孟德爾種植的植物數(shù)據(jù)。

flowers = Table().with_columns(
    'Color', make_array('Purple', 'White'),
    'Model Proportion', make_array(0.75, 0.25),
    'Plants', make_array(705, 224)
)

flowers

Color	Model Proportion	Plants
Purple	0.75	705
White	0.25	224

共有 929 株植物。為了觀察顏色的分布是否接近模型預(yù)測(cè)的結(jié)果，我們可以找到觀察到的比例和模型比例之間的總變異距離，就像我們之前那樣。但是只有兩個(gè)類別（紫色和白色），我們有一個(gè)更簡單的選擇：我們可以查看紫色的花的比例。白色的比例沒有新的信息，因?yàn)樗皇?1 減去紫色的比例。

total_plants = flowers.column('Plants').sum()
total_plants
929
observed_proportion = flowers.column('Plants').item(0)/total_plants
observed_proportion
0.7588805166846071

檢驗(yàn)統(tǒng)計(jì)量。由于該模型預(yù)測(cè) 75% 的植物花為紫色，相關(guān)的統(tǒng)計(jì)量是 0.75 與觀察到的花為紫色的植物的比例之間的差異。

observed_statistic = abs(observed_proportion - 0.75)
observed_statistic
0.0088805166846070982

這個(gè)值與原假設(shè)所說的應(yīng)該的情況相比如何？為了回答這個(gè)問題，我們需要使用模型來模擬植物的新樣本并計(jì)算每個(gè)樣本的統(tǒng)計(jì)量。

我們將首先創(chuàng)建數(shù)組model_colors，包含顏色，比例由模型給定。然后我們可以使用np.random.choice從這個(gè)數(shù)組中，帶放回地隨機(jī)抽樣 929 次。根據(jù)孟德爾的模型，這就是植物的生成過程。

model_colors = make_array('Purple', 'Purple', 'Purple', 'White')
new_sample = np.random.choice(model_colors, total_plants)

譯者注：這里可以使用np.random.choice的p參數(shù)來簡化編程。

new_sample = np.random.choice(['Purple', 'White'], total_plants, p=[0.75, 0.25])

為了與我們觀察到的統(tǒng)計(jì)量進(jìn)行比較，我們需要知道這個(gè)新樣本中，花為紫色的植物的比例與 0.75 的差。

proportion_purple = np.count_nonzero(new_sample == 'Purple')/total_plants
abs(proportion_purple - 0.75)
0.016953713670613602

檢驗(yàn)統(tǒng)計(jì)量的經(jīng)驗(yàn)分布，在原假設(shè)為真的情況下。毫不奇怪，我們得到的值與我們觀察到的統(tǒng)計(jì)量之間的差約為 0.00888。但是如果我們又取了一個(gè)樣本，會(huì)有多大的不同呢？你可以通過重新運(yùn)行上面的兩個(gè)單元格來回答這個(gè)問題，或者使用for循環(huán)來模擬統(tǒng)計(jì)量。

repetitions = 5000

sampled_stats = make_array()

for i in np.arange(repetitions):
    new_sample = np.random.choice(model_colors, total_plants)
    proportion_purple = np.count_nonzero(new_sample == 'Purple')/total_plants
    sampled_stats = np.append(sampled_stats, abs(proportion_purple - 0.75))

results = Table().with_column('Distance from 0.75', sampled_stats)
results.hist()

https://gitee.com/wizardforcel/data8-textbook-zh/raw/master/img/10-5.png

檢驗(yàn)的結(jié)論。根據(jù)孟德爾的數(shù)據(jù)，統(tǒng)計(jì)量的觀測(cè)值是 0.00888，剛好 0.01 以下。這正好在這個(gè)分布的中心。

results.hist()

#Plot the observed statistic as a large red point on the horizontal axis
plots.scatter(observed_statistic, 0, color='red', s=30);

https://gitee.com/wizardforcel/data8-textbook-zh/raw/master/img/10-6.png

基于孟德爾數(shù)據(jù)的統(tǒng)計(jì)量，與我們基于孟德爾模型的模擬的分布是一致的。因此，與備選假設(shè)相比，數(shù)據(jù)更加支持原假設(shè) - 孟德爾的模型是好的。

P 值和“一致”的含義

在阿拉米達(dá)縣陪審團(tuán)的例子中，我們觀察到的檢驗(yàn)統(tǒng)計(jì)量顯然與原假設(shè)的預(yù)測(cè)差距很大。在豌豆花的例子中，觀察到的統(tǒng)計(jì)量與原假設(shè)所預(yù)測(cè)的分布一致。所以在這兩個(gè)例子中，選擇哪個(gè)假設(shè)是明顯的。

但是有時(shí)候這個(gè)決策還不是很明顯。觀察到的檢驗(yàn)統(tǒng)計(jì)量是否與原假設(shè)預(yù)測(cè)的分布一致，是一個(gè)判斷問題。我們建議你使用檢驗(yàn)統(tǒng)計(jì)量的值以及原假設(shè)預(yù)測(cè)的分布圖，來做出判斷。這將使你的讀者可以自己判斷兩者是否一致。

如果你不想做出自己的判斷，你可以遵循一些慣例。這些慣例基于所謂的觀察到的顯著性水平，或簡稱 P 值。 P 值是一個(gè)幾率，使用檢驗(yàn)統(tǒng)計(jì)量的概率分布計(jì)算，可以用步驟 3 中的經(jīng)驗(yàn)分布來近似。

求出 P 值的實(shí)用說明?，F(xiàn)在，我們只是給出一個(gè)求出該值的機(jī)械的方法；意義和解釋放到下一節(jié)中。方法：將觀察到的檢驗(yàn)統(tǒng)計(jì)量放在直方圖的橫軸上，求出從以該點(diǎn)起始的尾部比例。這就是 P 值，或者是基于經(jīng)驗(yàn)分布的 P 值的相當(dāng)好的近似值。

empirical_P = np.count_nonzero(sampled_stats >= observed_statistic)/repetitions
empirical_P
0.5508

觀察到的統(tǒng)計(jì)量 0.00888 非常接近孟德爾模型下所有統(tǒng)計(jì)量的中位數(shù)。你可以把它看作是我們之前評(píng)論的一個(gè)量化，即觀察到的統(tǒng)計(jì)量正好在原假設(shè)的分布中心。

但是如果離得更遠(yuǎn)呢？例如，如果觀察到的統(tǒng)計(jì)量是 0.035 呢？那么我們會(huì)得出什么結(jié)論呢？

np.count_nonzero(sampled_stats >= 0.035)/repetitions
0.0122

這個(gè)比例就很小了。如果 P 值較小，那就意味著它的尾部很小，所以觀察到的統(tǒng)計(jì)量遠(yuǎn)離原假設(shè)的預(yù)測(cè)。這意味著數(shù)據(jù)支持備選假設(shè)而不是支持原假設(shè)。

所以如果我們觀察到的統(tǒng)計(jì)量是 0.035 而不是 0.00888，我們會(huì)選擇備選假設(shè)。

那么多小算“小”呢？這里有個(gè)約定。

如果 P 值小于 5%，結(jié)果稱為“統(tǒng)計(jì)學(xué)顯著”。
如果 P 值更小 - 小于 1%，結(jié)果被稱為“高度統(tǒng)計(jì)學(xué)顯著”。

在這兩種情況下，檢驗(yàn)的結(jié)論是數(shù)據(jù)支持備選假設(shè)。

約定的歷史注解

上面定義的統(tǒng)計(jì)學(xué)顯著性的確定，已經(jīng)在所有應(yīng)用領(lǐng)域的統(tǒng)計(jì)分析中成為標(biāo)準(zhǔn)。當(dāng)一個(gè)約定被如此普遍遵循時(shí)，研究它是如何產(chǎn)生的就有趣了。

統(tǒng)計(jì)檢驗(yàn)方法 - 基于隨機(jī)樣本數(shù)據(jù)在假設(shè)之間選擇 - 由 Ronald Fisher 爵士在 20 世紀(jì)初開發(fā)。在 1925 年出版的《寫給研究工作者的統(tǒng)計(jì)學(xué)方法》（Statistical Methods for Research Workers）一書中的下列陳述中，Ronald 爵士可能在不知情的情況下建立了統(tǒng)計(jì)學(xué)顯著的約定。對(duì)于 5% 的水平，他寫道：“判斷一個(gè)偏差是否顯著的時(shí)候，將它當(dāng)做一個(gè)極限非常方便。

Ronald 爵士覺得“方便”的東西變成了截?cái)啵@得了普適常數(shù)的地位。無論羅納德爵士如何選出了這個(gè)點(diǎn)，這個(gè)值是他在眾多值中的個(gè)人選擇：在 1926 年的一篇文章中，他寫道：“如果二十分之一看起來還是不夠高，如果我們?cè)敢獾脑挘?我們可以把線畫在百分之二的地方，或者百分之一。個(gè)人來說，作者更傾向于把顯著的較低標(biāo)準(zhǔn)設(shè)為 5%...”

Fisher 知道“低”是一個(gè)判斷問題，沒有獨(dú)特的定義。我們建議你遵循他的優(yōu)秀例子。提供你的數(shù)據(jù)，作出判斷，并解釋你為什么這樣做。

GSI 的辯護(hù)

假設(shè)檢驗(yàn)是最廣泛使用的統(tǒng)計(jì)推斷方法之一。我們已經(jīng)看到，它的用途十分廣泛，例如審團(tuán)選擇和豌豆花。在本節(jié)的最后一個(gè)例子中，我們將在另一個(gè)完全不同的語境中對(duì)假設(shè)進(jìn)行測(cè)試。

伯克利統(tǒng)計(jì)班的 350 名學(xué)生被分為 12 個(gè)討論小組，由研究生導(dǎo)師（GSI）帶領(lǐng)。期中之后后，第三組的學(xué)生注意到，他們的成績平均上低于班上的其他人。

在這種情況下，學(xué)生們往往會(huì)抱怨這一組的 GSI 。他們肯定覺得，GSI 的教學(xué)一定是有問題的。否則為什么他們組會(huì)比別人做得更差呢？

GSI 通常有更多的統(tǒng)計(jì)學(xué)經(jīng)驗(yàn)，他們的觀點(diǎn)往往是不同的：如果你只是從全班隨機(jī)抽取一部分學(xué)生，他們的平均分?jǐn)?shù)就可能與學(xué)生不滿意的分?jǐn)?shù)相似。

GSI 的立場是一個(gè)明確的幾率模型。我們來檢驗(yàn)一下。

原假設(shè)：第三組的平均成績類似于從班上隨機(jī)抽取的相同數(shù)量的學(xué)生的平均成績。

備選假設(shè)：不是，太低了。

scores包含整個(gè)班級(jí)的每個(gè)學(xué)生的小組編號(hào)和期中成績。期中成績是 0 到 25 的整數(shù)；0 的意思是學(xué)生沒來考試。

scores = Table.read_table('scores_by_section.csv')
scores

Section	Midterm
1	22
2	12
2	23
2	14
1	20
3	25
4	19
1	24
5	8
6	14

（省略了 349 行）

這是 12 個(gè)小組的平均成績。

scores.group('Section', np.mean).show()

Section	Midterm mean
1	15.5938
2	15.125
3	13.6667
4	14.7667
5	17.4545
6	15.0312
7	16.625
8	16.3103
9	14.5667
10	15.2353
11	15.8077
12	15.7333

第三組平均成績比其他組低一點(diǎn)。這看起來像機(jī)會(huì)變異？

我們知道如何找出答案。我們首先從全班隨機(jī)挑選一個(gè)“第三組”，看看它的平均得分是多少；然后再做一遍又一遍。

首先，我們需要第三組的學(xué)生人數(shù)：

scores.group('Section')

Section	count
1	32
2	32
3	27
4	30
5	33
6	32
7	24
8	29
9	30
10	34

（省略了 2 行）

現(xiàn)在我們的計(jì)劃是，從班上隨機(jī)挑選 27 名學(xué)生，并計(jì)算他們的平均分?jǐn)?shù)。

所有學(xué)生的成績都在一張表上，每個(gè)學(xué)生一行。因此，我們將使用sample來隨機(jī)選擇行，使用with_replacement = False選項(xiàng)，以便我們無放回地抽樣。（稍后我們會(huì)看到，結(jié)果幾乎與我們通過放回取樣所得到的結(jié)果相同）。

scores.sample(27, with_replacement=False).column('Midterm').mean()
13.703703703703704

我們已經(jīng)準(zhǔn)備好，模擬隨機(jī)的“第三組”的均值的經(jīng)驗(yàn)分布。

section_3_mean = 13.6667

repetitions = 10000

means = make_array()

for i in np.arange(repetitions):
    new_mean = scores.sample(27, with_replacement=False).column('Midterm').mean()
    means = np.append(means, new_mean)

emp_p_value = np.count_nonzero(means <= section_3_mean)/repetitions
print('Empirical P-value:', emp_p_value)
results = Table().with_column('Random Sample Mean', means)
results.hist()  

#Plot the observed statistic as a large red point on the horizontal axis
plots.scatter(section_3_mean, 0, color='red', s=30);
Empirical P-value: 0.0581

https://gitee.com/wizardforcel/data8-textbook-zh/raw/master/img/10-7.png

從直方圖來看，第三組的較低均值看起來有些不尋常，但 5% 截?cái)嘀档膽T例更加偏向 GSI 的假設(shè)。有了這個(gè)截?cái)嘀担覀冋f這個(gè)結(jié)果不是統(tǒng)計(jì)學(xué)顯著的。

錯(cuò)誤概率

在我們決定我們的數(shù)據(jù)更加支持哪個(gè)假設(shè)的過程中，最后一步涉及數(shù)據(jù)的原假設(shè)的一致性判斷。雖然絕大多數(shù)時(shí)候這一步都能產(chǎn)生正確的決策，但有時(shí)也會(huì)讓我們誤入歧途。原因是機(jī)會(huì)變異。例如，即使當(dāng)原假設(shè)為真時(shí)，機(jī)會(huì)變異也可能導(dǎo)致樣本看起來與原假設(shè)的預(yù)測(cè)完全不同。

在本節(jié)中，我們將研究假設(shè)的統(tǒng)計(jì)檢驗(yàn)如何可能得出這樣的結(jié)論，也就是實(shí)際上原假設(shè)為真時(shí)，數(shù)據(jù)支持備選假設(shè)。

由于我們根據(jù) P 值做出決策，現(xiàn)在應(yīng)該給出一個(gè)更正式的定義，而不是“在經(jīng)驗(yàn)直方圖的橫坐標(biāo)上放置觀察到的統(tǒng)計(jì)量，并且求出大于它的尾部區(qū)域”的機(jī)械方法。

P 值的定義

P 值是在原假設(shè)下，檢驗(yàn)統(tǒng)計(jì)量等于在數(shù)據(jù)中觀察到的值，或甚至在備選假設(shè)方向上更進(jìn)一步的幾率。

讓我們先看看這個(gè)定義如何與前一節(jié)的計(jì)算結(jié)果一致。

回顧孟德爾的豌豆花

在這個(gè)例子中，我們?cè)u(píng)估孟德爾的豌豆物種的遺傳模型是否良好。首先回顧一下我們?nèi)绾谓Q策過程，然后在這個(gè)背景下考察 P 值的定義。

原假設(shè)。孟德爾的模型是好的：植物的花是紫色或白色，類似于來自總體紫色，紫色，紫色，白色的帶放回隨機(jī)樣本。

備選假設(shè)。孟德爾的模型是錯(cuò)誤的。

檢驗(yàn)統(tǒng)計(jì)量。0.75 與花為紫色的植物的觀察比例的距離：

https://www.zhihu.com/equation?tex=%5Cmbox%7Btest%20statistic%7D%20%7E%3D%7E%20%7C%5Cmbox%7Bobserved%20proportion%20purple%7D%20-%200.75%7C

樣本量較大（929），所以如果孟德爾的模型好，那么觀察到的紫色花的比例應(yīng)該接近 0.75。如果孟德爾的模型是錯(cuò)誤的，則觀察到的紫色比例不應(yīng)該接近0.75，從而使統(tǒng)計(jì)值量更大。

因此，在這種情況下，“備選假設(shè)的方向”意味著“更大”。
檢驗(yàn)統(tǒng)計(jì)量的觀測(cè)值（四舍五入到小數(shù)點(diǎn)后五位）是 https://www.zhihu.com/equation?tex=%7C0.75888%20-%200.75%7C%20%7E%3D%7E%200.00888。根據(jù)定義，P 值是從孟德爾的模型中抽取的樣本，產(chǎn)生 0.00888 或更大的統(tǒng)計(jì)量的幾率。

雖然我們還沒有學(xué)會(huì)如何精確地計(jì)算這個(gè)幾率，但我們可以通過模擬來逼近它，這就是我們?cè)谇耙还?jié)中所做的。以下是該部分的所有相關(guān)代碼。

# The model and the data
model_colors = make_array('Purple', 'Purple', 'Purple', 'White')
total_plants = 929
observed_statistic = 0.0088805166846070982
# Simulating the test statistic under the null hypothesis
repetitions = 5000
sampled_stats = make_array()
for i in np.arange(repetitions):
    new_sample = np.random.choice(model_colors, total_plants)
    proportion_purple = np.count_nonzero(new_sample == 'Purple')/total_plants
    sampled_stats = np.append(sampled_stats, abs(proportion_purple - 0.75))

# The P-value (an approximation based on the simulation)
empirical_P = np.count_nonzero(sampled_stats >= observed_statistic)/repetitions
# Displaying the results
results = Table().with_column('Distance from 0.75', sampled_stats)
print('Empirical P-value:', empirical_P)
results.hist()
plots.scatter(observed_statistic, 0, color='red', s=30);
Empirical P-value: 0.5436

https://gitee.com/wizardforcel/data8-textbook-zh/raw/master/img/10-8.png

注意 P 值的計(jì)算根據(jù)孟德爾的模型，基于所有抽取樣本的重復(fù)，并且每次都計(jì)算檢驗(yàn)統(tǒng)計(jì)量：

empirical_P = np.count_nonzero(sampled_stats >= observed_statistic)/repetitions
empirical_P
0.5436

這是統(tǒng)計(jì)量大于等于觀測(cè)值 0.00888 的樣本比例。

計(jì)算結(jié)果表明，如果孟德爾的假設(shè)是真實(shí)的，那么得到一個(gè)植物樣本，它的檢驗(yàn)統(tǒng)計(jì)量大于等于孟德爾的觀測(cè)值，這個(gè)幾率大概是 54%。這是一個(gè)很大的幾率（并且比“較小”的慣例上的 5% 截?cái)嘀狄蟮枚啵?因此，孟德爾的數(shù)據(jù)產(chǎn)生了一個(gè)統(tǒng)計(jì)量，基于他的模型是不足為奇的，這個(gè)數(shù)據(jù)支持他的模型而不是支持備選假設(shè)。

回顧 GSI 的辯護(hù)

在這個(gè)例子中，第三組由一個(gè)班級(jí) 12 個(gè)組中的 27 個(gè)學(xué)生組成，期中分?jǐn)?shù)均值低于其他組。我們?cè)噲D在以下假設(shè)之間作出決策：

原假設(shè)：第三組的平均分?jǐn)?shù)類似于從班上隨機(jī)挑選的 27 名學(xué)生的平均分?jǐn)?shù)。

備選假設(shè)：不是，太低了。

檢驗(yàn)統(tǒng)計(jì)量。抽樣分?jǐn)?shù)的均值。

在這里，備選假設(shè)說了，觀察到的平均值太低，并不從隨機(jī)抽樣中產(chǎn)生 - 第三組里面有些東西使得平均值較低。

所以在這里，“備選假設(shè)的方向”是指“較小”。

檢驗(yàn)統(tǒng)計(jì)量的觀測(cè)值是第三組的平均分 13.6667。因此，根據(jù)定義，P 值是 27 位隨機(jī)選取的學(xué)生的平均分 13.6667 或更小的幾率。

這是我們通過近似來模擬的幾率。這是上一節(jié)的代碼。

# The data
scores = Table.read_table('scores_by_section.csv')
sec_3_mean = 13.6667
sec_3_size = 27
# Simulating the test statistic under the null hypothesis
repetitions = 10000
means = make_array()
for i in np.arange(repetitions):
    new_mean = scores.sample(sec_3_size, with_replacement=False).column('Midterm').mean()
    means = np.append(means, new_mean)

# The P-value (an empirical approximation based on the simulation)
empirical_P = np.count_nonzero(means <= sec_3_mean)/repetitions
# Displaying the results
print('Empirical P-value:', empirical_P)
results = Table().with_column('Random Sample Mean', means)
results.hist()  
plots.scatter(sec_3_mean, 0, color='red', s=30);
Empirical P-value: 0.0569

https://gitee.com/wizardforcel/data8-textbook-zh/raw/master/img/10-9.png

經(jīng)驗(yàn) P 值的計(jì)算在下面的單元格中。

empirical_P = np.count_nonzero(means <= sec_3_mean)/repetitions
empirical_P
0.0569

這是隨機(jī)樣本的比例，其中樣本均值小于等于第三組的均值 13.667。

模擬結(jié)果顯示，隨機(jī)抽樣組的 27 名學(xué)生平均分?jǐn)?shù)低于第三組的均值，幾率為大約 6% ??。如果按照傳統(tǒng)的 5% 截?cái)嘀底鳛椤拜^小” P 值的定義，那么 6% 不小了，結(jié)果不是統(tǒng)計(jì)學(xué)顯著的。換句話說，你沒有足夠的證據(jù)來拒絕原假設(shè)的隨機(jī)性。

你可以盡管違背約定，選擇不同的截?cái)嘀?。如果你這樣做，請(qǐng)記住以下幾點(diǎn)：

始終提供檢驗(yàn)統(tǒng)計(jì)量的觀察值和 P 值，以便讀者可以自行決定 P 值是否小。
只有當(dāng)傳統(tǒng)的所得結(jié)果不符合你的喜好時(shí)，才需要違背約定。
即使你的檢驗(yàn)結(jié)論為，第三組平均分?jǐn)?shù)低于隨機(jī)抽樣的學(xué)生的平均分?jǐn)?shù)，也沒有為什么它較低的信息。

做出錯(cuò)誤決策的概率

這種平均分?jǐn)?shù)的分析產(chǎn)生了一個(gè)重要的觀測(cè)，關(guān)于我們的檢驗(yàn)做出錯(cuò)誤結(jié)論的概率。

假設(shè)你決定使用 5% 的截?cái)嘀底鳛?P 值。也就是說，如果 P 值低于 5%，那么假設(shè)你會(huì)選擇備選假設(shè)，否則保持原假設(shè)。

那么從樣本均值的經(jīng)驗(yàn)直方圖可以看出，如果第三組的平均值是 12，那么你會(huì)說“太低了”。12 左側(cè)的面積不足 5%。

results.hist()

https://gitee.com/wizardforcel/data8-textbook-zh/raw/master/img/10-10.png

13 左邊的面積也不到 5%。左側(cè)面積小于 5% 的所有樣本均值以紅色顯示。

https://gitee.com/wizardforcel/data8-textbook-zh/raw/master/img/10-11.png

你可以看到，如果第三組的平均值接近 13，并且你使用 5% 的截?cái)嘀底鳛?P 值，那么你應(yīng)該說小組的均值不像隨機(jī)樣本的均值。

你也可以看到，隨機(jī)樣本的均值可能在 13 左右（盡管不太可能）。事實(shí)上，在我們的模擬中，5000 個(gè)隨機(jī)樣本中有幾個(gè)的均值與 13 相差 0.01 以內(nèi)。

results.where('Random Sample Mean', are.between(12.99, 13.01)).num_rows
13

你看到的是檢驗(yàn)做出錯(cuò)誤結(jié)論的可能性。

如果你使用了 10% 的截?cái)嘀刀皇?5%，那么這里的紅色部分意味著，你可能得出結(jié)論，它太低了，不能從隨機(jī)樣本中產(chǎn)生，即使在你不知情的情況下，它們是來自隨機(jī)樣本。

https://gitee.com/wizardforcel/data8-textbook-zh/raw/master/img/10-12.png

做出錯(cuò)誤決策的幾率

假設(shè)你想測(cè)試一個(gè)硬幣是否均勻。那么假設(shè)是：

原假設(shè)：硬幣是均勻的。也就是說，結(jié)果是來自正面和反面的隨機(jī)樣本。

備選假設(shè)：硬幣不均勻。

假設(shè)你的數(shù)據(jù)基于 400 個(gè)硬幣的投擲。你會(huì)預(yù)計(jì)平等的硬幣能夠在 400 個(gè)次投擲中擁有 200 個(gè)正面，所以合理的檢驗(yàn)統(tǒng)計(jì)量就是使用 https://www.zhihu.com/equation?tex=%5Cmbox%7Btest%20statistic%7D%20%7E%3D%7E%20%7C%5Cmbox%7Bnumber%20of%20heads%7D%20-%20200%7C。

我們可以在均勻的原假設(shè)下模擬統(tǒng)計(jì)量。

coin = make_array('Heads', 'Tails')
num_tosses = 400

repetitions = 10000
heads = make_array()
for i in np.arange(repetitions):
    tosses = np.random.choice(coin, 400)
    heads = np.append(heads, np.count_nonzero(tosses == 'Heads'))

sampled_stats = abs(heads - 200)
results = Table().with_column('|Number of Heads - 200|', sampled_stats)
results.hist(bins = np.arange(0, 45, 5))

https://gitee.com/wizardforcel/data8-textbook-zh/raw/master/img/10-13.png

如果硬幣是不均勻的，那么你預(yù)計(jì)硬幣的數(shù)量就不是 200，或者換句話說，如果硬幣是均勻的，那么你預(yù)計(jì)，檢驗(yàn)統(tǒng)計(jì)量就會(huì)大一些。

因此，正如在孟德爾的豌豆花的例子中，P 值是統(tǒng)計(jì)量經(jīng)驗(yàn)分布的右側(cè)尾部的區(qū)域。

假設(shè)你決定使用 3.5% 的截?cái)嘀底鳛?P 值。那么即使硬幣碰巧是均勻的，對(duì)于模擬中的 10000 個(gè)檢驗(yàn)統(tǒng)計(jì)量的前 3.5%，你也會(huì)得出“不均勻”的結(jié)論。

換句話說，如果你用3.5% 的 P 值作為臨界值，而硬幣恰好是均勻的，那么大概有 3.5% 的概率你會(huì)認(rèn)為硬幣是不均勻的。

P 值的截?cái)嘀凳清e(cuò)誤概率

上面的例子是一個(gè)普遍事實(shí)的特例：

如果對(duì) P 值使用p%的截?cái)嘀担⑶以僭O(shè)恰好是真的，那么大約有p%的概率，你的檢驗(yàn)就會(huì)得出結(jié)論：備選假設(shè)是正確的。

因此，1% 的截?cái)嘀当?5% 更保守 - 如果原假設(shè)恰好是真的，那么結(jié)論為“備選假設(shè)”的可能性就會(huì)降低。出于這個(gè)原因，醫(yī)學(xué)治療隨機(jī)對(duì)照試驗(yàn)通常使用 1% 作為決定以下兩個(gè)假設(shè)之間的臨界值：

原假設(shè)：實(shí)驗(yàn)沒有效果；患者的實(shí)驗(yàn)組和對(duì)照組的結(jié)果之間的觀察到的差異，是由于隨機(jī)性造成的。

備選假設(shè)：實(shí)驗(yàn)有效果。

這個(gè)想法是，控制結(jié)論為實(shí)驗(yàn)有效，而實(shí)際上無效的幾率。這減少了給予患者無效治療的風(fēng)險(xiǎn)。

盡管如此，即使你將截?cái)嘀翟O(shè)置為 1% 那樣低，并且實(shí)驗(yàn)沒有任何效果，但有大約 1% 的幾率得出結(jié)論：實(shí)驗(yàn)是有效的。這由于機(jī)會(huì)變異。來自隨機(jī)樣本的數(shù)據(jù)很可能最終導(dǎo)致你誤入歧途。

數(shù)據(jù)窺探

上面的討論意味著，如果我們進(jìn)行 500 個(gè)單獨(dú)的隨機(jī)對(duì)照實(shí)驗(yàn)，其中實(shí)驗(yàn)實(shí)際上沒有效果，并且每個(gè)實(shí)驗(yàn)使用 1% 的截?cái)嘀?，那么通過機(jī)會(huì)變異，500 個(gè)實(shí)驗(yàn)中的約 5 個(gè)將得出結(jié)論：實(shí)驗(yàn)確實(shí)有效果。

我們可以希望，沒有人會(huì)對(duì)一無所獲的實(shí)驗(yàn)進(jìn)行 500 次。但研究人員使用相同的數(shù)據(jù)測(cè)試多個(gè)假設(shè)并不罕見。例如，在一項(xiàng)關(guān)于藥物作用的隨機(jī)對(duì)照試驗(yàn)中，研究人員可能會(huì)測(cè)試該藥物是否對(duì)各種不同疾病有影響。

現(xiàn)在假設(shè)藥物對(duì)任何東西都沒有影響。只是機(jī)會(huì)變異，一小部分的測(cè)試可能會(huì)得出結(jié)論，它確實(shí)有效果。所以，當(dāng)你閱讀一篇使用假設(shè)檢驗(yàn)的研究，并得出實(shí)驗(yàn)有效的結(jié)論時(shí)，總是詢問研究人員，在發(fā)現(xiàn)所報(bào)告的效果之前，究竟檢驗(yàn)了多少種不同的效果。

如果研究人員在找到給出“高度統(tǒng)計(jì)學(xué)顯著”的結(jié)論之前，進(jìn)行了多個(gè)不同的檢驗(yàn)，請(qǐng)謹(jǐn)慎使用結(jié)果。這項(xiàng)研究可能會(huì)受到數(shù)據(jù)窺探的影響，這實(shí)際上意味著將數(shù)據(jù)捏造成一個(gè)假象。

在這種情況下，驗(yàn)證報(bào)告結(jié)果的一種方法是，復(fù)制實(shí)驗(yàn)并單獨(dú)檢驗(yàn)該特定效果。如果它再次表現(xiàn)為顯著，就驗(yàn)證了原來的結(jié)論。

技術(shù)注解：其他類型的錯(cuò)誤

當(dāng)然，還有另外一種錯(cuò)誤：認(rèn)為治療什么也不做，事實(shí)上它做了一些事情。近似這個(gè)錯(cuò)誤超出了本節(jié)的范圍。要知道，如果你建立你的測(cè)試來減少兩個(gè)錯(cuò)誤之一，你幾乎總是增加另一個(gè)。

技術(shù)注解：識(shí)別拒絕域

在上面的硬幣投擲的例子中，我們基于 400 次投擲，使用 P 值的 3.5 倍的截?cái)嘀祦頊y(cè)試硬幣的平等性。檢驗(yàn)統(tǒng)計(jì)量是 https://www.zhihu.com/equation?tex=%7C%5Cmbox%7Bnumber%20of%20heads%7D%20-%20200%7C。我們?cè)谄降鹊脑僭O(shè)下模擬了這個(gè)統(tǒng)計(jì)量。

由于所有統(tǒng)計(jì)數(shù)據(jù)的前 3.5%，檢驗(yàn)的結(jié)論是硬幣是不平等的，在下面展示為紅色。

https://gitee.com/wizardforcel/data8-textbook-zh/raw/master/img/10-14.png

從圖中可以看出，在平等的原假設(shè)下，大約前 3.5% 的檢驗(yàn)統(tǒng)計(jì)量的值大于 20。你也可以通過求出這些值的比例來確認(rèn)：

results.where('|Number of Heads - 200|', are.above_or_equal_to(21)).num_rows/results.num_rows
0.0372

也就是說，如果檢驗(yàn)統(tǒng)計(jì)量是 21 或更高，那么以 3.5% 的截?cái)帱c(diǎn)，你會(huì)得出結(jié)論：硬幣是不公平的。

也就是說，如果檢驗(yàn)統(tǒng)計(jì)量是 21 或更高，你將拒絕原假設(shè)。因此，“21 以上”的范圍被稱為該檢驗(yàn)的拒絕域。它對(duì)應(yīng)的正面數(shù)量是 221 及以上，或者是 179 及以下。

如果你沒有在直方圖上將其標(biāo)記為紅色，你將如何找到這些值？百分位數(shù)函數(shù)在這里派上用場。它需要你嘗試查找的百分比水平以及包含數(shù)據(jù)的數(shù)組。統(tǒng)計(jì)量的“前 3.5%”對(duì)應(yīng)于統(tǒng)計(jì)量的第 96.5 個(gè)百分點(diǎn)：

percentile(96.5, results.column(0))
21.0

注意。由于“重復(fù)”（即數(shù)據(jù)中的幾個(gè)相同的值）和數(shù)據(jù)數(shù)組的任意長度，百分位數(shù)并不總是那么整齊。在本課程的后面，我們將給出一個(gè)涵蓋所有情況的百分位數(shù)的精確定義。就目前而言，只要認(rèn)為percentile函數(shù)返回一個(gè)答案，與你直覺上看做百分點(diǎn)的東西相近即可。

示例：漏風(fēng)門

2015 年 1 月 18 日，印第安納波利斯小馬隊(duì)（Indianapolis Colts）和新英格蘭愛國者隊(duì)（New England Patriots）進(jìn)行了美式橄欖球大會(huì)（AFC）冠軍賽，來確定哪支球隊(duì)將晉級(jí)超級(jí)碗（Super Bowl）。比賽結(jié)束后，有人指責(zé)愛國者的橄欖球沒有按照規(guī)定的要求膨脹，并且更軟。這可能是一個(gè)優(yōu)勢(shì)，因?yàn)檩^軟的球可能更容易被捕獲。

幾個(gè)星期以來，美國橄欖球界充滿了指責(zé)，否認(rèn)，理論和懷疑：在 20 世紀(jì) 70 年代水門事件的政治丑聞之后，新聞界標(biāo)記了“漏風(fēng)門”這個(gè)話題。國家橄欖球聯(lián)盟（NFL）委托了獨(dú)立分析小組。在這個(gè)例子中，我們將執(zhí)行我們自己的數(shù)據(jù)分析。

壓強(qiáng)通常以磅/平方英寸（psi）來衡量。 NFL 規(guī)則規(guī)定了比賽用球必須充氣為 12.5psi 到 13.5psi 的壓強(qiáng)。每個(gè)隊(duì)都擁有 12 個(gè)球。球隊(duì)有責(zé)任保持自己的球的壓強(qiáng)，但比賽官方會(huì)檢查球。在 AFC 比賽開始之前，所有愛國者的球都在 12.5psi 左右。小馬隊(duì)的大部分球在大約 13.0psi。但是，這些賽前數(shù)據(jù)沒有被記錄下來。

在第二節(jié)，小馬隊(duì)攔截了一個(gè)愛國者的球。在邊線上，他們測(cè)量了球的壓強(qiáng)，并確定它低于 12.5psi 的閾值。他們及時(shí)通知了官方。

中場休息時(shí)，所有的比賽用球都被收集起來檢查。兩名官方人員 Clete Blakeman 和 Dyrol Prioleau 測(cè)量了每個(gè)球的壓強(qiáng)。這里是數(shù)據(jù)；壓強(qiáng)的單位是磅/平方英寸。被小馬隊(duì)攔截的愛國者的球在這個(gè)時(shí)候沒有被檢查。大多數(shù)小馬隊(duì)的球也沒有 - 官方只是耗完了時(shí)間，為了下半場的開始，不得不交出了這些球。

football = Table.read_table('football.csv')
football = football.drop('Team')
football.show()

Ball	Blakeman	Prioleau
Patriots 1	11.5	11.8
Patriots 2	10.85	11.2
Patriots 3	11.15	11.5
Patriots 4	10.7	11
Patriots 5	11.1	11.45
Patriots 6	11.6	11.95
Patriots 7	11.85	12.3
Patriots 8	11.1	11.55
Patriots 9	10.95	11.35
Patriots 10	10.5	10.9
Patriots 11	10.9	11.35
Colts 1	12.7	12.35
Colts 2	12.75	12.3
Colts 3	12.5	12.95
Colts 4	12.55	12.15

對(duì)于被檢查的 15 個(gè)球中的每一個(gè)，兩名官員獲得了不同的結(jié)果。在同一物體上重復(fù)測(cè)量得到不同的結(jié)果并不少見，特別是當(dāng)測(cè)量由不同的人進(jìn)行時(shí)。所以我們將每個(gè)球賦為這個(gè)球上進(jìn)行的兩次測(cè)量的平均值。

football = football.with_column(
    'Combined', (football.column(1)+football.column(2))/2
    )
football.show()

Ball	Blakeman	Prioleau	Combined
Patriots 1	11.5	11.8	11.65
Patriots 2	10.85	11.2	11.025
Patriots 3	11.15	11.5	11.325
Patriots 4	10.7	11	10.85
Patriots 5	11.1	11.45	11.275
Patriots 6	11.6	11.95	11.775
Patriots 7	11.85	12.3	12.075
Patriots 8	11.1	11.55	11.325
Patriots 9	10.95	11.35	11.15
Patriots 10	10.5	10.9	10.7
Patriots 11	10.9	11.35	11.125
Colts 1	12.7	12.35	12.525
Colts 2	12.75	12.3	12.525
Colts 3	12.5	12.95	12.725
Colts 4	12.55	12.15	12.35

一眼望去，愛國者隊(duì)的壓強(qiáng)顯然低于小馬隊(duì)。由于一些放氣在比賽過程中是正常的，獨(dú)立分析師決定計(jì)算距離比賽開始的壓強(qiáng)下降值。回想一下，愛國者的球開始時(shí)是大約 12.5psi，小馬隊(duì)的球是大約 13.0psi。因此愛國者球的壓強(qiáng)下降值計(jì)算為 12.5 減中場時(shí)的壓強(qiáng)，小馬隊(duì)的球的壓強(qiáng)下降值為 13.0 減半場的壓強(qiáng)。

我們來構(gòu)建兩張表，一張是愛國者的數(shù)據(jù)，一張是小馬的。每張表的最后一列是距離開始的壓強(qiáng)下降值。

patriots = football.where('Ball', are.containing('Patriots'))
patriots = patriots.with_column('Drop', 12.5-patriots.column('Combined'))
patriots.show()

Ball	Blakeman	Prioleau	Combined	Drop
Patriots 1	11.5	11.8	11.65	0.85
Patriots 2	10.85	11.2	11.025	1.475
Patriots 3	11.15	11.5	11.325	1.175
Patriots 4	10.7	11	10.85	1.65
Patriots 5	11.1	11.45	11.275	1.225
Patriots 6	11.6	11.95	11.775	0.725
Patriots 7	11.85	12.3	12.075	0.425
Patriots 8	11.1	11.55	11.325	1.175
Patriots 9	10.95	11.35	11.15	1.35
Patriots 10	10.5	10.9	10.7	1.8
Patriots 11	10.9	11.35	11.125	1.375

colts = football.where('Ball', are.containing('Colts'))
colts = colts.with_column('Drop', 13.0-colts.column('Combined'))
colts

Ball	Blakeman	Prioleau	Combined	Drop
Colts 1	12.7	12.35	12.525	0.475
Colts 2	12.75	12.3	12.525	0.475
Colts 3	12.5	12.95	12.725	0.275
Colts 4	12.55	12.15	12.35	0.65

看起來好像愛國者的漏氣比小馬隊(duì)更大。自然統(tǒng)計(jì)量是兩個(gè)平均漏氣之間的差異。我們將處理它，但你可以自由地用其他自然統(tǒng)計(jì)量重復(fù)分析，例如整體平均漏氣與愛國者之間的差異。

patriots_mean = patriots.column('Drop').mean()
colts_mean = colts.column('Drop').mean()

observed_statistic = patriots_mean - colts_mean
observed_statistic
0.73352272727272805

這種正面的差異反映了這樣的事實(shí)，即愛國者的球的平均壓強(qiáng)下降值大于小馬隊(duì)。

難道這個(gè)差異是偶然的，還是愛國者的下降值太大？這個(gè)問題非常類似于我們之前問過的問題，關(guān)于一個(gè)大班中的一個(gè)小組的成績。就像我們?cè)谶@個(gè)例子中所做的那樣，我們將建立原假設(shè)。

原假設(shè)：愛國者的下降值就是 15 次下降值中的，大小為 11 的隨機(jī)樣本。由于機(jī)會(huì)變異，均值比小馬隊(duì)高。

備選假設(shè)：愛國者的下降值太大，并不僅僅是機(jī)會(huì)變異的結(jié)果。

如果原假設(shè)是真的，那么愛國者的下降值就可以對(duì)比從 15 次下降值隨機(jī)不帶放回抽取的 11 個(gè)。所以讓我們創(chuàng)建一個(gè)，含有所有 15 個(gè)下降值，并從中隨機(jī)抽取。

drops = Table().with_column(
    'Drop', np.append(patriots.column('Drop'), colts.column('Drop'))
)
drops.show()

Drop
0.85
1.475
1.175
1.65
1.225
0.725
0.425
1.175
1.35
1.8
1.375
0.475
0.475
0.275
0.65

drops.sample(with_replacement=False).show()

Drop
1.225
1.175
1.175
0.475
1.375
0.425
0.85
0.65
1.35
1.65
0.725
0.475
1.475
1.8
0.275

注意sample的使用沒有帶樣本大小。這是因?yàn)?code>sample使用的默認(rèn)樣本大小是表格的行數(shù)；如果你不指定樣本大小，則會(huì)返回與原始表格大小相同的樣本。這對(duì)于我們的目的非常理想，因?yàn)楫?dāng)你不放回抽樣時(shí)（通過指定with_replacement = False），并且次數(shù)與行數(shù)相同，最終會(huì)對(duì)所有行進(jìn)行隨機(jī)洗牌。運(yùn)行幾次該單元格來查看輸出如何變化。

我們現(xiàn)在可以使用打亂表的前 11 行作為原假設(shè)下的愛國者的下降值的模擬。剩下的四行形成了對(duì)應(yīng)的小馬隊(duì)的下降值的模擬。我們可以使用這兩個(gè)模擬數(shù)組來模擬我們?cè)谠僭O(shè)下的檢驗(yàn)統(tǒng)計(jì)量。

shuffled = drops.sample(with_replacement=False)

new_patriots = shuffled.take(np.arange(11))
new_patriots_mean = new_patriots.column(0).mean()

new_colts = shuffled.take(np.arange(11, drops.num_rows))
new_colts_mean = new_colts.column(0).mean()

simulated_stat = new_patriots_mean - new_colts_mean
simulated_stat
-0.70681818181818212

運(yùn)行幾次該單元格來查看檢驗(yàn)統(tǒng)計(jì)量的變化情況。請(qǐng)記住，模擬是在原假設(shè)下，即愛國者的下降值類似于隨機(jī)抽樣的 15 個(gè)下降值。

現(xiàn)在是我們熟悉的步驟了。我們將在院假設(shè)下重復(fù)模擬檢驗(yàn)統(tǒng)計(jì)量。模擬結(jié)束時(shí)，數(shù)組的simulated_statistics將包含所有模擬的檢驗(yàn)統(tǒng)計(jì)量。

simulated_statistics = make_array()
repetitions = 10000

for i in np.arange(repetitions):
    shuffled = drops.sample(with_replacement=False)
    new_patriots_mean = shuffled.take(np.arange(11)).column(0).mean()
    new_colts_mean = shuffled.take(np.arange(11, drops.num_rows)).column(0).mean()
    new_statistic = new_patriots_mean - new_colts_mean
    simulated_statistics = np.append(simulated_statistics, new_statistic)

現(xiàn)在對(duì)于經(jīng)驗(yàn) P 值，這是一個(gè)幾率（在原假設(shè)下計(jì)算），所得的檢驗(yàn)統(tǒng)計(jì)量等于觀察到統(tǒng)計(jì)量，或者更加偏向備選假設(shè)方向。為了弄清楚如何計(jì)算它，重要的是要回憶另一個(gè)假設(shè)：

備選假設(shè)：愛國者的下降值太大，并不僅僅是機(jī)會(huì)變異的結(jié)果。

“備選假設(shè)的方向”是愛國者的下降值很大，對(duì)應(yīng)我們的檢驗(yàn)統(tǒng)計(jì)量，“愛國者的均值減去小馬隊(duì)的均值”較大。所以 P 值是幾率（在原假設(shè)下計(jì)算），所得檢驗(yàn)統(tǒng)計(jì)量大于等于我們 0.73352272727272805。

empirical_P = np.count_nonzero(simulated_statistics >= observed_statistic)/repetitions
empirical_P
0.0027

這是一個(gè)非常小的 P 值。為了觀察它，下面是原假設(shè)下檢驗(yàn)統(tǒng)計(jì)量的經(jīng)驗(yàn)分布，其中觀察到的統(tǒng)計(jì)量標(biāo)在橫軸上。

print('Observed Statistic:', observed_statistic)
print('Empirical P:', empirical_P)
results = Table().with_column('Simulated Statistic', simulated_statistics)
results.hist()
plots.scatter(observed_statistic, 0, color='red', s=30);
Observed Statistic: 0.733522727273
Empirical P: 0.0027

https://gitee.com/wizardforcel/data8-textbook-zh/raw/master/img/10-15.png

請(qǐng)注意，分布大部分集中在 0 左右。在原假設(shè)下，愛國者的下降值是所有 15 下降值的隨機(jī)樣本，因此小馬對(duì)也是如此。所以這兩組下降值的平均值應(yīng)該大致相等，因此它們的差值應(yīng)該在 0 左右。

但是檢驗(yàn)統(tǒng)計(jì)量的觀察值離分布的中心還有很遠(yuǎn)的距離。使用什么是“小”的任何合理的截?cái)嘀?，?jīng)驗(yàn) P 值都是小的。所以我們最終拒絕原假設(shè)的隨機(jī)性，并得出結(jié)論，愛國者的下降值太大，并不單獨(dú)反映機(jī)會(huì)變異。

獨(dú)立的調(diào)查小組以數(shù)種不同的方式分析數(shù)據(jù)，并考慮到物理定律。最后的報(bào)告說：

“愛國者比賽用球的平均壓降超過了小馬隊(duì)的球的平均壓降 0.45psi 至 1.02psi，這取決于所使用的測(cè)量儀的各種可能的假設(shè)，并假設(shè)愛國者的球的初始?jí)簭?qiáng)為 12.5psi，小馬隊(duì)的球是 13.0psi?！?/p>

2015 年 1 月 18 日，由 NFL 委托對(duì) AFC 冠軍賽的調(diào)查報(bào)告

我們的分析顯示，平均壓降約為 0.73psi，接近“0.45 至 1.02psi”的中心，因此與官方分析一致。

請(qǐng)記住，我們對(duì)假設(shè)的檢驗(yàn)并沒有確定差異不是偶然的原因。建立因果關(guān)系通常比進(jìn)行假設(shè)檢驗(yàn)更為復(fù)雜。

但足球世界里最重要的問題是因果關(guān)系：問題是愛國者足球的壓強(qiáng)過大是否是故意的。如果你對(duì)調(diào)查人員的答案感到好奇，這里是完整的報(bào)告。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

計(jì)算與推斷思維十、假設(shè)檢驗(yàn)

計(jì)算與推斷思維十、假設(shè)檢驗(yàn)

十、假設(shè)檢驗(yàn)

陪審團(tuán)選拔

陪審團(tuán)

阿拉米達(dá)縣的陪審團(tuán)構(gòu)成

兩個(gè)分布的距離

計(jì)算 TVD 的函數(shù)

陪審團(tuán)是否是總體的代表？

從合格的陪審員中隨機(jī)抽樣

隨機(jī)樣本和總體之間有多少差異？

陪審團(tuán)和隨機(jī)樣本比如何？

數(shù)據(jù)上的問題

美國最高法院，1965年：斯溫 VS 阿拉巴馬州

檢驗(yàn)的術(shù)語

第一步：假設(shè)

第二步：檢驗(yàn)統(tǒng)計(jì)量

第三步：檢驗(yàn)統(tǒng)計(jì)量的概率分布，在原假設(shè)下

第四步檢驗(yàn)的結(jié)論

孟德爾的豌豆花

P 值和“一致”的含義

約定的歷史注解

GSI 的辯護(hù)

錯(cuò)誤概率

P 值的定義

回顧孟德爾的豌豆花

回顧 GSI 的辯護(hù)

做出錯(cuò)誤決策的概率

做出錯(cuò)誤決策的幾率

P 值的截?cái)嘀凳清e(cuò)誤概率

數(shù)據(jù)窺探

技術(shù)注解：其他類型的錯(cuò)誤

技術(shù)注解：識(shí)別拒絕域

示例：漏風(fēng)門

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

計(jì)算與推斷思維 十、假設(shè)檢驗(yàn)

十、假設(shè)檢驗(yàn)

陪審團(tuán)選拔

陪審團(tuán)

阿拉米達(dá)縣的陪審團(tuán)構(gòu)成

兩個(gè)分布的距離

計(jì)算 TVD 的函數(shù)

陪審團(tuán)是否是總體的代表？

從合格的陪審員中隨機(jī)抽樣

隨機(jī)樣本和總體之間有多少差異？

陪審團(tuán)和隨機(jī)樣本比如何？

數(shù)據(jù)上的問題

美國最高法院，1965年：斯溫 VS 阿拉巴馬州

檢驗(yàn)的術(shù)語

第一步：假設(shè)

第二步：檢驗(yàn)統(tǒng)計(jì)量

第三步：檢驗(yàn)統(tǒng)計(jì)量的概率分布，在原假設(shè)下

第四步 檢驗(yàn)的結(jié)論

孟德爾的豌豆花

P 值和“一致”的含義

約定的歷史注解

GSI 的辯護(hù)

錯(cuò)誤概率

P 值的定義

回顧孟德爾的豌豆花

回顧 GSI 的辯護(hù)

做出錯(cuò)誤決策的概率

做出錯(cuò)誤決策的幾率

P 值的截?cái)嘀凳清e(cuò)誤概率

數(shù)據(jù)窺探

技術(shù)注解：其他類型的錯(cuò)誤

技術(shù)注解：識(shí)別拒絕域

示例：漏風(fēng)門

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

計(jì)算與推斷思維十、假設(shè)檢驗(yàn)

十、假設(shè)檢驗(yàn)

陪審團(tuán)是否是總體的代表？

隨機(jī)樣本和總體之間有多少差異？

陪審團(tuán)和隨機(jī)樣本比如何？

第四步檢驗(yàn)的結(jié)論