Lesson 10 - 假設(shè)檢驗(yàn)

2 Hypothesis Testing

學(xué)術(shù)專家和行業(yè)專家 ,會(huì)有各種各樣的問(wèn)題 ,作為數(shù)據(jù)分析師 我們努力幫助他們回答這些問(wèn)題 ,但首先我們需要把問(wèn)題轉(zhuǎn)變成假設(shè) ,然后 我們需要收集數(shù)據(jù) ,來(lái)判斷哪個(gè)假設(shè)可能是真的

image.png

例如 有一天 ,我和一位朋友辯論 ,世界上最受歡迎的冰淇淋口味是什么? ,我認(rèn)為最受歡迎的口味是巧克力味 ,而他們堅(jiān)信是香草味 ,這種情況下 我們可以假設(shè) ,最受歡迎的冰淇淋是巧克力味 ,然后收集數(shù)據(jù) 驗(yàn)證這些數(shù)據(jù)是否實(shí)際支持這個(gè)假設(shè)

但是 除非我們問(wèn)過(guò)每個(gè)人 否則怎么確定呢? ,我們?cè)趺粗牢覀兊慕Y(jié)論是否可靠呢?

事實(shí)上 ,可以使用假設(shè)檢驗(yàn) ,或者上一節(jié)課中講過(guò)的置信區(qū)間, 僅利用樣本數(shù)據(jù)得出關(guān)于總體的結(jié)論

image.png

在醫(yī)學(xué)研究中 例如我想檢驗(yàn) ,一種抗癌藥物是否對(duì)患者有效
可以用多種不同方法進(jìn)行假設(shè)

  1. 如果患者感覺(jué)好些了 藥物是否有效?
  2. 如果患者壽命延長(zhǎng) 藥物是否有效?
  3. 如果藥物減小了腫瘤的尺寸 它是否有效?

在這一節(jié)課中 你將學(xué)習(xí) ,如何建立和評(píng)估假設(shè)檢驗(yàn)的結(jié)果 ,假設(shè)檢驗(yàn)的目的就是幫助企業(yè) ,對(duì)數(shù)據(jù)庫(kù)做出更好、更明智的決策 我們開(kāi)始吧

?

3 設(shè)置假設(shè)檢驗(yàn)

進(jìn)行假設(shè)檢驗(yàn)時(shí), 第一件事是 把一個(gè)問(wèn)題轉(zhuǎn)換成兩個(gè)對(duì)立的假設(shè)

image.png
  • 一個(gè)假設(shè)叫做零假設(shè)
  • 另一個(gè)叫做對(duì)立假設(shè)

這些假設(shè)的建立存在一定主觀性 ,但有幾個(gè)基本規(guī)則

  • H0是我們?cè)谑占魏螖?shù)據(jù)之前認(rèn)為為真的條件

  • 在數(shù)學(xué)上 H0通常認(rèn)為兩組相等或者效應(yīng)為零

  • H0H1應(yīng)該是對(duì)立的、不重疊的假設(shè)

  • H1通常 ,與你希望為真或你想要證明為真的事情相關(guān)

  • 在數(shù)學(xué)上 H0一般包含相等關(guān)系 (=, ≤, or ≥)

  • H1包含大于、小于或不等關(guān)系(≠, >, or <.)

舉例: 美國(guó)司法系統(tǒng)中常說(shuō) “被證明有罪之前是無(wú)辜的”

這實(shí)際是建立了一個(gè)假設(shè)檢驗(yàn) ,在司法案例中 ,每個(gè)個(gè)體要么無(wú)辜 要么有罪 , “被證明有罪之前是無(wú)辜的” 的陳述 ,其實(shí)表達(dá)的是

image.png
  • “我們最初認(rèn)為每個(gè)人都是無(wú)辜的” ,這是一種零假設(shè), 假設(shè)每個(gè)人都是無(wú)辜的 ,在收集任何數(shù)據(jù)之前 我們認(rèn)為這種陳述為真
image.png
  • 與它對(duì)立的對(duì)立假設(shè)就是 個(gè)體有罪 ,然后我們收集證據(jù)或數(shù)據(jù) 檢驗(yàn)這些數(shù)據(jù)支持哪個(gè)假設(shè)

4 ,

舉例: 假如你建了一個(gè)新網(wǎng)頁(yè)布局 我們想知道 ,這個(gè)新網(wǎng)頁(yè)是否能比現(xiàn)有網(wǎng)頁(yè)帶來(lái)更多流量,我們可以這樣問(wèn) “與現(xiàn)有網(wǎng)頁(yè)相比” ,“新網(wǎng)頁(yè)的平均網(wǎng)站流量是否增加?”

在進(jìn)行這個(gè)檢驗(yàn)之前 ,我們可能希望新網(wǎng)頁(yè)更好 ,這也是我們建這個(gè)網(wǎng)頁(yè)的原因 ,但是我們需要證明 ,這表示

  • 新網(wǎng)頁(yè)好于現(xiàn)有網(wǎng)頁(yè) ,屬于對(duì)立假設(shè)
  • 零假設(shè)就是兩個(gè)網(wǎng)頁(yè)的平均網(wǎng)站流量相同或者舊網(wǎng)頁(yè)實(shí)際更好

在數(shù)學(xué)上
現(xiàn)有網(wǎng)頁(yè)的平均流量等于新網(wǎng)頁(yè)的平均流量

image.png

那么 對(duì)立假設(shè)就是新網(wǎng)頁(yè)的平均流量大于現(xiàn)有網(wǎng)頁(yè)的平均流量

image.png

我們可以收集數(shù)據(jù) 檢驗(yàn)數(shù)據(jù)支持哪個(gè)假設(shè) ,這里 在零假設(shè)和對(duì)立假設(shè)的定義上 我們的準(zhǔn)則起了很大的作用 ,假設(shè)檢驗(yàn)的建立比較棘手 因?yàn)椴恢挥幸粋€(gè)正確答案 ,在后面的概念中 ,你將了解這對(duì)我們的決策過(guò)程有多重要 ,現(xiàn)在用這個(gè)例子以及這四條準(zhǔn)則練習(xí)設(shè)置假設(shè) ,

image.png

?

5 錯(cuò)誤類型

你已經(jīng)練習(xí)了如何建立假設(shè) ,你可能會(huì)問(wèn)自己 ,為什么零假設(shè)和對(duì)立假設(shè)這么重要? 它們非常重要 ,我們?cè)倩仡櫼幌轮芭e過(guò)的法庭例子 ,我們可以把可能與事實(shí)組成四個(gè)決策組合 ,為了方便查看每個(gè)結(jié)果 ,我們使用網(wǎng)格 用這個(gè)軸線代表 一個(gè)人無(wú)辜或者有罪的事實(shí) ,用這個(gè)軸線代表 ,陪審團(tuán)認(rèn)為這個(gè)人無(wú)辜還是有罪的決定 ,這形成了一個(gè)包含四個(gè)潛在結(jié)果的網(wǎng)格

image.png
  • 事實(shí)是一個(gè)人無(wú)辜 ,陪審團(tuán)也認(rèn)為這個(gè)人是無(wú)辜
  • 事實(shí)是這個(gè)人有罪 ,陪審團(tuán)也認(rèn)為這個(gè)人有罪

在其余兩個(gè)角 ,陪審團(tuán)犯了錯(cuò)誤 因?yàn)槭聦?shí)與他們的決定不符 ,這產(chǎn)生了兩個(gè)潛在錯(cuò)誤 它們?cè)诩僭O(shè)檢驗(yàn)中也可能會(huì)發(fā)生是

image.png
  • 第一種可能錯(cuò)誤一個(gè)人有罪 ,但陪審團(tuán)認(rèn)為這個(gè)人無(wú)辜 ,這個(gè)錯(cuò)誤會(huì)導(dǎo)致有罪的人被釋放
  • 第二種錯(cuò)誤是一個(gè)人無(wú)辜 ,但陪審團(tuán)認(rèn)為這個(gè)人有罪 ,這個(gè)錯(cuò)誤會(huì)導(dǎo)致無(wú)辜的人被懲罰

?

6 兩種類型的錯(cuò)誤

一類錯(cuò)誤二類錯(cuò)誤,正是由于這個(gè)原因 ,正確建立零假設(shè)和對(duì)立假設(shè)是非常重要的 ,它們定義了我們犯的錯(cuò)誤的重要程度

在上一個(gè)例子中 ,一類錯(cuò)誤是我們認(rèn)為一個(gè)人有罪 ,但他們實(shí)際無(wú)罪

一類錯(cuò)誤的定義是 ,在零假設(shè)實(shí)際為真的情況下,選擇對(duì)立假設(shè)的錯(cuò)誤 ,你可能還聽(tīng)過(guò)另一種叫法假正例 它常用 α 表示 ,一類錯(cuò)誤是兩種可能錯(cuò)誤中較嚴(yán)重的類型

image.png

Type I errors have the following features:

  1. You should set up your null and alternative hypotheses, so that the worse of your errors is the type I error.
  2. They are denoted by the symbol α.
  3. The definition of a type I error is: Deciding the alternative (H1) is true, when actually (H0) is true.
  4. Type I errors are often called false positives.

另一種錯(cuò)誤 ,可能導(dǎo)致有罪的人被釋放, 這是二類錯(cuò)誤

二類錯(cuò)誤的定義是在對(duì)立假設(shè)實(shí)際為真的情況下選擇零假設(shè)

image.png
  1. They are denoted by the symbol β.
  2. The definition of a type II error is: Deciding the null (H0) is true, when actually (H1) is true.
  3. Type II errors are often called false negatives.

在這個(gè)例子中 我們可以看出 有兩個(gè)潛在極端 ,陪審團(tuán)可能從來(lái)不想犯一類錯(cuò)誤 在這種情況下 ,無(wú)論證據(jù)如何 ,都會(huì)認(rèn)為每個(gè)人無(wú)罪 ,他們以后還會(huì)犯更多的二類錯(cuò)誤

image.png

相反 如果陪審團(tuán)認(rèn)為每個(gè)人都有罪 ,他們永遠(yuǎn)不會(huì)犯二類錯(cuò)誤 ,只會(huì)犯更多的一類錯(cuò)誤

image.png

由于一類錯(cuò)誤和二類錯(cuò)誤之間的這種關(guān)系 ,專業(yè)人員通常會(huì)為 ,他們?cè)敢夥傅?strong>一類錯(cuò)誤的數(shù)量設(shè)置一個(gè)閾值, 之后 他們?cè)跐M足這個(gè)閾值的同時(shí),盡量減少二類錯(cuò)誤 ,醫(yī)學(xué)領(lǐng)域內(nèi)常見(jiàn)的一類錯(cuò)誤率是 1% ,學(xué)術(shù)期刊和其它商業(yè)應(yīng)用中是 5% ,但實(shí)際上 這個(gè)比率取決于具體應(yīng)用情況

image.png

?
希望你現(xiàn)在能輕松辨別假設(shè)和錯(cuò)誤類型, 我們?cè)倥e一個(gè)例子 解釋這些概念 ,這個(gè)例子幫助我 ,將假設(shè)檢驗(yàn)和一類、二類錯(cuò)誤的所有信息點(diǎn)結(jié)合起來(lái) ,我希望它對(duì)你有同樣的效果

假設(shè)你有一個(gè)跳傘裝備商店 ,作為你工作的一部分 ,你必須對(duì)降落傘進(jìn)行檢查 確保它們功能正常 ,有兩個(gè)潛在結(jié)果 ,降落傘正常或者不正常

你可以把這兩個(gè)結(jié)果創(chuàng)建為兩個(gè)潛在假設(shè) ,你知道對(duì)于跳傘者與降落傘的每個(gè)組合有四個(gè)潛在結(jié)果

首先 你檢查每個(gè)降落傘, 確定降落傘是否正常

  • 如果確定它正常 ,你把它放在貨架上供跳傘者使用
  • 如果不正常 你把它扔掉

現(xiàn)在 有兩個(gè)可能事實(shí) ,降落傘要么正常, 要么不正常

對(duì)于我們扔掉的降落傘

image.png

如果它不正常,那很好 但是如果正常 ,那我們很可能損失了 30 塊

現(xiàn)在 對(duì)于我們上架的降落傘

image.png

如果它正常 那么跳傘者 ,用它跳出飛機(jī) 安全落地 ,但是 如果不正常, 我們明顯犯了最嚴(yán)重類型的錯(cuò)誤 ,在這個(gè)例子中 它屬于一類錯(cuò)誤 ,所以另一種錯(cuò)誤是二類錯(cuò)誤 ,這能幫助我們把零假設(shè)與對(duì)立假設(shè)這樣排列

image.png

我們知道 一類錯(cuò)誤率是, 在零假設(shè)為真的情況下選擇了對(duì)立假設(shè), 所以我們算出一類錯(cuò)誤率是1% 或 5% 這太高了 ,在每 100 個(gè)人中犯五次 ,甚至一次這種錯(cuò)誤 都是不可接受的

image.png

7 常見(jiàn)假設(shè)檢驗(yàn)

大家已經(jīng)了解了假設(shè)檢驗(yàn)的建立 ,我們現(xiàn)在看一下實(shí)踐中的最常見(jiàn)檢驗(yàn)

  • 一種常見(jiàn)檢驗(yàn)是檢驗(yàn)一個(gè)總體的均值或比例是否等于某個(gè)值

例如 在金融領(lǐng)域 ,我們有一個(gè)問(wèn)題 ,如果你期望投資回報(bào)率大于 6% ,那么 我們可以用以下方法建立假設(shè)檢驗(yàn)

image.png

零表示你的投資回報(bào)率小于等于 6% ,另一種表示大于 6%

  • 另一種常見(jiàn)假設(shè)檢驗(yàn)是 ,確定兩種營(yíng)銷活動(dòng)中的哪一種能給我們的網(wǎng)站帶來(lái)更多流量 ,這種情況下 我們可以設(shè)置一個(gè)零和一個(gè)這樣的替代值
image.png

零表示在兩種活動(dòng)中 ,訪問(wèn)我們網(wǎng)頁(yè)的個(gè)人的比例相同 ,另一種表示其中一個(gè)網(wǎng)頁(yè)吸引的流量更大

image.png

這種情況下兩個(gè)網(wǎng)頁(yè)之間的流量比例不同 ,如果我們真的想要檢驗(yàn)新活動(dòng)是否好于舊活動(dòng) ,可以使用這樣的單側(cè)假設(shè)檢驗(yàn) ,其中的 “大于” ,表示新活動(dòng)中訪問(wèn)我們網(wǎng)站的個(gè)人的比例較大 ,你可以做一些代數(shù)運(yùn)算 將相同的邏輯改成這樣

image.png

注意: 所有的這些假設(shè)檢驗(yàn)都考慮了參數(shù) ,這些檢驗(yàn)與統(tǒng)計(jì)值無(wú)關(guān), 從來(lái)無(wú)關(guān) ,不需要對(duì)統(tǒng)計(jì)值進(jìn)行假設(shè)檢驗(yàn) ,因?yàn)樵谖覀兊臄?shù)據(jù)集里它們屬于精確值 ,我們的問(wèn)題與整個(gè)總體有關(guān) 因此 ,我們的假設(shè)也與整個(gè)總體有關(guān) ,

常見(jiàn)的假設(shè)檢驗(yàn)包括:

  1. 測(cè)試總體平均值(一個(gè)樣本t檢驗(yàn))。

  2. 測(cè)試均值差異(雙樣本t檢驗(yàn))

  3. 測(cè)試同一個(gè)體治療前后的差異(配對(duì)t檢驗(yàn))

  4. 測(cè)試人口比例(一個(gè)樣本z檢驗(yàn))

  5. 測(cè)試人口比例之間的差異(兩個(gè)樣本z檢驗(yàn))

您可以使用其中一個(gè)站點(diǎn)提供t表或z表來(lái)支持上述方法之一: t-tablet-table或z-table

實(shí)際上有100多種不同的假設(shè)檢驗(yàn)! 但是,您可以找到最佳估計(jì)您想要估計(jì)的參數(shù)的統(tǒng)計(jì)數(shù)據(jù),而不是記住如何執(zhí)行所有這些測(cè)試,您可以通過(guò)引導(dǎo)來(lái)模擬采樣分布。然后,您可以使用抽樣分布來(lái)幫助選擇適當(dāng)?shù)募僭O(shè)。

10 如何在假設(shè)之間做出選擇?

問(wèn)題

喝咖啡的所有人的平均身高是否大于 70 英寸 (1.78 米)

我們可以用以下方法建立已知的對(duì)立假設(shè) ,這里 我們的

  • 零假設(shè)是喝咖啡的所有人的平均身高小于等于 70 英寸
  • 對(duì)立假設(shè)是平均身高大于 70 英寸

注意: 我們檢驗(yàn)的始終是參數(shù), 所以我在這里用 μ 表示喝咖啡的所有人的均值

第一種方法:
根據(jù)我剛才建立的置信區(qū)間 ,你可以用一個(gè)直觀的方法確定零假設(shè)是否可能 ,即自助抽樣數(shù)據(jù)的一個(gè)樣本集 然后反復(fù)計(jì)算樣本均值 ,建立抽樣分布和對(duì)應(yīng)的置信區(qū)間 ,用特定置信水平為總體均值確定合理值

image.png

在實(shí)踐中, 假設(shè)我們從數(shù)據(jù)集中獲得了這個(gè)樣本 ,我們可以用以下方法對(duì)它進(jìn)行自助抽樣, 現(xiàn)在 我們進(jìn)行多次自助抽樣 然后計(jì)算每個(gè)自助樣本的均值 ,這里 我們有自助樣本 ,在這里 我已經(jīng)創(chuàng)建了一個(gè)空的均值向量 ,我將把每個(gè)自助抽樣均值添加到其中 ,現(xiàn)在 我們得出了所有均值 可以創(chuàng)建置信區(qū)間了 ,這里是下限 ,這里是上限 ,另外 我們還可以選擇對(duì)它們繪圖 這是繪制的圖表

image.png

結(jié)論: 在上面的例子中,我們的區(qū)間完全低于70,這表明零(總體均值小于70)實(shí)際上是正確的。

喝咖啡的所有人的平均身高是否大于 70 英寸 (1.78 米) ,我們可以建立這樣的零假設(shè)和對(duì)立假設(shè) ,在假設(shè)檢驗(yàn)中做決策

第二種常用方法:
假如零假設(shè)為真 如果我們用零假設(shè)里最接近對(duì)立假設(shè)的值進(jìn)行模擬

我們可以知道抽樣分布的形狀 ,這個(gè)值是70,這是零假設(shè)里最接近對(duì)立假設(shè)的值 ,我們可以用抽樣分布的標(biāo)準(zhǔn)偏差確定,如果這個(gè)值來(lái)自零假設(shè) 抽樣分布是什么形狀

image.png

在這個(gè)例子中 我們對(duì)正態(tài)分布進(jìn)行模擬 ,我將復(fù)制之前使用的代碼 ,以便獲得我們的抽樣分布的標(biāo)準(zhǔn)偏差 ,抽樣分布的標(biāo)準(zhǔn)偏差等于 0.2658 ,我們知道 如果它來(lái)自70 的零假設(shè)值 它會(huì)是什么形狀

根據(jù)中心極限定理 ,我們知道 它服從正態(tài)分布 ,現(xiàn)在從 NumPy 的正態(tài)分布文檔中,我們了解了可以用以下方法

70假設(shè)均值和抽樣分布的標(biāo)準(zhǔn)偏差 ,對(duì)正態(tài)分布中的抽取值進(jìn)行模擬

image.png

這里 “l(fā)oc” 表示均值 也就是 70 ,“scale” 是我們想要使用的標(biāo)準(zhǔn)偏差 ,是我們的抽樣分布的標(biāo)準(zhǔn)偏差 ,我們可以模擬其中的1 萬(wàn)個(gè)值 ,這里的每個(gè)被模擬抽取值代表零假設(shè)中的一個(gè)可能均值

image.png

我們現(xiàn)在可以問(wèn)一個(gè)問(wèn)題 樣本均值位于這個(gè)分布中的哪個(gè)位置 ,回顧一下樣本均值

image.png

可以看出 它遠(yuǎn)遠(yuǎn)低于這個(gè)正態(tài)分布 ,如果樣本均值接近 70 的中心值 ,它就是零假設(shè)中的值 因此 ,我們認(rèn)為零假設(shè)更可能為真 ,現(xiàn)在這種情況下 樣本均值位于尾部之外 ,我們不太可能認(rèn)為它來(lái)自這個(gè)零假設(shè)值

11 什么是p值

如果p值比α小, 意味著拒絕零假設(shè)而偏向?qū)α⒓僭O(shè)犯一類錯(cuò)誤的概率為p, 而犯一類錯(cuò)誤的概率不能超過(guò)5%, 所以說(shuō)可以很安全的推翻零假設(shè).

如果p值比α大, 意味著拒絕零假設(shè)而偏向?qū)α⒓僭O(shè)犯一類錯(cuò)誤的概率為p, 而犯一類錯(cuò)誤的概率不能超過(guò)5%, 而此時(shí)超過(guò)了5%,因此犯錯(cuò)誤的概率太大太有風(fēng)險(xiǎn), 不能推翻零假設(shè)

如果零假設(shè)為真,則 p值的定義是觀察您的統(tǒng)計(jì)量(或者更偏向于替代方案)的概率。

在第二種方法中
我們問(wèn)了一個(gè)問(wèn)題 如果零假設(shè)為真, 獲得數(shù)據(jù)中觀察到的統(tǒng)計(jì)量或者更極端統(tǒng)計(jì)量, 從而選擇對(duì)立假設(shè)的概率是多少?

這個(gè)概率稱為 P 值, P 值的確定涉及你學(xué)到的多個(gè)概念, 抽樣分布和條件概率

image.png

假如我們有一個(gè)零假設(shè), 假設(shè)總體均值等于零, 我們收集樣本數(shù)據(jù) 發(fā)現(xiàn)樣本均值是5, 樣本標(biāo)準(zhǔn)偏差是2

image.png

假設(shè)統(tǒng)計(jì)量的抽樣分布符合零假設(shè), 從這個(gè)分布中的數(shù)據(jù), 觀察到統(tǒng)計(jì)量實(shí)際值的概率是多少?

如果我們想知道, 總體均值實(shí)際大于零的概率, 你可以更新假設(shè)6、7、10等值都在這更像是表明對(duì)立假設(shè)為真, 總體均值大于零

image.png

另外 觀察到的統(tǒng)計(jì)量, 表明需要選擇對(duì)立假設(shè)的概率是多少?
這個(gè)陰影區(qū)域就是這個(gè)概率 也就是 P 值

注意: P 值取決于對(duì)立假設(shè) 因?yàn)樗鼪Q定了更極端的值, 如果對(duì)立假設(shè)是參數(shù)大于零, 陰影區(qū)域會(huì)比現(xiàn)在顯示的統(tǒng)計(jì)量大

image.png

但是 如果我們把零假設(shè)和對(duì)立假設(shè)改成這樣, 陰影區(qū)域應(yīng)該在這個(gè)統(tǒng)計(jì)量左邊
P 值的陰影區(qū)域現(xiàn)在是這樣

要理解的有兩個(gè)部分
第一 你必須把 P 值完全概念化, 它是零假設(shè)為真的情況下數(shù)據(jù)的條件概率, 然后 你需要明白要計(jì)算的是什么, 這三個(gè)圖片有很直觀的總結(jié), 在開(kāi)始學(xué)習(xí)運(yùn)用 P 值的概念做決策之前, 你還需要對(duì)這兩個(gè)部分進(jìn)行練習(xí)

  • 如果您的參數(shù)大于備選假設(shè)中的某個(gè)值,則您的著色將如下所示以獲取您的p值:
image.png
  • 如果您的參數(shù)小于備選假設(shè)中的某個(gè)值,則您的著色將如下所示以獲取您的p值:
image.png

注意 : 這會(huì)形成非常大的概率, 因?yàn)檫@種情況下幾乎整個(gè)分布區(qū)域都是陰影, 如果對(duì)立假設(shè)中含有不等關(guān)系, 陰影區(qū)域則與在兩個(gè)方向, 均遠(yuǎn)離零假設(shè)的極端值相關(guān), 這種情況下 我們只關(guān)心在兩個(gè)方向均遠(yuǎn)離零假設(shè)的統(tǒng)計(jì)量, 所以我們最終在遠(yuǎn)離零假設(shè)的兩端涂陰影 從而確定 P 值

  • 如果您的參數(shù)不等于備選假設(shè)中的某個(gè)值,則您的著色將如下所示以獲取您的p值:
image.png

計(jì)算p值

如果p值比α小, 意味著拒絕零假設(shè)而偏向?qū)α⒓僭O(shè)犯一類錯(cuò)誤的概率為p, 而犯一類錯(cuò)誤的概率不能超過(guò)5%, 所以說(shuō)可以很安全的推翻零假設(shè).

如果p值比α大, 意味著拒絕零假設(shè)而偏向?qū)α⒓僭O(shè)犯一類錯(cuò)誤的概率為p, 而犯一類錯(cuò)誤的概率不能超過(guò)5%, 而此時(shí)超過(guò)了5%,因此犯錯(cuò)誤的概率太大太有風(fēng)險(xiǎn), 不能推翻零假設(shè)

你學(xué)習(xí)了如何用零假設(shè)模擬抽樣

image.png
  • 如果統(tǒng)計(jì)量處于分布區(qū)域內(nèi) ,這表明統(tǒng)計(jì)量可能來(lái)自這個(gè)零假設(shè)
  • 但是 如果統(tǒng)計(jì)量遠(yuǎn)離分布區(qū)域 ,這表明零假設(shè)不可能產(chǎn)生統(tǒng)計(jì)量

你還學(xué)習(xí)了如何根據(jù)陰影區(qū)計(jì)算 p 值 ,陰影區(qū)從我們觀察到的統(tǒng)計(jì)量開(kāi)始 延伸到分布區(qū)域的尾部 ,陰影區(qū)取決于對(duì)立假設(shè)

你用零假設(shè)模擬了抽樣分布的值, 假設(shè)我們的對(duì)立假設(shè)是 ,總體均值大于 70 ,我們可以將 p 值作為大于樣本均值的模擬樣本的比例來(lái)計(jì)算

這里可以看出 我們得到的 p 值是1 ,記住 p 值較大表示不應(yīng)該拋棄零假設(shè) ,在這個(gè)案例中 這表明 我們應(yīng)該認(rèn)為均值小于 70 ,這里 我們已經(jīng)計(jì)算了大于樣本均值的空值 ,由于這是一 ,p 值較大 因此 我們不會(huì)拋棄零假設(shè) ,這表明總體均值實(shí)際小于等于 70

image.png

如果新的零假設(shè)和對(duì)立假設(shè)是這樣 ,計(jì)算 p 值的方法稍微有些不同 ,這里 由于對(duì)立假設(shè)是小于 70 ,我們現(xiàn)在可以看統(tǒng)計(jì)量左邊的陰影區(qū)域 ,p 值將變成這樣 ,由于 p 值是零 ,這表明我們應(yīng)該拋棄零假設(shè) 選擇對(duì)立假設(shè) ,表明總體均值小于 70

image.png

如果這是零假設(shè)和對(duì)立假設(shè) ,我們現(xiàn)在應(yīng)該看 在遠(yuǎn)離零假設(shè)的任一方向 ,都比樣本均值極端的值

image.png

過(guò)程總結(jié):

  • 從null中模擬可能的統(tǒng)計(jì)值。
  • 計(jì)算您在數(shù)據(jù)中實(shí)際獲得的統(tǒng)計(jì)值
  • 將統(tǒng)計(jì)信息與null中的值進(jìn)行比較。
  • 根據(jù)您的對(duì)立假設(shè)計(jì)算被視為極值的空值的比例。

P是“拒絕原假設(shè)時(shí)犯錯(cuò)誤概率”又或者說(shuō)是“如果你拒絕掉原假設(shè)實(shí)際上是在冤枉好人的概率”

不管怎么表達(dá)理解上都有點(diǎn)繞,所以你還是看例子吧。比如你做一個(gè)假設(shè)( null hypothesis):你的女性朋友平均身高2米,輸入你統(tǒng)計(jì)的樣本數(shù)據(jù)后,計(jì)算機(jī)給你返回的p值是0.03。這意味著如果你拒絕“女性朋友平均身高2米”這個(gè)結(jié)論,犯錯(cuò)的概率是0.03,小于0.05(人們一般認(rèn)為拒絕一句話時(shí)犯錯(cuò)概率小于0.05就可以放心大膽地拒絕了),這個(gè)時(shí)候你就可以拒絕原假設(shè)。如果計(jì)算機(jī)返回p值是0.9,那么你就會(huì)想,這說(shuō)明拒絕原假設(shè)犯錯(cuò)概率高達(dá)90%,那么我就不應(yīng)該拒絕原假設(shè),即你應(yīng)該認(rèn)為你的女性朋友平均身高就是2米。

原假設(shè)為女性朋友身高平均值2米,取了若干個(gè)樣本后測(cè)量出樣本的平均值為1.6,經(jīng)過(guò)計(jì)算,在我們?cè)O(shè)定alpha為0.05時(shí),置信區(qū)間為1.8到2.2,咱們?nèi)〉臉颖揪?.6不在這個(gè)范圍內(nèi),所以拒絕。

“拒絕原假設(shè)犯錯(cuò)的概率”是在說(shuō)什么呢,它是在說(shuō),我們假設(shè)女孩子們身高均值為2米,計(jì)算出來(lái)的均值為1.6,跟原假設(shè)差距很大,這時(shí)候我們拒絕原假設(shè)“身高為2米”,我們拒絕這個(gè)不靠譜零假設(shè)時(shí)可能犯錯(cuò)的概率<=0.05。
or
“接受原假設(shè)正確的概率”是在說(shuō)什么呢,它是在說(shuō),我們假設(shè)女孩子們身高均值為2米,計(jì)算出來(lái)的均值為1.6,跟原假設(shè)差距很大,但我們還是堅(jiān)持認(rèn)為原假設(shè)“身高為2米,我們堅(jiān)持這個(gè)不靠譜零假設(shè)時(shí)可能正確的概率<=0.05。

樣本均值1.6對(duì)應(yīng)的p值為0.03是什么意思?這是指,在假設(shè)全體女孩身高為2米的情況下,咱們隨機(jī)抽取到一些樣本得出均值為1.6米或比1.6米更極端的數(shù)值的可能性為0.03,在原假設(shè)下抽到這樣樣本的概率太低了,而我們卻十分稀罕地居然一下就抽到了這樣的樣本,那么正常人的第一反應(yīng)就是,咱們?cè)燃僭O(shè)身高均值為2米這個(gè)假設(shè)不對(duì)。用統(tǒng)計(jì)學(xué)的話來(lái)說(shuō)就叫做“由于樣本均值落在拒絕域中,所以拒絕原假設(shè)”。

如果p值比α小, 意味著拒絕零假設(shè)而偏向?qū)α⒓僭O(shè)犯一類錯(cuò)誤的概率為p, 而犯一類錯(cuò)誤的概率不能超過(guò)5%, 所以說(shuō)可以很安全的推翻零假設(shè).

如果p值比α大, 意味著拒絕零假設(shè)而偏向?qū)α⒓僭O(shè)犯一類錯(cuò)誤的概率為p, 而犯一類錯(cuò)誤的概率不能超過(guò)5%, 而此時(shí)超過(guò)了5%,因此犯錯(cuò)誤的概率太大太有風(fēng)險(xiǎn), 不能推翻零假設(shè)

可見(jiàn),p值是在精確的算出一個(gè)取樣的稀罕程度。alpha值是事先給出了一個(gè)對(duì)樣本稀罕程度的判斷,這個(gè)值是可以主觀去改變的,你可以認(rèn)為取到樣本均值的可能性為0.2或更低就很極端從而拒絕,也可以認(rèn)為取到樣本均值的可能性為0.001或更低才拒絕。一般認(rèn)為樣本稀罕到可能取到的概率<=0.05時(shí),咱們就認(rèn)為原假設(shè)不靠譜。

14 p 值與錯(cuò)誤類型

如果p值比α小, 意味著拒絕零假設(shè)而偏向?qū)α⒓僭O(shè)犯一類錯(cuò)誤的概率為p, 而犯一類錯(cuò)誤的概率不能超過(guò)5%, 所以說(shuō)可以很安全的推翻零假設(shè).

如果p值比α大, 意味著拒絕零假設(shè)而偏向?qū)α⒓僭O(shè)犯一類錯(cuò)誤的概率為p, 而犯一類錯(cuò)誤的概率不能超過(guò)5%, 而此時(shí)超過(guò)了5%,因此犯錯(cuò)誤的概率太大太有風(fēng)險(xiǎn), 不能推翻零假設(shè)

學(xué)習(xí)了 p 值是從零假設(shè)中 ,獲取數(shù)據(jù)或更極端值的概率 ,那么 這與做決策和我們犯的錯(cuò)誤類型有什么關(guān)系? ,

如果 p 值非常小 ,表示不太可能從零假設(shè)中觀察到統(tǒng)計(jì)量 ,統(tǒng)計(jì)量很可能來(lái)自對(duì)立假設(shè) ,但是 如果選擇零假設(shè) ,p 值最小應(yīng)該是多少? (接受原假設(shè)正確的概率)

image.png

我認(rèn)為這取決于你犯特定類型錯(cuò)誤的意愿有多大 ,如果你愿意犯 5% 的錯(cuò)誤 ,錯(cuò)誤地選擇對(duì)立假設(shè) ,p 值需要小于這個(gè)閾值 才能選擇對(duì)立假設(shè)

image.png

但是 如果從零假設(shè)獲得數(shù)據(jù)的概率是 ,比如 8% ,在 5% 的一類錯(cuò)誤閾值下 ,這個(gè)概率足以讓你選擇零假設(shè)

image.png

簡(jiǎn)單的規(guī)則是 如果 p 值小于一類錯(cuò)誤率 ,專業(yè)人員建議我們拒絕零假設(shè) ,即 選擇對(duì)立假設(shè) ,如果 p 值大于一類錯(cuò)誤率 ,我們無(wú)法拒絕零假設(shè) ,即 我們選擇零假設(shè)作為我們的決策 ,到底哪個(gè)為真? ,在實(shí)踐中 我們無(wú)法確定 ,但是 我們現(xiàn)在能利用數(shù)據(jù)庫(kù)做出決策

image.png

在選擇零假設(shè)與對(duì)立假設(shè)之間做決策時(shí) ,你可能會(huì)看到一些專家 特別是統(tǒng)計(jì)學(xué)家 ,畏畏縮縮 做出這樣的總結(jié) ,“根據(jù)數(shù)據(jù) ,我們認(rèn)為零假設(shè)為真” 或者 ,“根據(jù)數(shù)據(jù) 我們認(rèn)為對(duì)立假設(shè)為真”

記住 建立零假設(shè)和對(duì)立假設(shè)時(shí) ,在收集任何數(shù)據(jù)之前 我們自動(dòng)把零假設(shè)設(shè)為真 ,因此 這種陳述是默認(rèn)的 ,這不是說(shuō)我們不確定應(yīng)該選哪個(gè)假設(shè) 然后從中選擇一個(gè) ,而是默認(rèn)選擇了零假設(shè)

現(xiàn)在再看法庭的例子 ,每個(gè)人在被證明有罪之前 都是無(wú)辜的 ,你不是選擇某個(gè)人無(wú)辜 ,默認(rèn)情況下 每個(gè)人都是無(wú)辜的

因此 在假設(shè)檢驗(yàn)中 ,我們說(shuō) “根據(jù)數(shù)據(jù) ,我們有證據(jù)反對(duì)零假設(shè)” 或者 ,如果沒(méi)有足夠的證據(jù)反對(duì)零假設(shè) 我們說(shuō) ,“根據(jù)數(shù)據(jù) 我們無(wú)法反對(duì)零假設(shè)” ,許多人只關(guān)心做出對(duì)的決策 ,所以這樣區(qū)分可能看起來(lái)有點(diǎn)吹毛求疵 ,但是它強(qiáng)調(diào)的是 在你開(kāi)始陳述哪個(gè)為真時(shí) ,零假設(shè)被選中的可能性更大 ,

其他需要考慮的事項(xiàng)

  1. 樣本能夠代表總體嗎
image.png
  1. 樣本的大小對(duì)結(jié)果有影響嗎?
image.png
  1. 假設(shè)檢驗(yàn)與機(jī)器學(xué)習(xí)
    對(duì)于大樣本量,假設(shè)檢驗(yàn)甚至導(dǎo)致最小的發(fā)現(xiàn)具有統(tǒng)計(jì)學(xué)意義。然而,這些發(fā)現(xiàn)可能根本沒(méi)有實(shí)際意義。

例如,假設(shè)你發(fā)現(xiàn)統(tǒng)計(jì)學(xué)多的人喜歡的飲料1到飲料2就超過(guò)一百萬(wàn)人的研究。在此基礎(chǔ)上,您決定開(kāi)設(shè)一家商店來(lái)銷售飲料1.然后您會(huì)發(fā)現(xiàn)飲料1僅比飲料2更受歡迎0.0002%(但您的大樣本量具有統(tǒng)計(jì)學(xué)意義)。實(shí)際上,也許你應(yīng)該開(kāi)一家賣兩者的商店。

假設(shè)檢驗(yàn)對(duì)基于數(shù)據(jù)的結(jié)論采取綜合方法,因?yàn)檫@些檢驗(yàn)旨在了解人口參數(shù)(即總?cè)丝趦r(jià)值)。

或者,機(jī)器學(xué)習(xí)技術(shù)采用個(gè)別方法來(lái)得出結(jié)論,因?yàn)樗鼈冊(cè)噲D預(yù)測(cè)每個(gè)特定數(shù)據(jù)點(diǎn)的結(jié)果。

image.png

17 , ,你已經(jīng)了解了假設(shè)檢驗(yàn)可能會(huì)發(fā)生的錯(cuò)誤類型 ,你還了解了如何為 ,錯(cuò)誤的允許發(fā)生頻率創(chuàng)建一個(gè)閾值 ,

但是想一下 如果我們把同一類型的假設(shè)檢驗(yàn)進(jìn)行 20 次 ,即使零假設(shè)實(shí)際為真 ,如果一類錯(cuò)誤率是 5% ,可以預(yù)計(jì) 其中一次檢驗(yàn)的結(jié)果是選擇對(duì)立假設(shè) ,世界上的研究者通常都在進(jìn)行非常相似的研究 ,所以 當(dāng)一名研究者獲得了重大成果 ,我們?cè)趺创_定這些成果就是這些一類錯(cuò)誤的其中之一? 在許多情況下 我們無(wú)從知曉 這是難點(diǎn)所在 ,這是一個(gè)問(wèn)題 但是統(tǒng)計(jì)學(xué)家提出了 ,解決這個(gè)問(wèn)題的幾個(gè)辦法 ,最保守和常見(jiàn)的一種方法是 Bonferroni 校正法 ,這種簡(jiǎn)單校正法認(rèn)為 如果你正在進(jìn)行 m 檢驗(yàn) ,你應(yīng)該將一類錯(cuò)誤率除以 m ,確保保持這里的錯(cuò)誤率 ,所以 如果你真的想要 ,達(dá)到 5% 的一類錯(cuò)誤率 并且正在進(jìn)行 10 次假設(shè)檢驗(yàn) ,新的選擇對(duì)立假設(shè)的閾值實(shí)際是 0.5%

image.png

這只是其中一種常見(jiàn)的校正法 ,其它方法包括 Tukey 校正法 ,生物醫(yī)學(xué)領(lǐng)域 ,常用的方法是 Q 值法 ,下面的講師注釋介紹了更多方法 ,

image.png

其他技術(shù)

防止復(fù)合I類錯(cuò)誤的其他技術(shù)包括:

  1. Tukey校正

  2. Q值

15 CI和HT如何比較?

雙邊假設(shè)檢驗(yàn)(即涉及a的測(cè)試) \ neq≠替代方案)就作為置信區(qū)間作出的結(jié)論而言是相同的,只要:

1 - CI = α

例如,95%置信區(qū)間將得出與假設(shè)檢驗(yàn)相同的結(jié)論,I類錯(cuò)誤率為0.05,根據(jù)選擇的假設(shè),因?yàn)椋?/p>

1 - 0.95 = 0.05

假設(shè)替代假設(shè)是雙邊檢驗(yàn)。

image.png
image.png

你已經(jīng)學(xué)習(xí)了如何建立零假設(shè)和對(duì)立假設(shè) ,你還判定了一類錯(cuò)誤和二類錯(cuò)誤 ,你可以根據(jù)錯(cuò)誤閾值計(jì)算要選擇的假設(shè) ,你還了解了在樣本量非常大 ,以及需要進(jìn)行多次假設(shè)檢驗(yàn)的情況下 ,你可能做出的結(jié)論會(huì)帶來(lái)什么危害 ,最后 你了解了置信區(qū)間和 ,假設(shè)檢驗(yàn)的緊密關(guān)系 ,假設(shè)檢驗(yàn)相關(guān)概念是 ,A/B 測(cè)試以及數(shù)據(jù)庫(kù)業(yè)務(wù)決策的核心 ,在下一節(jié)課 ,你將學(xué)習(xí)在實(shí)戰(zhàn)中運(yùn)用這些概念

用圖形如何解釋p值

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容