推斷統(tǒng)計(jì)學(xué)(二)——假設(shè)檢驗(yàn)

1.0 假設(shè)檢驗(yàn)

? ? ? ? 假設(shè)檢驗(yàn)是建立在否定式邏輯上的一類(lèi)概率驗(yàn)證方法。

1.1 否定式邏輯

????????否定式邏輯:若 A\implies B,則 ~B\implies ~A。舉個(gè)例子,一般情況下若一個(gè)人性別為男性(A),則這個(gè)人上廁所理應(yīng)去男廁(B),但是發(fā)現(xiàn)這個(gè)人不去男廁上廁所(~B),則這個(gè)人的性別就不是男性(~A)。

????????需要注意兩點(diǎn):1)否定式邏輯中A和B并不是充要關(guān)系,因此存在~B無(wú)法反推出~A的情況,需結(jié)合實(shí)際情況考慮;2)否定式邏輯和反證法非常相似,但本質(zhì)上還是有些許不同的,差異就在反證法默認(rèn)~B是一定可以推出~A,但多數(shù)情況下可以認(rèn)為是同一種思想。

1.2 小概率事件

? ? ? ? 假設(shè)檢驗(yàn)的另一基礎(chǔ)是小概率事件,即:小概率事件是發(fā)生概率很小(接近于0)的一類(lèi)事件。那么在一次試驗(yàn)(抽樣)中是幾乎不可能發(fā)生的,但在多次重復(fù)試驗(yàn)(抽樣)中是必然發(fā)生的。

2.0 假設(shè)檢驗(yàn)的步驟

Step 1:提出(推斷性)假設(shè)

? ? ? ? 假設(shè)檢驗(yàn)首先需要提出待檢驗(yàn)的假設(shè),包括H_0H_1H_0被稱為零假設(shè)或虛無(wú)假設(shè)(null hypothesis),在否定式邏輯中就是A;H_1備擇假設(shè)(alternative hypothesis),也稱對(duì)立假設(shè),就是否定式邏輯中的~A。H_0H_1是一對(duì)互斥事件,構(gòu)成了現(xiàn)實(shí)情況描述的完備情況。

? ? ? ? 那么如何確定假設(shè)內(nèi)容,通常有一定的原則遵循:將無(wú)差別的、不起作用的、公認(rèn)的、不證自明的、符合規(guī)則的內(nèi)容作為H_0,將有區(qū)別的、起作用的、需要證明的、違反規(guī)則的內(nèi)容作為H_1。

? ? ? ? 以薯片袋重為例,已知一袋薯片外包裝上標(biāo)明其重量為\mu,現(xiàn)通過(guò)n>30的抽樣調(diào)查得到樣本平均袋重為m。由于抽樣誤差存在,必然有\mu \neq m,現(xiàn)在要檢驗(yàn)薯片的真實(shí)平均袋重(記\overline{\mu})是否為\mu 。提出假設(shè):

????????H_0 \mu = \overline{\mu }(即A)

? ??????H_1 \mu\neq\overline{\mu }(即~A)

? ? ? ? 這里\mu是預(yù)先決定的、計(jì)劃好的、普遍認(rèn)為的生產(chǎn)標(biāo)準(zhǔn),因此作為H_0的內(nèi)容。H_1則直接對(duì)H_0取反即可。

Step 2: 計(jì)算概率

? ? ? ? 假設(shè)檢驗(yàn)第二步就是計(jì)算\overline{x}在一次的抽樣中出現(xiàn)的概率,并得到B和~B:

????????B:抽樣得到的樣本均值為m是一個(gè)常規(guī)情況,不是小概率事件;

????????~B:抽樣得到的樣本均值為m是一個(gè)小概率事件。

? ? ? ? 到此,假設(shè)檢驗(yàn)中完整的否定式邏輯就已經(jīng)形成:

? ? ? ? A\implies B:若零假設(shè)成立,那么(在零假設(shè)成立的情況下)一次抽樣的結(jié)果不應(yīng)該是一個(gè)小概率事件;

? ??????~B\implies ~A:若一次抽樣的結(jié)果是一個(gè)小概率事件,與零假設(shè)成立的假定相矛盾,那么零假設(shè)不成立。

? ? ? ? 這一概率其實(shí)是一個(gè)條件概率,即計(jì)算在零假設(shè)成立的前提下抽樣結(jié)果發(fā)生的概率,即P(抽樣結(jié)果|零假設(shè)成立)。

Step 3:概率推斷

? ? ? ? 第三步概率推斷就是對(duì)基于計(jì)算概率結(jié)果對(duì)假設(shè)的“拒絕”和“接受”進(jìn)行判斷,推斷過(guò)程見(jiàn)下圖:

? ? ? ? 概率推斷依據(jù)前面的推導(dǎo)邏輯,若零假設(shè)的成立前提下,樣本在一次抽樣事件中發(fā)生的條件概率P(m|\mu = \bar{  \mu})位于小概率事件閾值之間p<\frac{\alpha }{2} \alpha 為顯著性水平,注意與置信水平的關(guān)系),說(shuō)明B成立,則 A\implies B,所以不拒絕H_0;若p\geq \frac{\alpha}{2} ,則認(rèn)為抽樣事件為小概率事件,即~B成立,則有 ~B\implies ~A,所以拒絕H_0,接受H_1。

????????至此,假設(shè)檢驗(yàn)全過(guò)程完成。

? ? ? ? 假設(shè)檢驗(yàn)根據(jù)實(shí)際應(yīng)用分為雙側(cè)檢驗(yàn)和單側(cè)檢驗(yàn),在原假設(shè)、備擇假設(shè)構(gòu)造集概率計(jì)算上都有所不同。且與參數(shù)估計(jì)一樣,樣本量級(jí)、總體分布是否正態(tài)、總體方差是否已知等因素也會(huì)影響樣本分布。這里就不闡述,解詳可翻閱任一統(tǒng)計(jì)學(xué)書(shū)籍。

3.0 補(bǔ)充說(shuō)明

3.1?“接受”和“拒絕”

? ? ? ? 檢驗(yàn)結(jié)果為什么使用的是“接受”和“拒絕”,而不是“真”和“偽”?

? ? ? ? 答:由于無(wú)法獲取總體數(shù)據(jù),因此永遠(yuǎn)不可能知道總體參數(shù)的真實(shí)情況,也就不存在“真”和“偽”的問(wèn)題。薯片例子中,這里給出的\overline{\mu} 只是預(yù)先規(guī)定的重量,本質(zhì)是一個(gè)期望值,并不是真實(shí)值,而假設(shè)檢驗(yàn)的多數(shù)情況都是對(duì)期望值的檢驗(yàn)。

? ??????“接受”、“拒絕”和“不拒絕”有什么區(qū)別?

? ??????首先看p>\alpha 時(shí),說(shuō)明零假設(shè)\mu  = \overline{\mu} 前提下,此時(shí)不拒絕H_0。但是由于無(wú)法知曉總體參數(shù)的真值,所以若\overline{\mu} \pm \Delta \Delta 足夠小時(shí),必然同樣可以得到P(m | \mu =\overline{\mu}+ \Delta ) > \alpha ,而這樣的\overline{\mu} \pm \Delta 可以有無(wú)數(shù)個(gè)取值,零假設(shè)H_0:\mu = \overline{\mu}只是無(wú)數(shù)可能情況的一種,因此無(wú)法確定真實(shí)情況具體是哪一種,只能“不拒絕”,而不是“接受”。但是p<\alpha 時(shí),說(shuō)明零假設(shè)H_0:\mu =\overline{\mu }是一種幾乎不可能的情況,可以較為確定總體真值并不是這一種,因此可以“拒絕”

3.2 p值和t

? ? ? ? 假設(shè)檢驗(yàn)第二步是計(jì)算概率,并即p值,通過(guò)比較p值和\alpha 的大小關(guān)系進(jìn)行假設(shè)檢驗(yàn)的判斷。而p值又是根據(jù)t值計(jì)算得到的,t值實(shí)際上就是在零假設(shè)成立時(shí)將樣本服從分布轉(zhuǎn)化成標(biāo)準(zhǔn)正態(tài)分布后的樣本均值所對(duì)應(yīng)的數(shù)值,p值就是t值形成區(qū)域的面積,如下圖綠色區(qū)域所示:

? ? ? ? 因此假設(shè)檢驗(yàn)的第二步除了比較概率p值和\alpha 之外,還可以比較t值進(jìn)行判斷。依然以上文薯片為例當(dāng)t值在顯著性水平\alpha 所對(duì)應(yīng)的臨界值之外時(shí)(假設(shè)總體正態(tài)分布且方差已知),即t<-Z_\frac{\alpha }{2} t>Z_\frac{\alpha }{2} ,則有p<\frac{\alpha }{2} ,于是拒絕H_0,接受H_1;當(dāng)t值在\pm Z_\frac{\alpha }{2} 內(nèi)側(cè)時(shí),則有p\geq \frac{\alpha }{2},于是不拒絕H_0。

? ? ? ? 下圖標(biāo)注了以三組相反數(shù),+/-2.58、+/-1.96和+/-1.645作為雙側(cè)檢驗(yàn)判斷邊界的情況,三組邊界分別對(duì)應(yīng)了\alpha 去0.01、0.05和0.1的情況,邊界的外部?jī)蓚?cè)即為拒絕域,拒絕域的面積即為相應(yīng)的\alpha (單側(cè)面積為\alpha /2),當(dāng)樣本結(jié)果的p值落在拒絕域,等同于樣本結(jié)果的發(fā)生概率小于拒絕域?qū)?yīng)的\alpha ,此時(shí)就拒絕H_0,反之則不拒絕H_0

3.3 一類(lèi)錯(cuò)誤和二類(lèi)錯(cuò)誤

? ? ? ? 對(duì)于\alpha 的取值,實(shí)際是并沒(méi)有一個(gè)學(xué)術(shù)上嚴(yán)格的規(guī)定,目前為止都是習(xí)慣地取0.01、0.05或0.1,其中0.05是較為常見(jiàn)的情況。對(duì)于0.05的由來(lái),一種較為令人信服的說(shuō)法是標(biāo)準(zhǔn)正態(tài)分布的4倍標(biāo)準(zhǔn)差(上圖中將+/-1.96近似為+/-2)內(nèi)的概率近似約為0.95(實(shí)際會(huì)略大),從范圍取值和概率取值來(lái)說(shuō)都是方便計(jì)算和記憶的數(shù),同時(shí)0.05的拒絕空間也足夠保證假設(shè)檢驗(yàn)的正確性。

? ? ? ? 然而以0.01、0.05和0.1作為判斷依據(jù)具有較大的武斷性,并對(duì)假設(shè)檢驗(yàn)的結(jié)果帶來(lái)了一定錯(cuò)誤風(fēng)險(xiǎn),即一類(lèi)錯(cuò)誤(type I error)和二類(lèi)錯(cuò)誤(type II error)。

????????一類(lèi)錯(cuò)誤就是錯(cuò)誤地拒絕H_0,即“拒真”。假設(shè)檢驗(yàn)中,以\alpha 作為是否拒絕H_0的標(biāo)準(zhǔn),所以一類(lèi)錯(cuò)誤的發(fā)生概率就是\alpha 。一類(lèi)錯(cuò)誤意味著,在一次抽樣中,小概率事件就這么不巧地發(fā)生了,導(dǎo)致錯(cuò)誤地拒絕了H_0。

????????二類(lèi)錯(cuò)誤就是錯(cuò)誤地沒(méi)有拒絕H_0,即“納偽”,更準(zhǔn)確地說(shuō)是“未拒偽”,犯錯(cuò)概率通常記為\beta 。但一類(lèi)錯(cuò)誤中預(yù)先就知道犯錯(cuò)概率為\alpha ,而二類(lèi)錯(cuò)誤卻必須通過(guò)總體均值計(jì)算才能得到,實(shí)際中常以樣本均值代替總體均值計(jì)算。以薯片袋重為例,犯二類(lèi)錯(cuò)誤的概率\beta =P(t_\frac{\alpha}{2} |\mu = \hat{\mu} )t_\frac{\alpha}{2}\mu = \overline{\mu} 時(shí)使得拒絕域概率為\alpha 的統(tǒng)計(jì)量。

? ? ? ? 從下圖詳細(xì)說(shuō)明一下:

? ? ? ? 使用薯片袋重的案例情境,圖1(Fig 1)是基于零假設(shè)\mu = \overline{\mu} 成立時(shí)樣本均值所服從的概率分布,此時(shí)分布均值為\overline{\mu} ,紫色實(shí)線\pm t_\frac{\alpha}{2}為雙側(cè)檢驗(yàn)中\alpha 所對(duì)應(yīng)的一對(duì)t值,那么藍(lán)線兩邊外側(cè)的黃色區(qū)域就是拒絕域,區(qū)域面積為\alpha。

? ? ? ? 圖2(Fig 2)則是樣本的總體均值實(shí)際為\hat{\mu } 時(shí),樣本均值所服從的概率分布。圖1中的\pm t_\frac{\alpha }{2}在圖2的分布中同樣形成一個(gè)綠色區(qū)域,這部分區(qū)域的面積就是\beta 。

? ? ? ? 那么\alpha \beta 的實(shí)際意義是什么呢?先看\alpha :如果樣本的總體均值就是\overline{\mu} (見(jiàn)圖1),那么抽樣結(jié)果大概率應(yīng)該落在兩紫色實(shí)線之間的區(qū)域,但不巧的是這次抽樣結(jié)果落在了拒絕域,所以就把\overline{\mu} 拒絕了,這就是“拒真”。那么顯然拒絕域越大,也有可能發(fā)生“拒真”的情況,因此拒絕域的面積\alpha 就是“拒真”錯(cuò)誤,也就是第一類(lèi)錯(cuò)誤發(fā)生的概率。

? ? ? ? 再看\beta :如果樣本的總體均值實(shí)際為\hat{\mu } \hat{\mu } \neq \overline{\mu } ,此時(shí)應(yīng)該是拒絕零假設(shè)\mu = \overline{\mu} 。但是,圖1總體均值為\overline{\mu} 的分布與圖2總體均值為\hat{\mu } 分布在t_\frac{\alpha}{2}是有重合的,即圖1紅色區(qū)域和圖2綠色區(qū)域共用相同的t值區(qū)間(橫坐標(biāo)),這就意味即便總體均值為\hat{\mu } ,但仍有可能落在總體均值為\overline{\mu} 的非拒絕域中,結(jié)果就是不拒絕H_0,這就是第二類(lèi)錯(cuò)誤,而發(fā)生這種情況的概率就是圖2綠色區(qū)域的面積\beta 。

? ? ? ? 從上圖也能很明顯地看出來(lái),同一次抽樣中(樣本量固定、標(biāo)準(zhǔn)差固定),\alpha \beta 是一種此消彼長(zhǎng)的關(guān)系(移動(dòng)\pm t_\frac{\alpha }{2}看紅色和綠色區(qū)域的面積變化)。

? ? ? ? 此外,依據(jù)抽樣特性,隨著樣本量的增加,標(biāo)準(zhǔn)差不斷減小,此時(shí)正態(tài)分布曲線會(huì)逐漸變窄,這樣可以使得\alpha \beta 同時(shí)減小。

混淆矩陣中的FP即為一類(lèi)錯(cuò)誤,F(xiàn)N即為二類(lèi)錯(cuò)誤。

4.0 假設(shè)檢驗(yàn)和參數(shù)估計(jì)

? ? ? ? 參數(shù)估計(jì)和假設(shè)檢驗(yàn)都是推斷統(tǒng)計(jì)學(xué)的重要部分,二者在本質(zhì)上是相通:

????????參數(shù)估計(jì)是考察總體均值和樣本均值之間的距離是否在置信范圍內(nèi),而95%的置信度則代表了一種正確可能性。

? ? ? ? 假設(shè)檢驗(yàn),則是將\bar {  x} 轉(zhuǎn)化為Z值或t值后(即樣本統(tǒng)計(jì)量按照抽樣分布進(jìn)行標(biāo)準(zhǔn)化),考察與0的距離是否超過(guò)了1.96,顯著性水平\alpha 則是1-置信度水平。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容