1.0 假設(shè)檢驗(yàn)
? ? ? ? 假設(shè)檢驗(yàn)是建立在否定式邏輯上的一類(lèi)概率驗(yàn)證方法。
1.1 否定式邏輯
????????否定式邏輯:若 AB,則 ~B
~A。舉個(gè)例子,一般情況下若一個(gè)人性別為男性(A),則這個(gè)人上廁所理應(yīng)去男廁(B),但是發(fā)現(xiàn)這個(gè)人不去男廁上廁所(~B),則這個(gè)人的性別就不是男性(~A)。
????????需要注意兩點(diǎn):1)否定式邏輯中A和B并不是充要關(guān)系,因此存在~B無(wú)法反推出~A的情況,需結(jié)合實(shí)際情況考慮;2)否定式邏輯和反證法非常相似,但本質(zhì)上還是有些許不同的,差異就在反證法默認(rèn)~B是一定可以推出~A,但多數(shù)情況下可以認(rèn)為是同一種思想。
1.2 小概率事件
? ? ? ? 假設(shè)檢驗(yàn)的另一基礎(chǔ)是小概率事件,即:小概率事件是發(fā)生概率很小(接近于0)的一類(lèi)事件。那么在一次試驗(yàn)(抽樣)中是幾乎不可能發(fā)生的,但在多次重復(fù)試驗(yàn)(抽樣)中是必然發(fā)生的。
2.0 假設(shè)檢驗(yàn)的步驟
Step 1:提出(推斷性)假設(shè)
? ? ? ? 假設(shè)檢驗(yàn)首先需要提出待檢驗(yàn)的假設(shè),包括和
。
被稱為零假設(shè)或虛無(wú)假設(shè)(null hypothesis),在否定式邏輯中就是A;
備擇假設(shè)(alternative hypothesis),也稱對(duì)立假設(shè),就是否定式邏輯中的~A。
和
是一對(duì)互斥事件,構(gòu)成了現(xiàn)實(shí)情況描述的完備情況。
? ? ? ? 那么如何確定假設(shè)內(nèi)容,通常有一定的原則遵循:將無(wú)差別的、不起作用的、公認(rèn)的、不證自明的、符合規(guī)則的內(nèi)容作為,將有區(qū)別的、起作用的、需要證明的、違反規(guī)則的內(nèi)容作為
。
? ? ? ? 以薯片袋重為例,已知一袋薯片外包裝上標(biāo)明其重量為,現(xiàn)通過(guò)
的抽樣調(diào)查得到樣本平均袋重為
。由于抽樣誤差存在,必然有
,現(xiàn)在要檢驗(yàn)薯片的真實(shí)平均袋重(記
)是否為
。提出假設(shè):
????????:
(即A)
? ??????:
(即~A)
? ? ? ? 這里是預(yù)先決定的、計(jì)劃好的、普遍認(rèn)為的生產(chǎn)標(biāo)準(zhǔn),因此作為
的內(nèi)容。
則直接對(duì)
取反即可。
Step 2: 計(jì)算概率
? ? ? ? 假設(shè)檢驗(yàn)第二步就是計(jì)算在一次的抽樣中出現(xiàn)的概率,并得到B和~B:
????????B:抽樣得到的樣本均值為是一個(gè)常規(guī)情況,不是小概率事件;
????????~B:抽樣得到的樣本均值為是一個(gè)小概率事件。
? ? ? ? 到此,假設(shè)檢驗(yàn)中完整的否定式邏輯就已經(jīng)形成:
? ? ? ? AB:若零假設(shè)成立,那么(在零假設(shè)成立的情況下)一次抽樣的結(jié)果不應(yīng)該是一個(gè)小概率事件;
? ??????~B~A:若一次抽樣的結(jié)果是一個(gè)小概率事件,與零假設(shè)成立的假定相矛盾,那么零假設(shè)不成立。
? ? ? ? 這一概率其實(shí)是一個(gè)條件概率,即計(jì)算在零假設(shè)成立的前提下抽樣結(jié)果發(fā)生的概率,即P(抽樣結(jié)果|零假設(shè)成立)。
Step 3:概率推斷
? ? ? ? 第三步概率推斷就是對(duì)基于計(jì)算概率結(jié)果對(duì)假設(shè)的“拒絕”和“接受”進(jìn)行判斷,推斷過(guò)程見(jiàn)下圖:

? ? ? ? 概率推斷依據(jù)前面的推導(dǎo)邏輯,若零假設(shè)的成立前提下,樣本在一次抽樣事件中發(fā)生的條件概率位于小概率事件閾值之間
(
為顯著性水平,注意與置信水平的關(guān)系),說(shuō)明B成立,則 A
B,所以不拒絕
;若
,則認(rèn)為抽樣事件為小概率事件,即~B成立,則有 ~B
~A,所以拒絕
,接受
。
????????至此,假設(shè)檢驗(yàn)全過(guò)程完成。
? ? ? ? 假設(shè)檢驗(yàn)根據(jù)實(shí)際應(yīng)用分為雙側(cè)檢驗(yàn)和單側(cè)檢驗(yàn),在原假設(shè)、備擇假設(shè)構(gòu)造集概率計(jì)算上都有所不同。且與參數(shù)估計(jì)一樣,樣本量級(jí)、總體分布是否正態(tài)、總體方差是否已知等因素也會(huì)影響樣本分布。這里就不闡述,解詳可翻閱任一統(tǒng)計(jì)學(xué)書(shū)籍。
3.0 補(bǔ)充說(shuō)明
3.1?“接受”和“拒絕”
? ? ? ? 檢驗(yàn)結(jié)果為什么使用的是“接受”和“拒絕”,而不是“真”和“偽”?
? ? ? ? 答:由于無(wú)法獲取總體數(shù)據(jù),因此永遠(yuǎn)不可能知道總體參數(shù)的真實(shí)情況,也就不存在“真”和“偽”的問(wèn)題。薯片例子中,這里給出的只是預(yù)先規(guī)定的重量,本質(zhì)是一個(gè)期望值,并不是真實(shí)值,而假設(shè)檢驗(yàn)的多數(shù)情況都是對(duì)期望值的檢驗(yàn)。
? ??????“接受”、“拒絕”和“不拒絕”有什么區(qū)別?
? ??????首先看時(shí),說(shuō)明零假設(shè)
前提下,此時(shí)不拒絕
。但是由于無(wú)法知曉總體參數(shù)的真值,所以若
且
足夠小時(shí),必然同樣可以得到
,而這樣的
可以有無(wú)數(shù)個(gè)取值,零假設(shè)
:
只是無(wú)數(shù)可能情況的一種,因此無(wú)法確定真實(shí)情況具體是哪一種,只能“不拒絕”,而不是“接受”。但是
時(shí),說(shuō)明零假設(shè)
:
是一種幾乎不可能的情況,可以較為確定總體真值并不是這一種,因此可以“拒絕”。
3.2
值和
值
? ? ? ? 假設(shè)檢驗(yàn)第二步是計(jì)算概率,并即值,通過(guò)比較
值和
的大小關(guān)系進(jìn)行假設(shè)檢驗(yàn)的判斷。而
值又是根據(jù)
值計(jì)算得到的,
值實(shí)際上就是在零假設(shè)成立時(shí)將樣本服從分布轉(zhuǎn)化成標(biāo)準(zhǔn)正態(tài)分布后的樣本均值所對(duì)應(yīng)的數(shù)值,
值就是
值形成區(qū)域的面積,如下圖綠色區(qū)域所示:

? ? ? ? 因此假設(shè)檢驗(yàn)的第二步除了比較概率值和
之外,還可以比較
值進(jìn)行判斷。依然以上文薯片為例當(dāng)
值在顯著性水平
所對(duì)應(yīng)的臨界值之外時(shí)(假設(shè)總體正態(tài)分布且方差已知),即
或
,則有
,于是拒絕
,接受
;當(dāng)
值在
內(nèi)側(cè)時(shí),則有
,于是不拒絕
。
? ? ? ? 下圖標(biāo)注了以三組相反數(shù),+/-2.58、+/-1.96和+/-1.645作為雙側(cè)檢驗(yàn)判斷邊界的情況,三組邊界分別對(duì)應(yīng)了去0.01、0.05和0.1的情況,邊界的外部?jī)蓚?cè)即為拒絕域,拒絕域的面積即為相應(yīng)的
(單側(cè)面積為
),當(dāng)樣本結(jié)果的p值落在拒絕域,等同于樣本結(jié)果的發(fā)生概率小于拒絕域?qū)?yīng)的
,此時(shí)就拒絕
,反之則不拒絕
。

3.3 一類(lèi)錯(cuò)誤和二類(lèi)錯(cuò)誤
? ? ? ? 對(duì)于的取值,實(shí)際是并沒(méi)有一個(gè)學(xué)術(shù)上嚴(yán)格的規(guī)定,目前為止都是習(xí)慣地取0.01、0.05或0.1,其中0.05是較為常見(jiàn)的情況。對(duì)于0.05的由來(lái),一種較為令人信服的說(shuō)法是標(biāo)準(zhǔn)正態(tài)分布的4倍標(biāo)準(zhǔn)差(上圖中將+/-1.96近似為+/-2)內(nèi)的概率近似約為0.95(實(shí)際會(huì)略大),從范圍取值和概率取值來(lái)說(shuō)都是方便計(jì)算和記憶的數(shù),同時(shí)0.05的拒絕空間也足夠保證假設(shè)檢驗(yàn)的正確性。
? ? ? ? 然而以0.01、0.05和0.1作為判斷依據(jù)具有較大的武斷性,并對(duì)假設(shè)檢驗(yàn)的結(jié)果帶來(lái)了一定錯(cuò)誤風(fēng)險(xiǎn),即一類(lèi)錯(cuò)誤(type I error)和二類(lèi)錯(cuò)誤(type II error)。
????????一類(lèi)錯(cuò)誤就是錯(cuò)誤地拒絕,即“拒真”。假設(shè)檢驗(yàn)中,以
作為是否拒絕
的標(biāo)準(zhǔn),所以一類(lèi)錯(cuò)誤的發(fā)生概率就是
。一類(lèi)錯(cuò)誤意味著,在一次抽樣中,小概率事件就這么不巧地發(fā)生了,導(dǎo)致錯(cuò)誤地拒絕了
。
????????二類(lèi)錯(cuò)誤就是錯(cuò)誤地沒(méi)有拒絕,即“納偽”,更準(zhǔn)確地說(shuō)是“未拒偽”,犯錯(cuò)概率通常記為
。但一類(lèi)錯(cuò)誤中預(yù)先就知道犯錯(cuò)概率為
,而二類(lèi)錯(cuò)誤卻必須通過(guò)總體均值計(jì)算才能得到,實(shí)際中常以樣本均值代替總體均值計(jì)算。以薯片袋重為例,犯二類(lèi)錯(cuò)誤的概率
,
是
時(shí)使得拒絕域概率為
的統(tǒng)計(jì)量。
? ? ? ? 從下圖詳細(xì)說(shuō)明一下:

? ? ? ? 使用薯片袋重的案例情境,圖1(Fig 1)是基于零假設(shè)成立時(shí)樣本均值所服從的概率分布,此時(shí)分布均值為
,紫色實(shí)線
為雙側(cè)檢驗(yàn)中
所對(duì)應(yīng)的一對(duì)t值,那么藍(lán)線兩邊外側(cè)的黃色區(qū)域就是拒絕域,區(qū)域面積為
。
? ? ? ? 圖2(Fig 2)則是樣本的總體均值實(shí)際為時(shí),樣本均值所服從的概率分布。圖1中的
在圖2的分布中同樣形成一個(gè)綠色區(qū)域,這部分區(qū)域的面積就是
。
? ? ? ? 那么和
的實(shí)際意義是什么呢?先看
:如果樣本的總體均值就是
(見(jiàn)圖1),那么抽樣結(jié)果大概率應(yīng)該落在兩紫色實(shí)線之間的區(qū)域,但不巧的是這次抽樣結(jié)果落在了拒絕域,所以就把
拒絕了,這就是“拒真”。那么顯然拒絕域越大,也有可能發(fā)生“拒真”的情況,因此拒絕域的面積
就是“拒真”錯(cuò)誤,也就是第一類(lèi)錯(cuò)誤發(fā)生的概率。
? ? ? ? 再看:如果樣本的總體均值實(shí)際為
且
,此時(shí)應(yīng)該是拒絕零假設(shè)
。但是,圖1總體均值為
的分布與圖2總體均值為
分布在
是有重合的,即圖1紅色區(qū)域和圖2綠色區(qū)域共用相同的t值區(qū)間(橫坐標(biāo)),這就意味即便總體均值為
,但仍有可能落在總體均值為
的非拒絕域中,結(jié)果就是不拒絕
,這就是第二類(lèi)錯(cuò)誤,而發(fā)生這種情況的概率就是圖2綠色區(qū)域的面積
。
? ? ? ? 從上圖也能很明顯地看出來(lái),同一次抽樣中(樣本量固定、標(biāo)準(zhǔn)差固定),和
是一種此消彼長(zhǎng)的關(guān)系(移動(dòng)
看紅色和綠色區(qū)域的面積變化)。
? ? ? ? 此外,依據(jù)抽樣特性,隨著樣本量的增加,標(biāo)準(zhǔn)差不斷減小,此時(shí)正態(tài)分布曲線會(huì)逐漸變窄,這樣可以使得和
同時(shí)減小。
混淆矩陣中的FP即為一類(lèi)錯(cuò)誤,F(xiàn)N即為二類(lèi)錯(cuò)誤。
4.0 假設(shè)檢驗(yàn)和參數(shù)估計(jì)
? ? ? ? 參數(shù)估計(jì)和假設(shè)檢驗(yàn)都是推斷統(tǒng)計(jì)學(xué)的重要部分,二者在本質(zhì)上是相通:
????????參數(shù)估計(jì)是考察總體均值和樣本均值之間的距離是否在置信范圍內(nèi),而95%的置信度則代表了一種正確可能性。
? ? ? ? 假設(shè)檢驗(yàn),則是將轉(zhuǎn)化為
值或
值后(即樣本統(tǒng)計(jì)量按照抽樣分布進(jìn)行標(biāo)準(zhǔn)化),考察與0的距離是否超過(guò)了1.96,顯著性水平
則是1-置信度水平。