假設(shè)檢驗(yàn)概述

講到統(tǒng)計(jì)學(xué),終究會(huì)談到假設(shè)檢驗(yàn)的問題,做過數(shù)據(jù)分析的人也都是耳熟能詳, 但如果讓你具體講講假設(shè)檢驗(yàn)的原理, 什么是P值,為什么用t檢驗(yàn),為什么用F檢驗(yàn),估計(jì)能問倒一操場。

作為本公眾號(hào)的開篇處女作,從假設(shè)檢驗(yàn)入手,講一下假設(shè)檢驗(yàn)的基本原理與過程。

首先明確下假設(shè)檢驗(yàn)在統(tǒng)計(jì)學(xué)里的位置:統(tǒng)計(jì)推斷是統(tǒng)計(jì)學(xué)的重要分支,做統(tǒng)計(jì)推斷有兩個(gè)重要方法,即參數(shù)估計(jì)與假設(shè)檢驗(yàn)。參數(shù)估計(jì)是用樣本統(tǒng)計(jì)量估計(jì)總體參數(shù),而假設(shè)檢驗(yàn),則顧名思義,先假設(shè),后檢驗(yàn),例如假設(shè)均值為μ,然后根據(jù)樣本信息檢驗(yàn)均值是不是μ,實(shí)際上是要證明均值不是μ,即推翻原假設(shè)。邏輯上采用的是反證法,根據(jù)統(tǒng)計(jì)上的小概率原理。

舉例來說,魔都官方數(shù)據(jù)說居民人均工資1w,對(duì)于我這種北漂來說就打了個(gè)大問號(hào),然后就局部范圍內(nèi)做了個(gè)統(tǒng)計(jì)(假如樣本有代表性),統(tǒng)計(jì)均值為7k, 那我這個(gè)結(jié)果有沒有信服力,那我們可以檢驗(yàn)一下,設(shè)置95%的置信水平,算出P值為0.0002,那我可以很自信的說官方數(shù)據(jù)在開火車,不值得信。因?yàn)镻值為0.0002意味著,如果居民人均工資為1w, 那么我統(tǒng)計(jì)出均值為7k的概率為0.0002,這么小的概率竟然這么容易就讓我碰上了,顯然真實(shí)的人均工資不可能為1w啊, 這就是根據(jù)小概率原理來推翻原假設(shè)。

接下來我們講一下假設(shè)檢驗(yàn)的套路,講述過程中你也許會(huì)有疑問,為什么這樣,不要擔(dān)心,先往下看,我會(huì)陸續(xù)對(duì)假設(shè)檢驗(yàn)的細(xì)節(jié)作出補(bǔ)充,如果未涉及到可以在評(píng)論中提出,我會(huì)補(bǔ)充上):

套路1,提出假設(shè),也就是我猜結(jié)果會(huì)是什么。猜完之后進(jìn)入套路2,即我要拿什么去驗(yàn)證假設(shè),這里我們叫做檢驗(yàn)統(tǒng)計(jì)量。檢驗(yàn)沒有絕對(duì)的對(duì)錯(cuò),所以我們要設(shè)定一個(gè)顯著性水平,就是套路3,相當(dāng)于設(shè)定一個(gè)門檻,在門外面就拒絕進(jìn)門,統(tǒng)計(jì)學(xué)上叫拒絕域,拒絕的是原假設(shè)。套路第四步就是將門在哪兒計(jì)算出來,依據(jù)的是前兩步確定的檢驗(yàn)統(tǒng)計(jì)量以及顯著性水平。最后就可以做出決策啦,看一下到底在門里面還是門外面。

接下來將提到的套路跟大家套路一下:

假設(shè)的提出包括原假設(shè)與備擇假設(shè)。原假設(shè)(H0)則是我們收集證據(jù)想要推翻的假設(shè), 而備擇假設(shè)(H1)則是要去支持的,所以大家可以根據(jù)實(shí)際情況來設(shè)定原假設(shè)與備擇假設(shè)。原假設(shè)與備擇假設(shè)互斥。假設(shè)檢驗(yàn)是圍繞著對(duì)原假設(shè)是否成立展開的。假設(shè)檢驗(yàn)還會(huì)涉及到兩類錯(cuò)誤的問題,這個(gè)內(nèi)容較多,會(huì)單獨(dú)講解。

檢驗(yàn)統(tǒng)計(jì)量是用于假設(shè)檢驗(yàn)決策的統(tǒng)計(jì)量。如何去選擇統(tǒng)計(jì)量呢?這與參數(shù)估計(jì)相同,需要考慮樣本總體個(gè)數(shù),樣本大小,通常大于30個(gè)樣品我們認(rèn)為是大樣本,以及總體方差是否已知,如果未知,可以用樣品方差近似計(jì)算。是不是感覺有些頭暈,撐住,這是做假設(shè)檢驗(yàn)的關(guān)鍵,告訴你什么情況下采用什么樣的檢驗(yàn)方法,記住這兒,以后就不會(huì)沒心沒肺的只會(huì)t檢驗(yàn)啦。貼心的我給大家整理了檢驗(yàn)統(tǒng)計(jì)量的選擇圖譜,對(duì)家直接對(duì)號(hào)入座就可以啦,記住這些,再遇到假設(shè)檢驗(yàn)的問題,你會(huì)感覺厲(niu)害(bi)的不要不要的。

配對(duì)樣本的檢驗(yàn):兩個(gè)總體參數(shù)的假設(shè)檢驗(yàn)過程中,我們假定樣本是獨(dú)立的,但有種情況下樣本間可能存在相依的關(guān)系,這種情況下兩個(gè)正態(tài)總體的問題可以按照一個(gè)樣品總體進(jìn)行分析。舉個(gè)例子:我想測試某個(gè)洗滌產(chǎn)品的洗滌效果,我可以測一下衣服洗之前的潔凈程度,用產(chǎn)品洗之后的潔凈程度,這樣就得到了兩個(gè)總體,可以按照方差未知的小樣本t檢驗(yàn)進(jìn)行分析。但是,同是一件衣服,洗之前和洗之后數(shù)據(jù)之間是有對(duì)應(yīng)關(guān)系的,我可以將洗前洗后的潔凈程度做差值,檢驗(yàn)差值是否為0,這樣就轉(zhuǎn)化為一個(gè)總體樣本的t檢驗(yàn)。

具體的統(tǒng)計(jì)量的計(jì)算公式此處未給出,主要考慮到現(xiàn)在都用統(tǒng)計(jì)軟件進(jìn)行計(jì)算,關(guān)鍵要明確自己的統(tǒng)計(jì)問題,選擇恰當(dāng)?shù)臋z驗(yàn)統(tǒng)計(jì)量,然后在統(tǒng)計(jì)軟件上就可以開掛了!

顯著性α:這是犯一類錯(cuò)誤的概率,即原假設(shè)為真時(shí),拒絕原假設(shè)的概率。比如警察抓小偷時(shí),明明是小偷,卻判斷失誤當(dāng)好人給放了的概率。也被稱為抽樣分布的拒絕域,這個(gè)可以由研究者事先確定。

計(jì)算檢驗(yàn)統(tǒng)計(jì)量的值。當(dāng)確定了檢驗(yàn)統(tǒng)計(jì)量以及顯著性α的值,通常為0.01, 0.05,0.001,就可以通過統(tǒng)計(jì)軟件或查表得到統(tǒng)計(jì)量的臨界值zaza/2tata/2

作出統(tǒng)計(jì)決策。統(tǒng)計(jì)決策的確定有兩種方式,一種是將檢驗(yàn)統(tǒng)計(jì)量的絕對(duì)值與α水平的臨界值進(jìn)行比較,高于臨界值則拒絕原假設(shè),低于臨界值則不能拒絕。另外一種方式是采用P值進(jìn)行決策。個(gè)人比較傾向第二種,當(dāng)然現(xiàn)在的統(tǒng)計(jì)學(xué)軟件會(huì)將這些值一并給出。我們通常將P值稱為觀測到的顯著性水平,即當(dāng)原假設(shè)為真時(shí)得到樣本觀察結(jié)果或者更極端結(jié)果的概率,如果P值很小,說明得到觀測結(jié)果的概率很小,如果出現(xiàn)了,根據(jù)小概率原理,我就有理由拒絕原假設(shè)了。如果事先確定了顯著性水平,比如α= 0.05,在雙側(cè)檢驗(yàn)中可以比較P值與0.025的大小決定是否拒絕原假設(shè),單側(cè)檢驗(yàn)中可以比較P值與0.05的大小進(jìn)行決策。當(dāng)然也可以直接使用P值,按照我們所需要的顯著性水平進(jìn)行決策。

image.png

image.png

以上就是假設(shè)檢驗(yàn)的基本原理及流程。懂了這些就幾乎可以秒殺一切你所遇到的假設(shè)檢驗(yàn)問題。還有同學(xué)經(jīng)常問為何把小概率標(biāo)準(zhǔn)定為0.05, 哈哈,不要問我,因?yàn)槲也恢馈Vy(tǒng)計(jì)學(xué)家Fisher就這樣用的,無解。

image

最后給大家舉個(gè)例子,一起感受一下??逼的人生:

“多吃谷物,將有助于減肥?!睘榱蓑?yàn)證這個(gè)假設(shè),隨機(jī)抽取了35人,詢問他們?cè)绮秃臀绮偷耐ǔJ匙V,根據(jù)他們的食譜,將其分為二類,一類為經(jīng)常的谷類食用者(總體1),一類為非經(jīng)常谷類食用者(總體2)。然后測度每人午餐的大卡攝取量。經(jīng)過一段時(shí)間的實(shí)驗(yàn),得到如下結(jié)果:檢驗(yàn)該假設(shè)(a = 0.05)

1. 原假設(shè):u1-u2>=0

備擇假設(shè):u1-u2<0
  1. 該情況為兩個(gè)總體的t檢驗(yàn), 計(jì)算得t=2.4869。注意此處為單側(cè)檢驗(yàn)。
image

3. 在0.05顯著性水平上拒絕原假設(shè)。

4. 結(jié)論,沒有證據(jù)證明多次谷物有助于減肥。

   (題目來源于賈俊平老師統(tǒng)計(jì)學(xué)課件)
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容