避不開的假設(shè)檢驗

假設(shè)檢驗是六西格瑪?shù)幕A(chǔ),不了解假設(shè)檢驗,后面的各種控制圖,過程能力,回歸分析,試驗設(shè)計的操作和解讀都無從談起。談到假設(shè)檢驗,經(jīng)常有輔導(dǎo)過的黑帶同學(xué)向我訴苦:不好意思,又搞混了。什么時候該拒絕,什么時候則不能拒絕原假設(shè)呢?還有那句英文順口溜,If the P is low, the null must go!到底是什么含義?

既然避不開,我們不妨深入學(xué)習(xí),加強理解。冥冥之中,自有天意,英文單詞(ESCAPE-避開)剛好可以幫我們輕松記住實施假設(shè)檢驗的五個步驟。E代表Establish,設(shè)立原假設(shè)和備擇假設(shè)。S代表Select,選擇顯著性水平。Ca代表Calculate,計算出統(tǒng)計檢驗的結(jié)果,即P值。P代表Process,將P值和顯著性水平進(jìn)行對比。E代表Evaluate,評估結(jié)果并做出判斷。

五步搞定假設(shè)檢驗

假設(shè)檢驗的意義在于通過樣本去推斷總體。下面我將詳細(xì)介紹每一步的注意事項,讓大家不僅明白假設(shè)檢驗的含義,還會應(yīng)用假設(shè)檢驗對當(dāng)下和未來的行動做出合理判斷。

第一步、設(shè)定原假設(shè)(H0),與原假設(shè)相左的是備擇假設(shè)(Ha)。

當(dāng)我們設(shè)定假設(shè)檢驗后,原假設(shè)只有在證偽的情況下,也就是說推翻原假設(shè)時,假設(shè)檢驗才有意義。為什么呢?因為只有在原假設(shè)被證偽的前提下,才能對備擇假設(shè),也就是整體做出推斷。正因為原假設(shè)不成立,我們才不得不接受它的對立面,即備擇假設(shè)。反之,如果不能夠證偽,也就是推翻不了原假設(shè),那么對備擇假設(shè)根本沒有判斷。只能說在有限的樣本內(nèi),對樣本本身做了一次判斷。

舉例來說,法官判斷一個嫌疑犯是否有罪的依據(jù)是有沒有切實的證據(jù)。原假設(shè)是無罪,備擇假設(shè)是有罪。如果法官有證據(jù),那么就推翻了原假設(shè)。推翻原假意味著接受備擇假設(shè),也就是嫌犯有罪。但是,如果法官沒有證據(jù),推翻不了原假設(shè)。疑罪從無,嫌犯被當(dāng)庭釋放,這并不意味著嫌犯真的無罪,而只是法官在此次審判中沒有找到證據(jù),也許以后又有證據(jù)了。

談到原假設(shè)和備擇假設(shè)的設(shè)定。大家還要記住的是原假設(shè)一定要容易被證明。我們反復(fù)強調(diào)假設(shè)檢驗是為了證偽,只有推翻了原假設(shè),才能接受備擇假設(shè)。比如,我們要證明臉上長包跟吃油膩食物的之間的關(guān)系。如果把原假設(shè)設(shè)定為臉上長包是因為吃了油膩食物。顯然就不容易證明,也不容易推翻。因為造成臉上長包的原因很多,比如壓力大,過敏,內(nèi)分泌失調(diào),而不僅僅是因為吃了油膩食物。但是如果我們把原假設(shè)定成臉上長包跟吃油膩食物沒關(guān)系,備擇假設(shè)就是有關(guān)系,這樣就方便證明。方法就是我們一日三餐吃油膩食物,堅持一周,看看臉上是不是長了包。

第二步、選擇能接受的顯著性水平(significance level),或者說是阿爾法值

既然假設(shè)檢驗是為了推翻原假設(shè),從而接受備擇假設(shè)。換句話說是為了證偽。如何才能證偽呢?我們的判斷的依據(jù)就是小概率的事件不太可能發(fā)生。比方說花兩塊錢買一張彩票就中一百萬這樣的好事發(fā)生的可能性微乎其微。所以說小概率事件發(fā)生的可能性非常低是支持證偽的前提。什么才叫小概率事件呢?在統(tǒng)計學(xué)上,我們一般認(rèn)為,如果某個隨機事件發(fā)生的概率只有5%,我們就認(rèn)為它是一個小概率事件。所以,5%是常用的顯著性水平。在實際工作中,比如說對業(yè)務(wù)的某項指標(biāo)或某個產(chǎn)品的性能或可靠性做判斷的時候,這個顯著性水平的高低由我們自行去做判斷。這又是為什么呢?因為我們的選擇,無論是5%,10%,亦或是1%,它表明我們愿意承擔(dān)小概率事件發(fā)生而帶來的風(fēng)險,并將它作為推翻原假設(shè)的依據(jù)。因此,無論這個顯著性水平設(shè)為何值,在推翻原假設(shè)的同時,我們也承擔(dān)了相應(yīng)的風(fēng)險。風(fēng)險的大小就是我們設(shè)定的能接受小概率事件發(fā)生的這個值。但是即使是小概率事件,只是它發(fā)生的可能性非常低,假如它真的很不幸地發(fā)生了,我們就要為當(dāng)時想當(dāng)然地把它推翻而承擔(dān)相應(yīng)的風(fēng)險。在統(tǒng)計學(xué)上,這種風(fēng)險稱為阿爾法風(fēng)險(α risk)。與阿爾法風(fēng)險對應(yīng)的是貝塔風(fēng)險(β risk)。所謂貝塔風(fēng)險,就是本來有問題或不正常,我們卻誤把它判斷為正常。需要強調(diào)的是,這個值如果設(shè)得不合理的話,不僅會增加判斷的難度、準(zhǔn)確性、還會增加成本。

舉例講現(xiàn)在的動態(tài)清零。阿爾法風(fēng)險就是我們能承受的假陽性的比例。如果誤判為假陽性,當(dāng)事人被要求居家或集中隔離,給工作生活帶來諸多不便并且增加了社會成本。但是好過有假陰性的人作為傳染源,引發(fā)更多社會問題。因此,這也是為什么寧可承擔(dān)更大的阿爾法風(fēng)險,也要盡可能避免貝塔風(fēng)險的發(fā)生。因為在樣本量不足夠大的時候,阿爾法風(fēng)險和貝塔風(fēng)險是此消彼漲的關(guān)系。

第三步、收集數(shù)據(jù),實施統(tǒng)計檢驗,計算出P

既然假設(shè)檢驗只有在推翻原假設(shè)時才更有意義,而推翻原假設(shè)的依據(jù)是我們認(rèn)為小概率事件不可能發(fā)生。接下來就要去找樣本做相應(yīng)的統(tǒng)計檢驗,然后根據(jù)驗證的結(jié)果去做判斷。判斷的標(biāo)準(zhǔn)就是假定原假設(shè)為真的的情況下計算出這件事兒發(fā)生的概率有多高或多低,也就是P值。

第四步、將P值顯著性水平比照

如果原假設(shè)為真的情況下,這件事兒發(fā)生的概率(P值)非常非常得小,比之前設(shè)定的顯著性水平,比如5%還小,那當(dāng)然要推翻原假設(shè),因為原假設(shè)發(fā)生的可能性實在太低了,幾乎不可能發(fā)生。相反,如果P值比較高,比如P值等于20%,它意味著在我們選定的樣本中,原假設(shè)為真的可能性有20%之高,遠(yuǎn)遠(yuǎn)超過我們設(shè)定的顯著性水平,這時候就不能推翻原假設(shè)。謹(jǐn)記:推翻不了原假設(shè)的時候,并不意味著對備擇假設(shè)有任何的判斷。只能說在有限的樣本里面,對原假設(shè)做了一次判斷,樣本之外,無從判斷。

第五步、將假設(shè)檢驗的判斷轉(zhuǎn)換成實際的改善行動

現(xiàn)實工作中,比如我們需要對產(chǎn)品的某項性能是否提升用假設(shè)檢驗做出判斷。如果有限的樣本量做出的統(tǒng)計檢驗不能推翻原假設(shè),那么我們可能要考慮增加樣本量繼續(xù)做判斷。如果樣本量增加后,雖然勉強可以推翻原假設(shè),但效果不顯著,那么我們可以針對要優(yōu)化的性能做進(jìn)一步地改善,讓效果更明顯。

通過以上講解,希望大家已經(jīng)弄清If the P is low, the null must go!的含義。同時理解對假設(shè)檢驗做出嚴(yán)謹(jǐn)判斷的正確表達(dá)要么是推翻原假設(shè)(Reject H0),要么是不能推翻原假設(shè)(Fail to reject H0)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容