(譯)假設(shè)檢驗(yàn):顯著性水平(Alpha)和P值

在假設(shè)檢驗(yàn)中,顯著性水平和P值意味著什么? 究竟什么是統(tǒng)計(jì)顯著性? 在這篇文章中,我主要用概念和圖形來幫助讀者更直觀地理解假設(shè)檢驗(yàn)在統(tǒng)計(jì)學(xué)中的工作原理。
為了實(shí)現(xiàn)它,我將顯著性水平和P值添加到我之前的帖子的圖形中,以便展示單樣本t檢驗(yàn)的圖形化版本。
這是我們?cè)谏弦黄恼轮须x開的地方。 我們想確定我們的樣本平均值(330.6)是否表明今年的平均能源成本與去年的平均能源成本(260)顯著不同。


上面的概率分布圖顯示了我們?cè)诩僭O(shè)零假設(shè)為真(總體均值= 260)的情況下獲得的樣本均值分布,并且我們反復(fù)繪制了大量隨機(jī)樣本。
我給你留下了一個(gè)問題:我們?cè)趫D表上哪里繪制一條線來表示統(tǒng)計(jì)顯著性? 現(xiàn)在我們將添加顯著性水平和P值,這是我們需要的決策工具。
我們將使用這些工具來測試以下假設(shè):

  • 零假設(shè):總體均值等于假設(shè)均值(260)
  • 備選假設(shè):總體均值與假設(shè)均值不同(260)

什么是顯著性水平(\alpha)?

顯著性水平,也表示為alphaα,是在零假設(shè)為真時(shí)拒絕零假設(shè)的概率。 例如,顯著性水平0.05表示當(dāng)沒有實(shí)際差異時(shí)得出存在差異的5%風(fēng)險(xiǎn)。
由于其技術(shù)性質(zhì),這些類型的定義很難理解。 圖片使概念更容易理解!
顯著性水平?jīng)Q定了我們?cè)趫D上繪制該線到零假設(shè)值的距離。 為了顯示0.05的顯著性水平,我們需要在距離零假設(shè)最遠(yuǎn)的5%的分布繪制陰影。


在上圖中,兩個(gè)陰影區(qū)域與零假設(shè)值等距,每個(gè)區(qū)域的概率為0.025,總共為0.05。 在統(tǒng)計(jì)學(xué)中,我們將這些陰影區(qū)域稱為雙尾測試的臨界域(critical region )。 臨界域決定了我們的樣本統(tǒng)計(jì)量與零假設(shè)值之間的距離,在我們可以說它不足以拒絕零假設(shè)之前。
我們的樣本均值(330.6)在臨界域內(nèi),這表明它在0.05水平上具有統(tǒng)計(jì)學(xué)意義。
我們還可以使用0.01的其他常見顯著性水平來判斷它是否具有統(tǒng)計(jì)學(xué)意義。

兩個(gè)陰影區(qū)域的概率均為0.005,總概率為0.01。 這次我們的樣本均值不在臨界域內(nèi),我們不能拒絕零假設(shè)。這個(gè)比較展示了你在開始學(xué)習(xí)之前為什么需要選擇顯著性水平的原因。它可以讓你不需要選擇顯著性水平,因?yàn)樗芊奖愕貫槟闾峁╋@著性的結(jié)果。
使用圖表,我們能夠確定我們的結(jié)果在0.05水平上具有統(tǒng)計(jì)顯著性,而不需要使用P值。 但是,當(dāng)你使用統(tǒng)計(jì)軟件生成數(shù)字輸出時(shí),你需要將P值與你的顯著性水平進(jìn)行比較才可以得出結(jié)果。

什么是P值?

P值是假設(shè)零假設(shè)為真時(shí)所得到的樣本觀察結(jié)果或獲得更極端的結(jié)果的概率。
P值的這個(gè)定義雖然在技術(shù)上是正確的,但有點(diǎn)復(fù)雜。 用圖表更容易理解!
為了繪制我們的示例數(shù)據(jù)集的P值,我們需要確定樣本均值和零假設(shè)值之間的距離(330.6-260 = 70.6)。 接下來,我們可以繪制獲得樣本均值的概率,該均值至少在分布的兩個(gè)尾部中都是極端的(260 +/- 70.6)。



在上圖中,兩個(gè)陰影區(qū)域的概率均為0.01556,總概率為0.03112。 如果總體均值為260,則該概率表示獲得至少與分布尾部中的樣本均值一樣極端的樣本均值的可能性。這是我們的P值!
當(dāng)P值小于或等于顯著性水平時(shí),拒絕零假設(shè)。 如果我們將P值作為示例并將其與常用顯著性水平進(jìn)行比較,則它與先前的圖形結(jié)果相匹配。 P值0.03112在α水平為0.05時(shí)具有統(tǒng)計(jì)顯著性,但在0.01水平時(shí)不具有統(tǒng)計(jì)學(xué)意義。
如果我們堅(jiān)持0.05的顯著性水平,我們可以得出結(jié)論,人口的平均能源成本大于260。

關(guān)于統(tǒng)計(jì)顯著性結(jié)果的討論

假設(shè)檢驗(yàn)評(píng)估關(guān)于總體的兩個(gè)相互排斥的陳述,以確定樣本數(shù)據(jù)最佳支持哪個(gè)陳述。 當(dāng)樣本統(tǒng)計(jì)量相對(duì)于零假設(shè)足夠異常時(shí),測試結(jié)果具有統(tǒng)計(jì)學(xué)意義,即我們可以拒絕整個(gè)總體的零假設(shè)。 假設(shè)檢驗(yàn)中的“異常”定義為:

  • 零假設(shè)為真的假設(shè)——圖表以零假設(shè)值為中心。
  • 顯著性水平——臨界線距離零假設(shè)值是多遠(yuǎn)?
  • 我們的樣本統(tǒng)計(jì)量——是否屬于臨界域?

請(qǐng)記住,沒有神奇的顯著性水平可以區(qū)分具有真實(shí)效果的研究和不具有100%準(zhǔn)確性的研究。 常見的alpha值0.05和0.01僅僅基于傳統(tǒng)。 對(duì)于0.05的顯著性水平,期望在零假設(shè)為真時(shí)的5%的臨界域中獲得樣本均值。在這些情況下,你不會(huì)知道零假設(shè)是正確的,但你會(huì)拒絕它,因?yàn)闃颖揪德湓谂R界區(qū)域。這就是為什么顯著性水平也被稱為錯(cuò)誤率!
顯著性水平和P值是幫助你在假設(shè)檢驗(yàn)中量化和控制此類錯(cuò)誤的重要工具。 使用這些工具來決定何時(shí)拒絕原假設(shè)會(huì)增加你做出正確決策的機(jī)會(huì)。


原文鏈接


都看到最后了,要不~點(diǎn)個(gè)贊?加波關(guān)注?

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容