?統(tǒng)計(jì)燉雞湯
摘要
統(tǒng)計(jì)推斷是統(tǒng)計(jì)學(xué)中一重要內(nèi)容.在一個或兩個總體的統(tǒng)計(jì)分析問題中,統(tǒng)計(jì)推斷的兩個組成部分是參數(shù)估計(jì)和假設(shè)檢驗(yàn).[1]
假設(shè)檢驗(yàn)與參數(shù)估計(jì)類似,但角度不同,參數(shù)估計(jì)是利用樣本信息推斷未知的總體參數(shù),而假設(shè)檢驗(yàn)則是先對總體參數(shù)提出一個假設(shè)值,然后利用樣本信息判斷這一假設(shè)是否成立.參數(shù)估計(jì)還不夠嗎,為什么還有假設(shè)檢驗(yàn)?zāi)?這是因?yàn)榭茖W(xué)家和工程師在實(shí)際中遇到的問題可能不僅只討論關(guān)于總體參數(shù)的估計(jì),而更多的是如何基于數(shù)據(jù)產(chǎn)生一個決策過程,該決策通??梢缘贸瞿硞€科學(xué)體系下的一些結(jié)論.原則上,在每一種情況下,這些猜測都可以用統(tǒng)計(jì)假設(shè)的形式提出來,而如何給出接受或拒絕統(tǒng)計(jì)假設(shè)的決策過程則構(gòu)成了假設(shè)檢驗(yàn)這個重要領(lǐng)域.[2]
1 錯誤和功效函數(shù)(勢函數(shù))
1.1 兩類錯誤
當(dāng)零假設(shè)為真時拒絕零假設(shè)稱為第一類錯誤;當(dāng)零假設(shè)不為真時不拒絕零假設(shè)稱為第二類錯誤.
犯第一類錯誤的概率也稱為顯著水平,有時顯著水平也稱為檢驗(yàn)的大小,記為α.通常取最小可能的水平作為顯著性水平,這樣就解決了檢驗(yàn)的水平的唯一性.一般的,我們將水平定義為如下含義:
形成一個默契,只要可能,盡量找最小的α.顯著性水平是人們事先指定的犯第一類錯誤概率α的最大允許值.實(shí)際應(yīng)用中,顯著性水平是人們事先給出的一個值,這也意味著事先確定了拒絕域.為什么要事先給出呢?因?yàn)榇_定了顯著性水平α就等于控制了第一類錯誤的概率.[3]
犯第二類錯誤的概率即為β,只有在給定具體的備擇假設(shè)下,才能計(jì)算出第二類錯誤的概率.
對于一個固定的樣本量,一般不可能做到使兩類錯誤同時任意小.追求一個好的檢驗(yàn),通常將考慮限制在能把犯第一類錯誤的概率控制在一個指定水平上的那些檢驗(yàn)上.在這類檢驗(yàn)中,再去追求犯第二類錯誤的概率盡可能小的檢驗(yàn).
1.2 功效函數(shù)
理想的功效函數(shù)對于所有使原假設(shè)成立的參數(shù)代入后函數(shù)值是0,而對于所有使備擇假設(shè)成立的參數(shù)帶入后函數(shù)值是1.除非在平凡情況,這種理想不可能達(dá)到.一個好的檢驗(yàn)的功效函數(shù)都是接近于上述值.
一個檢驗(yàn)的功效函數(shù)依賴于樣本量n,這是有代表性的.如果n可以由試驗(yàn)者選擇,對功效函數(shù)進(jìn)行考慮,就能幫助其決定在一個試驗(yàn)中取多大的樣本量合適.(S:潛臺詞是并不是n越大越好)
這里特別引入一個與錯誤概率相關(guān)的重要概念就是檢驗(yàn)的勢,是指當(dāng)給定的備擇假設(shè)為真時拒絕原假設(shè)的概率,也就是功效函數(shù)當(dāng)參數(shù)滿足備擇條件時的值.通??梢杂脵z驗(yàn)的勢來比較不同的檢驗(yàn)方法.
2 p值
2.1 p值的定義與意義
如果原假設(shè)為真,所得到的樣本結(jié)果會像實(shí)際觀測結(jié)果那么極端或者更極端的概率,稱為p值,也稱為觀察到的顯著性水平.[3]
p值與原假設(shè)對與錯的概率無關(guān),它是關(guān)于數(shù)據(jù)的概率.p值表明在某個總體的許多樣本中.某一類數(shù)據(jù)出現(xiàn)的經(jīng)常程度,即原假設(shè)正確時,得到所觀測的數(shù)據(jù)的概率,及p值告訴我們?nèi)绻僭O(shè)是正確的,觀測數(shù)據(jù)會有多么不可能得到.相當(dāng)不可能得到的數(shù)據(jù),就是原假設(shè)不對的合理證據(jù).我們永遠(yuǎn)也不會知道,對總體來說,原假設(shè)是否正確.如果取顯著性水平為5%,我們只能說:如果原假設(shè)為真,這樣的數(shù)據(jù)只有5%的可能性會發(fā)生.p值是反映實(shí)際觀測到的數(shù)據(jù)與原假設(shè)之間不一致程度的一個概率值.p值越小,說明實(shí)際觀測到的數(shù)據(jù)與原假設(shè)之間的不一致的程度就越大,檢驗(yàn)的結(jié)果就越顯著.[3]
2.2 p值的決策
p值與α的關(guān)系?p值有效地補(bǔ)充了α提供的關(guān)于檢驗(yàn)可靠性的有限信息.因?yàn)棣潦欠傅谝活愬e誤的上限控制值,它只能提供檢驗(yàn)結(jié)論可靠的一個大致范圍,而對于一個特定的假設(shè)檢驗(yàn)問題.也就是說,如果選擇的α值相同,所有檢驗(yàn)結(jié)論的可靠性都一樣.要測量出樣本觀測數(shù)據(jù)與原假設(shè)中假設(shè)的值的偏離程度,則需要計(jì)算p值.利用統(tǒng)計(jì)量根據(jù)顯著性水平作出決策,如果拒絕原假設(shè),也僅僅是知道犯錯誤的可能性是α那么大,但究竟是多少卻不知道.而p值則是犯錯誤的實(shí)際概率.[3]
在已知p值的條件下,將其與給定的顯著性水平α將進(jìn)行比較,就可以確定是否應(yīng)該拒絕原假設(shè).通常,將兩側(cè)面積的總和定義為p值.如果p值<α,拒絕原假設(shè);如果p值>α,不拒絕原假設(shè).[3]