統(tǒng)計(jì)學(xué)中的P/F/T

我們常常在統(tǒng)計(jì)學(xué)應(yīng)用中看到P值,F(xiàn)值,T值,這些參數(shù)是什么?我想應(yīng)該先講講“假設(shè)檢驗(yàn)”,弄明白假設(shè)檢驗(yàn),很多問題就通了。

本文首先介紹了假設(shè)檢驗(yàn)在統(tǒng)計(jì)學(xué)的位置,然后從顯著性檢驗(yàn)、P值的疑問假設(shè)檢驗(yàn)方法的使用三個(gè)角度描述假設(shè)檢驗(yàn)。

一、背景簡(jiǎn)介

1、描述統(tǒng)計(jì)學(xué)與推斷統(tǒng)計(jì)學(xué)

統(tǒng)計(jì)學(xué)按照發(fā)展階段和側(cè)重點(diǎn)不同,可分為描述統(tǒng)計(jì)學(xué)和推斷統(tǒng)計(jì)學(xué)[1]

描述統(tǒng)計(jì)學(xué)是闡述如何對(duì)客觀現(xiàn)象的數(shù)量表現(xiàn)進(jìn)行計(jì)量表示;
推斷統(tǒng)計(jì)學(xué)主要闡述如何根據(jù)部分?jǐn)?shù)據(jù)(樣本統(tǒng)計(jì)量)去推論總體的數(shù)量特征及規(guī)律性的一系列理論和方法

2、假設(shè)檢驗(yàn)

假設(shè)檢驗(yàn)(hypothesis testing)作為推斷統(tǒng)計(jì)學(xué)的重要部分,用來判斷樣本與樣本、樣本與總體的差異是由抽樣誤差引起還是本質(zhì)差別造成的統(tǒng)計(jì)推斷方法。

顯著性檢驗(yàn)是假設(shè)檢驗(yàn)中最常用的一種方法,也是一種最基本的統(tǒng)計(jì)推斷形式,其基本原理是先對(duì)總體的特征做出某種假設(shè),然后通過抽樣研究的統(tǒng)計(jì)推理,對(duì)此假設(shè)應(yīng)該被拒絕還是接受做出推斷。

常用的假設(shè)檢驗(yàn)方法有Z檢驗(yàn)、T檢驗(yàn)、卡方檢驗(yàn)、F檢驗(yàn)等[2]

二、假設(shè)檢驗(yàn)

1、顯著性檢驗(yàn)

顯著性檢驗(yàn)(significance test)是假設(shè)檢驗(yàn)的一種最常用的方法,用于檢測(cè)實(shí)驗(yàn)組與對(duì)照組是否有差異以及差異是否顯著的辦法。

(1)隱性大背景

因?yàn)轱@著性檢驗(yàn)<假設(shè)檢驗(yàn)<推斷統(tǒng)計(jì)學(xué),所以顯著性檢驗(yàn)具有以下特點(diǎn):

  • 總體樣本太大,只有樣本數(shù)據(jù),通過樣本來推斷總體
  • 無假設(shè),不檢驗(yàn)。先明白假設(shè)是什么
(2)顯著性檢驗(yàn)定義

設(shè)置
(1)原假設(shè)H_0:無顯著性差異,備擇假設(shè)H_1:存在顯著差異;
(2)顯著性水平\alpha;
(3)一種在原假設(shè)為真的前提下出現(xiàn)觀察樣本以及更極端情況的概率:P
判斷
如果 P \leq \alpha,則拒絕原假設(shè),認(rèn)為兩個(gè)樣本差異顯著;
如果P>\alpha,則接受原假設(shè),認(rèn)為兩個(gè)樣本差異不顯著

小概率事件實(shí)際不可能性原理是顯著性檢驗(yàn)的基本原理,如果P小于閾值\alpha,表明事件是小概率事件,存在發(fā)生的可能性但可能性不大甚至不可能發(fā)生,所以認(rèn)為H_0大概率不會(huì)發(fā)生,拒絕原假設(shè)。

(3)顯著性水平\alpha

顯著性水平是假設(shè)檢驗(yàn)中的一個(gè)概念,是指當(dāng)原假設(shè)為正確時(shí)人們卻把它拒絕了所愿意承擔(dān)的風(fēng)險(xiǎn)。
通常取α=0.05或α=0.01。這表明,當(dāng)作出決策時(shí),其正確的可能性為95%或99%,有0.05或α=0.01下錯(cuò)結(jié)論的風(fēng)險(xiǎn)。

(4)置信度

置信度也稱為可靠度,或置信水平、置信系數(shù)
置信度 = 1-α

(5)什么是差異顯著?

什么是顯著性差異?

顯著性差異(significant difference),是一個(gè)統(tǒng)計(jì)學(xué)名詞。它是統(tǒng)計(jì)學(xué)上對(duì)數(shù)據(jù)差異性的評(píng)價(jià)。當(dāng)數(shù)據(jù)之間具有了顯著性差異,就說明參與比對(duì)的數(shù)據(jù)不是來自于同一總體[4]。

(6)H0和H1的內(nèi)容是隨便設(shè)置的嗎?

H0和H1的設(shè)置,不管在什么場(chǎng)景要滿足:

H0:樣本差異不顯著
H1:樣本存在顯著性差異

(7)案例應(yīng)用[5]

賭場(chǎng)上你想檢查一下拋擲的硬幣是否被動(dòng)過手腳,要求拋幾次硬幣看結(jié)果是不是公平的。
總共扔了十次,也都是“花”朝上,認(rèn)為很可能這枚硬幣不是公平的。

這就是假設(shè)檢驗(yàn):
你提出假設(shè):說硬幣是正常的 (H0:硬幣是正常的;H1:硬幣不正常)
我提出要檢驗(yàn)?zāi)愕募僭O(shè):扔十次,看實(shí)驗(yàn)的結(jié)果是不是和你的假設(shè)相符

反復(fù)扔硬幣應(yīng)該符合二項(xiàng)分布


扔了十次之后得到的結(jié)果是,有八次正面。
P是一種概率,一種在原假設(shè)為真的前提下出現(xiàn)觀察樣本以及更極端情況的概率,所以p-value = P(8 \leq x \leq 10)=0.05

總共扔10次硬幣,那么是出現(xiàn)7次正面之后,可以認(rèn)為“硬幣是不公平的”,還是在出現(xiàn)9次正面以后認(rèn)為“硬幣是不公平”,這是一個(gè)主觀標(biāo)準(zhǔn),看你能夠承擔(dān)的風(fēng)險(xiǎn)有多大,也就是顯著性水平\alpha

例如取\alpha為0.05,p-value \leq 0.05,則認(rèn)為原假設(shè)是小概率事件,拒絕原假設(shè),認(rèn)為硬幣不正常,存在顯著性差異(和正常硬幣的拋擲分布情況很不一樣)。
由于取\alpha為0.05,所以這個(gè)決策有95%的準(zhǔn)確性。

2、P值

P值是指在特定的統(tǒng)計(jì)假設(shè)模型下,數(shù)據(jù)的某個(gè)統(tǒng)計(jì)指標(biāo)(如兩組樣本均數(shù)之差)等于觀察值或比觀察值更為極端的概率。

上文顯著性檢驗(yàn)就是比較P值和\alpha之間的關(guān)系做出決策,但對(duì)P值的爭(zhēng)議很大,因此需要單獨(dú)講一講P值。

(1)P值的爭(zhēng)議

目前科學(xué)界對(duì)P值的使用存在很大的置疑,認(rèn)為P值是是擾人煩的蚊子,是皇帝的新衣,比“毫無用處”還糟糕[6]。

林澤民教授2016/6/6在臺(tái)灣政大社科院的演講,題目為《看電影學(xué)統(tǒng)計(jì):p值的陷阱》提到統(tǒng)計(jì)學(xué)很快會(huì)有很重大的改變,傳統(tǒng)的作法:用P值來作統(tǒng)計(jì)檢定的作法,大概再過幾年就不容易再存在。

2018年1月22日,美國(guó)政治學(xué)頂級(jí)學(xué)術(shù)期刊《政治分析》在他們的官方twitter上宣布從2018年的開始的第26輯起禁用p值。根據(jù)該刊的聲明,其主要原因是:“p值本身無法提供支持相關(guān)模式或假說之證據(jù)?!?/p>

在臨床試驗(yàn)中P值的使用尤為普遍,用來檢驗(yàn)藥物的有效性,P值問題使得近半數(shù)的相關(guān)論文可靠性被推翻。

(2)P值的問題

為什么說P值是個(gè)陷阱?為什么P值本身無法支持相關(guān)模式或假說之證據(jù)?

主要原因是因?yàn)椋篜值只能對(duì)樣本數(shù)據(jù)負(fù)責(zé),但模型的意義在于推斷總體,所以總有以偏概全的風(fēng)險(xiǎn)存在。同時(shí),因?yàn)镻值易受樣本操控,而很多研究為了得到想要的結(jié)論,往往是不斷調(diào)整樣本量,直到得到想要的結(jié)果[8]

P值本身是沒有問題的,但如果單純只依賴P值是否小于\alpha做出決策卻也是不可取的,學(xué)術(shù)界反對(duì)的是P值的濫用。

(3)P值統(tǒng)計(jì)意義

美國(guó)統(tǒng)計(jì)協(xié)會(huì)(American Statistical Association,ASA)全面透徹地梳理了統(tǒng)計(jì)界關(guān)于P值的統(tǒng)計(jì)意義并形成共識(shí)[7]

  1. P值表示數(shù)據(jù)與特定的統(tǒng)計(jì)模型不匹配的程度。
    即在原假設(shè)的前提下,P值越小,越有理由拒絕原假設(shè)。
  2. P值不是研究假說為真的概率。
    P值說明數(shù)據(jù)與假設(shè)的關(guān)系,而不解釋假設(shè)本身。
  3. 科學(xué)結(jié)論、商業(yè)決策或政策制定不能取決于P值是否超過規(guī)定的界值。
    成功的決策應(yīng)考慮實(shí)驗(yàn)設(shè)計(jì)、數(shù)據(jù)質(zhì)量、外部證據(jù)、假設(shè)的合理性等諸多因素。僅僅看P值是否小于0.05是非常具有誤導(dǎo)性的。
  4. 正確的推斷依賴于報(bào)告的全面性和透明度。
    研究者要公布研究中所有的假設(shè)、數(shù)據(jù)收集和統(tǒng)計(jì)分析過程,以及P值。
  5. P值并不表示處理效應(yīng)的大小或結(jié)果的重要性。
    再微小的效應(yīng),當(dāng)樣本量足夠大或測(cè)量精度足夠高時(shí),都能獲得較小的P值;反之再大的效應(yīng)在樣本量不足或測(cè)量精度不高時(shí),其P值也會(huì)很大。
  6. P值本身并不是衡量一個(gè)模型或假說的標(biāo)準(zhǔn)。
    數(shù)據(jù)分析時(shí)不能僅計(jì)算p值,而應(yīng)同時(shí)采用其他適合的或可行性更高的方法。

3、統(tǒng)計(jì)推斷檢驗(yàn)方法

(1)檢驗(yàn)方法

而常用統(tǒng)計(jì)推斷檢驗(yàn)方法分為兩大類:參數(shù)檢驗(yàn)和非參數(shù)檢驗(yàn)

參數(shù)檢驗(yàn),就是假定數(shù)據(jù)服從某種分布,通過樣本信息對(duì)總體參數(shù)進(jìn)行比較檢驗(yàn)(T檢驗(yàn)、F檢驗(yàn)、方差分析等)
非參數(shù)檢驗(yàn),不要求所研究的樣本所來自的總體具有某種分布,進(jìn)行的不是參數(shù)之間的比較,而是分布位置、分布形狀之間的比較

  • 參數(shù)檢驗(yàn)是針對(duì)參數(shù)做的假設(shè);非參數(shù)檢驗(yàn)是針對(duì)總體分布情況做的假設(shè)
  • 參數(shù)檢驗(yàn)要用到總體的信息,一次來推測(cè)具體參數(shù);非參數(shù)檢驗(yàn)退而求其次,致力于對(duì)總體的分布做出推測(cè)。

根據(jù)總體數(shù)據(jù)是否服從某種分布,采用參數(shù)檢驗(yàn)和非參數(shù)檢驗(yàn)兩種檢驗(yàn)方法,具體使用哪種檢驗(yàn)方法根據(jù)屬性和要求決定。

(2)案例應(yīng)用

某公司運(yùn)營(yíng)團(tuán)隊(duì)為了針對(duì)活躍度提升專題運(yùn)營(yíng)活動(dòng)的效果進(jìn)行測(cè)試,從同樣群體中抽出兩組人群,一組運(yùn)營(yíng)組,一組對(duì)照組。30天后運(yùn)營(yíng)活動(dòng)結(jié)束后,想要知道該次針對(duì)性運(yùn)營(yíng)是否有效,兩組活躍度分?jǐn)?shù)是否差異明顯?

T檢驗(yàn)是數(shù)據(jù)化運(yùn)營(yíng)效果分析中應(yīng)用最多的方法和技術(shù)。使用要求為:1)樣本組之間獨(dú)立;2)每組樣本來自正態(tài)分布總體;3)兩個(gè)獨(dú)立樣本方差相等。

樣本組a和b,Equality of Variances檢查ab兩組樣本方差是否差異顯著,P=0.375>0.05,因此接受原假設(shè),認(rèn)為a和b兩組方差沒有顯著差異(不是相等)。



因此可以使用T檢驗(yàn),檢驗(yàn)P=0.0006<0.05,拒絕原假設(shè),表明ab兩組存在顯著性差異,兩組樣本的活躍度均值是有差異的,運(yùn)營(yíng)是有效果的

雖然兩組都是獨(dú)立的,但兩組樣本的總體不一定是正態(tài)分布的,方差也不一定相等,我們可以采用非參數(shù)檢驗(yàn)—wilcoxon符號(hào)秩檢驗(yàn)。

wilcoxon符號(hào)秩檢驗(yàn)適用于兩個(gè)獨(dú)立樣本間的兩兩比較。

two-sided 的P值為0.011,小于0.05,拒絕原假設(shè),認(rèn)為兩個(gè)獨(dú)立組的活躍度分?jǐn)?shù)的均值是不相等的。


如果不能確定總體是否為正態(tài)分布,則只能退而求其次用非參數(shù)檢驗(yàn)的方法。如果滿足T檢驗(yàn)要求,有限考慮T檢驗(yàn)的結(jié)果。

參考資料

[1] 推斷統(tǒng)計(jì)學(xué):https://baike.baidu.com/item/%E5%BD%92%E7%BA%B3%E7%BB%9F%E8%AE%A1%E5%AD%A6/10023692?fr=aladdin
[2] 假設(shè)檢驗(yàn):https://baike.baidu.com/item/%E5%81%87%E8%AE%BE%E6%A3%80%E9%AA%8C/638320?fr=aladdin
[3] 顯著性水平:https://baike.baidu.com/item/%E6%98%BE%E8%91%97%E6%80%A7%E6%B0%B4%E5%B9%B3/1383148?fr=aladdin
[4] 顯著性差異:https://baike.baidu.com/item/%E6%98%BE%E8%91%97%E6%80%A7%E5%B7%AE%E5%BC%82/950812?fr=aladdin
[5] 統(tǒng)計(jì)學(xué)假設(shè)檢驗(yàn)中 p 值的含義具體是什么?https://www.zhihu.com/question/23149768/answer/23758600
[6] 統(tǒng)計(jì)學(xué)里“P”的故事:蚊子、皇帝的新衣和不育的風(fēng)流才子:https://www.guokr.com/article/438043/
[7] 臨床試驗(yàn)中P值的意義及結(jié)果:http://www.sohu.com/a/192858946_776163
[8] P值的陷阱:https://www.zhihu.com/search?type=content&q=P%E5%80%BC%E9%99%B7%E9%98%B1
[9] 非參數(shù)檢驗(yàn):https://www.zhihu.com/search?type=content&q=%E9%9D%9E%E5%8F%82%E6%95%B0%E6%A3%80%E9%AA%8C

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容