[說人話的統(tǒng)計學·協(xié)和八]第一章 高屋建瓴看統(tǒng)計

注:說人話的統(tǒng)計學系列原連載于協(xié)和八微信公眾號。本文為筆者的學習筆記,每篇文章標題已加入原文超鏈接。如侵權請告知。

第 1 章 高屋建瓴看統(tǒng)計

01 你真的懂p值嗎? | 說人話的統(tǒng)計學·協(xié)和八

p值就是在假定我們希望檢驗的效應并不存在(即「原假設成立」)的前提下,收集到了與我們所得到的結果相同或更極端的數(shù)據(jù)的概率。

p值不是原假設為真的概率,也不是備選假設為假的概率

p值只描述樣本與原假設的相悖程度,原假設的真與假是我們以此為根據(jù)做出的一個判斷。p值并不能描述原假設和備選假設本身為真的概率。

p值并不能代表你所發(fā)現(xiàn)的效應(或差異)的大小

p值只關心數(shù)據(jù)與原假設之間有多不一致。但是,如果某種效應或差異存在,p值并不能準確地告訴我們效應的大小,更不能告訴我們這效應是否具有實際意義。

為什么是0.05?

費希爾老爺子隨口一說

02 做統(tǒng)計,多少數(shù)據(jù)才算夠?(上)| 說人話的統(tǒng)計學·協(xié)和八

利用統(tǒng)計功效(statistical power)進行數(shù)據(jù)量的估計,稱為功效分析 (power analysis)
第一類錯誤 原假設其實為真時錯誤地拒絕了它
第二類錯誤 原假設其實為假時錯誤的接受了它
希臘字母?和β來代表犯第一類和第二類錯誤的概率
1-β正是統(tǒng)計功效
統(tǒng)計功效(statistical power) 如果我們感興趣的效應或差異的確存在,在給定的顯著性水平的規(guī)定下,我們能夠正確地拒絕原假設的概率。

  • 效應的大小ES(即故事中被尋找的東西的大小)
  • 數(shù)據(jù)或樣本量的多少N(即故事中格格巫找東西的時間)
  • 顯著性水平?(即故事中宿舍有多亂)

03 做統(tǒng)計,多少數(shù)據(jù)才算夠?(下)| 說人話的統(tǒng)計學·協(xié)和八

顯著性水平?
如果p值小于我們事先規(guī)定的?,則稱結果顯著,拒絕原假設;如果p值大于?,則結果不顯著,不能拒絕原假設。
?也是在大量重復實驗時我們能承受的第一類錯誤的概率的上限
把統(tǒng)計功效設定在0.8到0.9之間
相比起“放過”(第二類錯誤),人們更不希望“殺錯”(第一類錯誤)。
使用GPower進行統(tǒng)計功效分析*
在統(tǒng)計功效不變時,效應大小越大,所需樣本量越??;而在效應大小不變時,統(tǒng)計功效越高,所需樣本量越大。

04 提升統(tǒng)計功效,讓評審心服口服!| 說人話的統(tǒng)計學·協(xié)和八

統(tǒng)計功效由三要素決定:
數(shù)據(jù)量、顯著性水平、效應大小(效果量)。

增加數(shù)據(jù)量

增加比較容易獲得的組別的樣本量
盡可能減少數(shù)據(jù)的損失

放寬顯著性水平的要求

報告p值在0.05和0.1之間的結果
使用單側檢驗
選用單側檢驗的效果實際上是使p值減半,從而一部分在雙側檢驗下不顯著的結果在單側檢驗時就變得顯著了.

增強效應大?。ㄐЧ浚?/h4>

加大干預的強度
對極端群體作比較
引進控制變量(control variables/covariates)
采用重復測量(repeated measures)
或組內(within-subjects)設計

05 你的科研成果都是真的嗎? | 說人話的統(tǒng)計學·協(xié)和八

盡管通過控制顯著性水平?,我們犯第一類錯誤的概率并不大,但是因為白格子實在很多,總數(shù)乘以?得到的數(shù)值(假陽性發(fā)現(xiàn)的數(shù)量)依然不小。
而對于那5個白格子,即使我們有比較高的統(tǒng)計功效1-β,能夠正確識別出它們中的大多數(shù),但是這幾個貨真價實的”李逵“還是淹沒在一大堆”李鬼“里頭了。
顯著性和統(tǒng)計功效這兩大支柱缺一不可!
忽略了事件自身的小概率特性而錯誤地將顯著的結果認為是事件發(fā)生的證據(jù),這在統(tǒng)計學上稱為基數(shù)謬誤(baserate fallacy)

06 見識數(shù)據(jù)分析的「獨孤九劍」 | 說人話的統(tǒng)計學·協(xié)和八

貝葉斯統(tǒng)計學
貝葉斯定理是一條關于條件概率的定理
條件概率指的是,在某件事情A發(fā)生的前提下,另一件事情B發(fā)生的概率,用P(B | A)表示(注意在豎線后面的是條件,前面的是我們感興趣的事件)

在這個假說成立的前提下產生這么一個現(xiàn)象的可能性P(現(xiàn)象 | 假說),或者說是現(xiàn)象有多符合假說的預測P(假說),我們稱為“似然”(likelihood)
這個假說本身成立的可能性大小,由于這是對觀察到現(xiàn)象之前來說的,因此我們稱為“先驗概率”(prior probability)
在萬事萬物中出現(xiàn)這一現(xiàn)象本身的可能性P(現(xiàn)象),我們稱為“證據(jù)”(evidence)

07 媽媽說答對的童鞋才能中獎 | 說人話的統(tǒng)計學·協(xié)和八

假設你經過多年潛心研究,發(fā)明了一種聰明藥。
你招募了兩組受試者進行雙盲試驗:你給其中一組服用你的聰明藥,另外一組服用安慰劑維生素C片,然后讓兩組受試者進行智力測驗。
經過兩組的平均智力測驗分數(shù)的比較后,你獲得了0.01的p值——
也就是說,兩組的智力測驗得分具有統(tǒng)計學意義上顯著的差異。
根據(jù)以上信息,選出以下你認為錯誤的陳述(可能不止一個):

  1. 原假設(“兩組的平均得分之間沒有差別”)絕對是錯誤的;
  2. 原假設(“兩組的平均得分之間沒有差別”)有1%的可能性是真的;
  3. 備選假設(“兩組的平均得分之間存在差別”)絕對是正確的;
  4. 根據(jù)上述信息可以算出備選假設為真的概率;
  5. 我們錯誤地拒絕原假設的概率是1%;
  6. 如果同樣的實驗重復很多遍,其中將有99%的實驗獲得統(tǒng)計學意義上顯著的結果;
  7. 如果同樣的實驗重復很多遍,其中將有1%的實驗獲得統(tǒng)計學意義上顯著的結果;
  8. 我們完全由于隨機因素而得到這一結果的概率是1%;
  9. 這一實驗的統(tǒng)計功效是1-0.01=0.99。

08 統(tǒng)計學的十個誤區(qū),你答對了嗎? | 說人話的統(tǒng)計學·協(xié)和八

  1. 如果同樣的實驗重復很多遍,其中將有99%的實驗獲得統(tǒng)計學意義上顯著的結果。
    ——錯誤。
    p值與統(tǒng)計結果的可重復性沒有關系。統(tǒng)計結果的可重復性依然取決于原假設為真的概率,但我們不能從p值中推出這個概率。

09 貝葉斯vs頻率派:武功到底哪家強?| 說人話的統(tǒng)計學·協(xié)和八

貝葉斯定理

我們做數(shù)據(jù)分析,絕大多數(shù)情況下希望得到的是關于某種假說是否成立的信息。等式左邊的P(參數(shù) | 數(shù)據(jù)),正是在觀察到了手頭上的數(shù)據(jù)的前提下,假說成立的概率。
P(參數(shù))P(參數(shù) | 數(shù)據(jù))分別叫做先驗概率后驗概率。
貝葉斯定理其實就是告訴我們,怎樣根據(jù)觀察到的數(shù)據(jù)來更新我們的先驗概率,從而獲得對假說的新看法——后驗概率。

原假設的后驗概率與p值和它的先驗概率的乘積成正比。

如果備選假設的先驗概率很小,即便我們獲得了基于原假設的很小的p值,也只不過把備選假設的后驗概率提高了一點點而已;如果備選假設的先驗概率本來就大,那么很小的p值則會進一步增大備選假設成立的概率。

什么是概率?

頻率學派說,我們只相信客觀的、能測量的東西,因此我們認為,概率是頻率在無限多次重復試驗時的極限值。
貝葉斯學派認為,所謂概率,只不過是我們思想中對事情發(fā)生可能性的一種猜測與信念。

貝葉斯統(tǒng)計學曾經面臨兩個很大的困難

  • 分母P(數(shù)據(jù))我們一直沒怎么講過,它指的就是觀察到所得數(shù)據(jù)的概率。

推廣到普遍情況,我們要把P(數(shù)據(jù))重新拆分成許多個P(數(shù)據(jù) | 參數(shù)k)*P(參數(shù)k),其中參數(shù)k要取遍所有可能的情況,然后再把它們全部加起來。如果參數(shù)可以在一個連續(xù)范圍內取值,那么求和就變成了積分

∫P(數(shù)據(jù) | 參數(shù))P(參數(shù))d參數(shù)

了。我們之前還說過,實際應用中經常遇到有成百上千個參數(shù)的情況,那么P(數(shù)據(jù))就變成極其復雜的多重積分了。這一直到近年都是算不出來的。
Markov Chain Monte Carlo(馬爾可夫鏈蒙特卡洛)方法

  • 先驗概率對結果有著相當大的影響。
  1. 使用盡量客觀的方法設定先驗概率
  2. 使用“弱信息”或“無信息”先驗
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容