讓我們蕩起雙槳,重新認(rèn)識(shí)一下p值

在正文之前先分享一點(diǎn)生活故事:

上周天傍晚,我閃著腰了,躺了一晚上不見好,發(fā)朋友圈尋醫(yī)問藥了:



因?yàn)樽龅氖巧欧窒?,我朋友圈里醫(yī)學(xué)生和醫(yī)生非常多,我想看他們?cè)趺凑f。
我收到了幾十條回復(fù),分享一下給大家,就當(dāng)拿我的教訓(xùn)給大家漲漲經(jīng)驗(yàn)吧,有備無(wú)患...

1.關(guān)于為什么痛

根據(jù)我的癥狀描述,多位醫(yī)生/醫(yī)學(xué)生指出這是腰肌勞損,多半是因?yàn)榫米藙?shì)不對(duì)引起的,如果嚴(yán)重一點(diǎn)就會(huì)發(fā)展成為小關(guān)節(jié)紊亂,再不注意,過幾年會(huì)發(fā)展成腰椎間盤突出(啊嚇?biāo)懒恕?

2.關(guān)于去不去醫(yī)院

大多數(shù)醫(yī)生/醫(yī)學(xué)生說得去醫(yī)院,也有幾位說不用去醫(yī)院,在家躺著休息,感覺有麻木、牽拉感再去醫(yī)院。

3.關(guān)于掛什么科

先要去骨科或者脊柱外科,要拍個(gè)片子確認(rèn)一下沒有傷到骨頭,也有人說做MR(核磁共振成像);然后去針灸/推拿/理療/疼痛/康復(fù)科,針灸和推拿都是有效的,有針灸科的醫(yī)學(xué)生說,這個(gè)一針見效。不能針灸的話,那就是中醫(yī)正骨推拿,也能搞定,不過大家都說推拿不是誰(shuí)都可以,要有經(jīng)驗(yàn)的老中醫(yī)才行。

關(guān)于拍片子,有朋友指出我這個(gè)是彎腰岔氣,不是摔的或者碰的,沒有傷到骨頭,不拍也行,拍了放心。

4.病例本例現(xiàn)身說法

知道了推拿可以治這回事,我查了一下家長(zhǎng),附近有個(gè)中醫(yī)推拿館,我就打了電話過去,他們?cè)敿?xì)詢問了我的癥狀,問是不是久坐,以前有沒有出現(xiàn)過輕的腰部不適癥狀,我說是的。她說可以過去,推拿能搞定。最后沒有拍片子,一個(gè)小時(shí)的推拿基本緩解了疼痛,本來(lái)無(wú)法彎腰,坐下就痛,按完可以彎腰了,還有一些不適的感覺,但是明顯緩解。

發(fā)現(xiàn)了沒,我的朋友圈可太優(yōu)秀了吧!劇透一波,雙十一我要在公眾號(hào)為我朋友圈里的單身男女們發(fā)布一下征友信息,敬請(qǐng)關(guān)注哈哈


以下是正文

1.p值是不是概率?

P value is the probility that rendom chance generated the data, or something else that is equal or rarer.

也就是說,p值由三部分概率組成:目標(biāo)事件概率+(與目標(biāo)事件概率相同的事件)的概率+(比目標(biāo)事件概率更小的事件)的概率。

順便補(bǔ)充兩個(gè)R語(yǔ)言的函數(shù),choose和combn。

choose(5,1)
## [1] 5
choose(5,2)
## [1] 10
choose(5,3)
## [1] 10
choose(5,4)
## [1] 5
choose(5,5)
## [1] 1

choose(5,3)表示從五個(gè)數(shù)中抽取三個(gè),有多少種可能,返回具體數(shù)值。

combn(1:5,1)
##      [,1] [,2] [,3] [,4] [,5]
## [1,]    1    2    3    4    5
combn(1:5,2)
##      [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
## [1,]    1    1    1    1    2    2    2    3    3     4
## [2,]    2    3    4    5    3    4    5    4    5     5
combn(1:5,3)
##      [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
## [1,]    1    1    1    1    1    1    2    2    2     3
## [2,]    2    2    2    3    3    4    3    3    4     4
## [3,]    3    4    5    4    5    5    4    5    5     5
combn(1:5,4)
##      [,1] [,2] [,3] [,4] [,5]
## [1,]    1    1    1    1    2
## [2,]    2    2    2    3    3
## [3,]    3    3    4    4    4
## [4,]    4    5    5    5    5
combn(1:5,5)
##      [,1]
## [1,]    1
## [2,]    2
## [3,]    3
## [4,]    4
## [5,]    5

combn(1:5,3)表示從五個(gè)數(shù)中抽取3個(gè),列出所有可能(矩陣形式)

2.計(jì)算實(shí)例一,扔兩個(gè)硬幣

結(jié)果為HH的概率和p值

(H:head,T:tail)

隨機(jī)拋兩次硬幣,HH、TT的概率都是1/4,HT的概率是1/2。

根據(jù)三個(gè)組成部分,可以計(jì)算出HH的p值:1/4 + 1/4 + 0 = 1/2 = 0.5

結(jié)果為HT的概率和p值

順序通常沒什么用,在這里,不考慮順序,HT和TH是一樣的。概率為1/2。

p值是 1/2 + 1/4 + 1/4 = 1

3.計(jì)算實(shí)例二,扔五個(gè)硬幣

五個(gè)硬幣,總共有32種可能:

除了五正、五反兩種情況,其他的30種是:

library(stringr)
lapply(1:4, function(n){
  k = combn(1:5,n)
  sapply(1:ncol(k), function(x){
    y = rep("H",5)
    y[k[,x]] = "T"
    return(paste(y,collapse = ""))
  })
})
## [[1]]
## [1] "THHHH" "HTHHH" "HHTHH" "HHHTH" "HHHHT"
## 
## [[2]]
##  [1] "TTHHH" "THTHH" "THHTH" "THHHT" "HTTHH" "HTHTH" "HTHHT" "HHTTH" "HHTHT"
## [10] "HHHTT"
## 
## [[3]]
##  [1] "TTTHH" "TTHTH" "TTHHT" "THTTH" "THTHT" "THHTT" "HTTTH" "HTTHT" "HTHTT"
## [10] "HHTTT"
## 
## [[4]]
## [1] "TTTTH" "TTTHT" "TTHTT" "THTTT" "HTTTT"

可以看到上面生成的結(jié)果是一個(gè)列表,分了四組,分別代表有1、2、3、4個(gè)T的所有情況。

五個(gè)正面朝上的概率和p值

HHHHH的概率:(1/2)^5 = 1/32,TTTTT與之概率相等,不存在比1/32概率更小的事件。

HHHHH的p值:1/32 + 1/32 + 0 = 0.0625

雖然五個(gè)H的幾率很小,但是p值>0.05,不認(rèn)為是非常罕見的事件。

四正一反的概率和p值

四正一反的概率:choose(5,1)/(2^5) = 5/32

與目標(biāo)事件相等的事件是四反一正,比目標(biāo)事件概率更小的是五正和五反,所以p值是:

5/32 + 5/32 + 1/32 + 1/32 = 0.375

4.連續(xù)型的數(shù)據(jù)如何計(jì)算p值

例如身高,無(wú)法窮舉所有的可能性。

密度圖曲線下的面積代表橫坐標(biāo)對(duì)應(yīng)范圍事件發(fā)生的概率

生成示例圖,身高的正態(tài)分布曲線,均值約為155.5

library(ggplot2)
x = seq(130,180,0.1)
df = data.frame(x = x,
                 y = dnorm(x,mean = 155.5,sd = 7),
                 gro = ifelse(x< 142,"A",ifelse(x >= 169,"C","B")))
ggplot(df, aes(x = x,y = y)) +
  geom_line() + theme_bw()
image.png

R語(yǔ)言如何計(jì)算曲線下的面積?我找到了一個(gè)積分函數(shù),奇怪的知識(shí)增加了

連續(xù)型數(shù)據(jù)的概率

小于142cm:

integrate(function(x){dnorm(x=x,mean = 155.5,sd = 7)}, -Inf, 142)
## 0.02689204 with absolute error < 8.3e-06

大于169cm:

integrate(function(x){dnorm(x=x,mean = 155.5,sd = 7)}, 169, Inf)
## 0.02689204 with absolute error < 8.3e-06

介于142~169cm之間

integrate(function(x){dnorm(x=x,mean = 155.5,sd = 7)} , 142 , 169)
## 0.9462159 with absolute error < 6.7e-12

R語(yǔ)言是個(gè)好玩具,還可以畫出相應(yīng)的圖(面積圖)

ggplot(df, aes(x = x)) +
  geom_line(aes(y = y)) +
  geom_area(data = df[df$gro == "A",],aes(y = y), fill = 'blue',color = NA,alpha = 0.5)+
  geom_area(data = df[df$gro == "B",],aes(y = y), fill = 'red',color = NA,alpha = 0.5)+
  geom_area(data = df[df$gro == "C",],aes(y = y), fill = 'blue',color = NA,alpha = 0.5)+
  theme_bw()
image.png

重申一下,面積就是概率啊。

連續(xù)型數(shù)據(jù)的p值

再來(lái)看p值,身高小于142的p值如何計(jì)算?

身高>169和<142概率相等,沒有比<142更加小概率的事件。所以p值為0.027*2 = 0.054

身高為142~169之間的p值:

0.946 + 0.027*2 = 1

0.946 是目標(biāo)事件的概率,兩個(gè)0.027是(比目標(biāo)事件概率更小的事件)的概率。

區(qū)分p值和概率的極端例子

身高介于155~156之間的概率是:

integrate(function(x){dnorm(x=x,mean = 155.5,sd = 7)} , 155 , 156)
## 0.05694333 with absolute error < 6.3e-16

面積圖:

df2 = data.frame(x = x,
                 y = dnorm(x,mean = 155.5,sd = 7),
                 gro = ifelse(x< 155,"A",ifelse(x >= 156,"C","B")))
ggplot(df2, aes(x = x)) +
  geom_line(aes(y = y)) +
  geom_area(data = df2[df2$gro == "B",],aes(y = y), fill = 'red',color = NA,alpha = 0.5)+
  theme_bw()
image.png

概率只為0.057,但p值呢?

目標(biāo)事件概率是0.057,比目標(biāo)事件概率更小的事件概率?因?yàn)?55~156 處在正態(tài)分布的中位數(shù)附近,所以他的概率是最大的,身高落在所有的其他范圍內(nèi)的概率都比155~156要低,所以p值等于0.057+(1-0.057)=1

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容