轉(zhuǎn)載丁香園 作者:clongxue??原文出處(軟件見原文出處)
作為一名臨床醫(yī)師,或是醫(yī)學生,不管你愿意不愿意,都必須寫論文。醫(yī)學論文有別于其他論文,我們那些“神圣”的數(shù)據(jù)都必須進行統(tǒng)計學處理,這時,大多數(shù)人會遇到一個難題,大學時期學過的《醫(yī)學統(tǒng)計學》早就忘得差不多了,重新翻開統(tǒng)計學書本,基本上也是看得云里霧里。為了不讓同學們再次重溫早年學習統(tǒng)計學時的那種痛苦的體驗,我不自量力,特編寫《醫(yī)學統(tǒng)計學傻瓜教程》,本教程有別于其他任何的統(tǒng)計學教程,其特點是略去一些高深難懂的統(tǒng)計學原理及計算公式,直奔解決實際問題的方法,小學小用,大學大用,另有妙用。
你不需要任何的統(tǒng)計學基礎(chǔ),為了不引起你的反感,不會出現(xiàn)任何一道數(shù)學公式。本教程分“基礎(chǔ)篇”及“提高篇”兩個部分,學完“基礎(chǔ)篇”即可解決絕大多數(shù)的統(tǒng)計學問題,學完“提高篇”,“降龍十八掌”的武功已修練到“第10層”,足以讓你的同事對你刮目相看。
整個學習時間約需要2~3小時,在學習之前,我們需要到網(wǎng)上下載一個小工具,即《臨床醫(yī)師統(tǒng)計學助手 V10.0》)(見本文未尾的附件),因為進行統(tǒng)計學處理時最令人頭痛的問題是煩瑣的計算,則全部由預(yù)存在本軟件內(nèi)的計算公式來完成。
這是一個全“傻瓜化”的教程,“基礎(chǔ)篇”及“提高篇”各由數(shù)個實例組成,只要認真看完這些實例,將實際中碰到的問題對號入座即可,接下來我們開始輕松愉快的學習過程。
一、基礎(chǔ)篇
1、均數(shù)與標準差
【例1】本組105 例, 男55例, 女50例; 平均年齡:62.3±6.1歲,所有入選病例均符合1999年WHO高血壓診斷標準。
舉這個例子是為了說明“均數(shù)”與“標準差”的概念。我實在不愿意多花時間闡述一些概念性的東西,但是由于“標準差”的概念實在太重要了?!纠?】中的數(shù)據(jù)“62.3±6.1”,“62.3”就是年齡的均數(shù),均數(shù)的概念大家都懂,那么后面的“6.1”是什么呢?它就是標準差。有人可能會問,表達一組人的平均年齡,用均數(shù)就夠了,為什么還要加一個標準差呢?先看下面的一個例子:有兩組人,第1組身高(cm):98、99、100、101、102;第2組身高(cm):80、90、100、110、120,這兩組人雖然身高的均數(shù)都是100cm,但是,仔細觀察,第1組的身高很接近,第2組的身高差別很大,故僅僅用一個平均數(shù)表達一組數(shù)據(jù)的特征是不完整的,還需要用另一個指標來表達其參差不齊的程度,這就是標準差。統(tǒng)計學上對一組測量結(jié)果的數(shù)據(jù)都要用“均數(shù)±標準差”表示,習慣表達代號是:±s,具體例子如:平均收縮壓120±10.2mmHg。
我想現(xiàn)在同學們都已知道標準差是什么東東了,那么,標準差是怎樣得到的呢?有一個比較復(fù)雜的計算公式,我們不必去深究這個公式是怎么樣的,只需知道標準差越小,說明數(shù)據(jù)越集中,標準差越大,說明數(shù)據(jù)越分散。撰寫醫(yī)學論文的第一步是收集原始數(shù)據(jù),如:
??? 第1組身高(cm):98、99、100、101、102;
??? 第2組身高(cm):80、90、100、110、120。
在論文中并不是直接給出原始數(shù)據(jù),而是要以±s方式表示。利用軟件《臨床醫(yī)師統(tǒng)計學助手 V10.0》,只要輸入原始數(shù)據(jù),就能自動計算出均數(shù)及標準差,即第1組平均身高:100±1.58cm;第2組平均身高:100±15.81cm,如下圖。

2、兩樣本均數(shù)t檢驗
【例2】目的 研究中藥板蘭根對“非典”療效。方法 將36例“非典”患者隨機分為治療組19例,采用常規(guī)治療+板蘭根口服,對照組17例,僅采用常規(guī)治療。結(jié)果? 治療組平均退熱時間3.28±1.51d;對照組平均退熱時間5.65±1.96d,兩組間對照差別有極顯著意義(p<0.01)結(jié)論? 中藥板蘭根對“非典”有顯效療效,實為國之瑰寶。
這是最常見的一種統(tǒng)計學數(shù)據(jù)處理類型,統(tǒng)計學述語叫做“兩樣本均數(shù)差別t檢驗”,說得通俗易懂一些,就是檢驗兩組方法所得到的數(shù)據(jù)到底有沒有差異,或者說,差異是否有意義。我們平時的思維習慣是,數(shù)據(jù)的大小還用得著檢驗嗎?這是小學生都會的問題,但是統(tǒng)計學可不是這樣簡單的看問題。
可能還沒有說明白這個問題,下面舉一個簡單的例子。我們的目的是得出這樣一個結(jié)論:“北京出產(chǎn)的西瓜比上海出產(chǎn)的西瓜大”。最可靠的方法是把全部的北京產(chǎn)西瓜和全部的上海產(chǎn)西瓜都稱重量,得到兩個均數(shù),然后比大小即可,可是智商正常的人并不會這樣去做,通常的做法是,隨機選一部分北京的西瓜和一部分上海的西瓜,先讓這兩部分西瓜比大小,然后推斷到底那里的西瓜大。這種方法是“窺一斑可見全豹”,統(tǒng)計學述語叫做“由樣本推斷總體”,事實上,我們所做的醫(yī)學科研都是基于這種方法。
再回到上面的例子,假如我們有二種做法:
A、隨機選2個北京西瓜,平均重量是5.6±0.3kg;再隨機選2個上海西瓜,平均重量是4.3±0.25kg;
B、隨機選1000個北京西瓜,平均重量是5.6±0.3kg;再隨機選1000個上海西瓜,平均重量是4.3±0.25kg。
憑我們的直覺和生活常識,由B推出“北京的西瓜比上海西瓜大”這個結(jié)論的把握性就非常的大,而A則基本上推不出這個結(jié)論。為什么這樣說呢?北京全部的西瓜叫“總體”,隨機選擇的2個西瓜叫“樣本”,通常我們不會拿“總體”去比大小,這太困難了,而總是拿“樣本”去比大小,這樣就可能會有一個問題,你所抽到的樣本,可能都是最大的西瓜,也可能都是最小的西瓜,這樣由樣本來推斷總體就可能會出現(xiàn)錯誤(抽樣誤差),如何來解決這個問題呢,這就是統(tǒng)計學所研究的問題,總體來說,樣本量越小,抽樣誤差越大,由樣本推斷總體的把握性越低,從上面例子中,相對B而言,A的可靠性就很低。現(xiàn)在,終于可以引出我們的主題了,統(tǒng)計學處理本質(zhì)是研究由樣本差異推斷總體差異的把握性有多大,這種把握性在統(tǒng)計學上用p值表示。如p<0.05或P<0.01,可以理解為由樣本差異推斷總體差異的把握性達95%或99%以上;如P>0.05,可以理解為這種把握性在95%以下。
上面所講的實已為統(tǒng)計學之精髓,也是本教程最艱難的部分,建議多看幾遍。如果天生愚魯,還是不明白,也沒有關(guān)系,我們可以簡單的理解為所謂統(tǒng)計學處理,實際上是為了弄明白兩組數(shù)據(jù)的差異由抽樣誤差造成的可能性有多少?這種抽樣誤差的可能性由p值來表示,p<0.05或p<0.01,說明抽樣誤差的可能性很?。ǖ陀?%或1%),兩組數(shù)據(jù)差異有顯著意義;p>0.05,說明抽樣誤差的可能性很大(高于5%),兩組數(shù)據(jù)差異沒有顯著意義。
所以,統(tǒng)計學處理的中心任務(wù)是求p值。那么如何求p值呢?這里本來需要例舉出一大堆的數(shù)學計算公式,但是現(xiàn)在不這樣做,我們由軟件來直接計算。結(jié)合【例2】,具體操作如下。
【例2】中一共有6個數(shù)據(jù):第一組均數(shù)(X1)、標準差(S1)、例數(shù)(N1)與第二組均數(shù)(X2)、標準差(S2)、例數(shù)(N2),把這6個數(shù)據(jù)輸入軟件對應(yīng)的框內(nèi),該軟件就會利用預(yù)先存儲的公式自動計算t值,并得出p<0.01,由此判斷兩組間的差別具有極顯著的意義(如果沒有想成為統(tǒng)計學專家,就不必去理解“t值”是什么了,知道“t值”是為了求“p值”用的就可以了),如下圖。

3、配對計量資料t檢驗
【例3】目的 研究音樂胎教對胎兒運動技能培養(yǎng)的效果。方法 10例28~32周孕婦,分別記錄聽音樂(水滸傳電視劇主題曲)前每小時的胎動次數(shù)及聽音樂后每小時的胎動次數(shù),結(jié)果 數(shù)據(jù)如下表所示,音樂胎教后胎動次數(shù)增多,差別有顯著意義(p<0.0525)結(jié)論 音樂胎教可增強胎兒運動技能,對培養(yǎng)我國運動天才有現(xiàn)實意義。

顯然【例3】與【例2】有所不同,主要是【例3】兩組間的數(shù)據(jù)可以前后配對的。我們經(jīng)常碰到這種情況,即同一個體做兩次處理,如治療前檢測某一指標,治療后再檢測某一指標,而后做治療前后配對比較,以判斷療效。這種情況如何進行統(tǒng)計學處理呢?在軟件中選擇“配對資料t檢驗”,分別輸入上面的2組數(shù)據(jù),軟件自動計算p<0.05,差別有顯著意義,如下圖。

可能同學們會問,【例3】的情況,也可以把胎教前視為對照組,求得平均胎動次數(shù)是:21.8±5.31,胎教后視為治療組,求得平均胎動次數(shù)是:24.0±6.31,然后套用【例2】的方法,用“兩樣本均數(shù)t檢驗”行不行?這樣雖無大錯誤,但是將會導(dǎo)致檢驗效率的下降,就是說,如果數(shù)據(jù)差異較大時,兩種方法均可,如果數(shù)據(jù)差異較小時,用“配對t檢驗”會顯示出差異有意義,而用“兩樣本均數(shù)t檢驗”時,可能差異無意義。切記,非配對資料誤用配對t檢驗,則是錯誤的。
4、計數(shù)資料卡方檢驗
【例4】目的 研究醫(yī)患關(guān)系對重癥病人死亡率的影響。方法 根據(jù)問卷調(diào)查對收住重癥監(jiān)護病房的病人分為“醫(yī)患關(guān)系良好組”與“醫(yī)患關(guān)系緊張組”,比較兩組間的住院死亡率。 結(jié)果 “醫(yī)患關(guān)系良好組”25例,住院間死亡3例,死亡率13.6%,“醫(yī)患關(guān)系緊張組”23例,住院間死亡9例,死亡率39.1%,兩組間差別有顯著意義(p<0.05)結(jié)論 醫(yī)患關(guān)系緊張增加重癥病人的住院死亡率,可能與醫(yī)師害怕挨打而治療方案趨向保守有關(guān)。
這又是一個非常常見的一種統(tǒng)計學數(shù)據(jù)處理類型?!纠?】中所提供的數(shù)據(jù)是“比例”,或百分數(shù),與前面三個例子不同,前面三個例子所提供的數(shù)據(jù)則是直接在病人身上測量到的數(shù)據(jù),如收縮壓120±10.2mmHg、身高100±15.81cm等,我們把【例4】中的數(shù)據(jù)叫做計數(shù)資料,而【例1、2、3】中的數(shù)據(jù)叫做計量資料。計數(shù)資料無法用“均數(shù)±標準差”形式表示,只能用比例表示,如:死亡率13.6%、30例中顯效10例(10/30)等。
顯然,對于計數(shù)資料,再用t檢是不適合了,必須用卡方檢驗??ǚ綑z驗的步驟是:先求出X2值(類似于t檢驗時先求t值),然后進行判斷:
?⑴ 如果X2<3.84,則p>0.05;
⑵ 如果X2>3.84,則p<0.05;
⑶ 如果X2>6.63,則p<0.01。
解釋一下,上面的兩個數(shù)字“3.84”與“6.63”是查“X2界值表”得來的,只要記住即可。所以,卡方檢驗的關(guān)鍵是求出X2值。為了求出X2值,必須先介紹“四表格”概念?!八谋砀瘛钡男问饺缦?,關(guān)鍵數(shù)據(jù)是 a、b、c、d 四個數(shù),X2值就是通過這四個數(shù)據(jù)計算出來的(這里仍不介紹公式,由軟件計算。)。

現(xiàn)將【例4】中的數(shù)據(jù)填入“四表格”即如下圖。

當你學會了填“四表格”數(shù)據(jù)之后,就能利用軟件非常容易的進行卡方檢驗了,本軟件提供與“四表格”完全相同的界面,選擇“計數(shù)資料卡方檢驗”,把數(shù)據(jù)填寫正確之后,就自動計算X2值并判斷結(jié)果,【例4】X2=4.702>3.84,故p<0.05,如下圖。

在此說明一下,大家可能已注意到本軟件中出現(xiàn)的“理論數(shù)(T)”,在此不解釋“理論數(shù)(T)”是什么,只要記住,當例數(shù)(n)<40或T<1時,應(yīng)采用“精確概率法”,這個方法太復(fù)雜,在此不作介紹。
5、配對資料卡方檢驗
【例5】目的 研究螞蟻對慢性乙型病毒性肝炎的療效。方法 40例慢性乙型病毒性肝炎患者每天口服活螞蟻10只,半年后檢查e抗原。結(jié)果 治療前e抗原陽性率67.5%,治療后e抗原陽性率下降為12.5%,X2=15.75(p<0.01)結(jié)論 活螞蟻對慢性乙型病毒性肝炎有顯著療效。
與【例3】相似,這也是一個治療前后對照的實例,所不同的是【例3】是計量資料,【例5】是計數(shù)資料,這時,該采用“配對資料卡方檢驗”。
首無,我們把本例的原始資料整理如下:

然后,在軟件中選擇“配對資料卡方檢驗”,把上面的數(shù)據(jù)分別填入表格中(請注意與原始數(shù)據(jù)的對應(yīng)關(guān)系), X2=15.75,p<0.01,如下圖。

二、提高篇
6、方差分析(F檢驗)
【例6】某院外科對三種消毒劑的殺菌效果進行考察。經(jīng)過使用,以被消毒物品的殘余細菌數(shù)(cfu/m2)為評價指標,試驗結(jié)果如下表,試問三種消毒劑的效果是否存在差異?

現(xiàn)在,我們來分析這個例子,與【例2】一樣,本例也是計量資料,所不同的是,【例2】是兩組,本例是三組。是不是本例也可以用“兩樣本均數(shù)t檢驗”方法,分別進行兩兩比較呢?答案是不行的,將會導(dǎo)致檢驗效率的下降,這時正確的統(tǒng)計學方法是方差分析(F檢驗)。有必要重復(fù)一次,兩組計量資料的比較應(yīng)用“t檢驗”,多組計量資料的比較應(yīng)用“F檢驗”,下面介紹方差分析的方法。
?(1)選擇“方差分析(F檢驗)”,分別輸入三組的原始數(shù)據(jù),軟件會自動計算每組的均數(shù)±標準差,如果已知每組的均數(shù)±標準差,可在對應(yīng)的表格內(nèi)直接輸入,不必再輸入原始資料。

(2)軟件會自動計算F值(注意不是t值)及p值,p<0.05或p<0.01表示三組間不全相同,即至少有兩組是不同的,而不是全不相同。
(3)當知道三組消毒劑的效果不一樣后(p<0.05),我們?nèi)匀粺o法知道是不是三種消毒劑每一種效果都不一樣,也不知道三種消毒劑哪一種效果最好,哪一種效果最差,如果想回答這些問題,需要進行兩兩比較。本軟件提供2種兩兩比較的方法,即“兩兩比較q檢驗”及“兩兩比較LSD-t檢驗”,結(jié)果基本上是一致的。
7、多樣本率卡方檢驗
【例7】某院研究不同藥物對焦慮患者的療效,患者隨機分為三組,分別為阿米替林組、帕羅西丁組、安慰劑組,問三組間療效是否存在差異?

四表格卡方檢驗是最簡單的形式的卡方檢驗,當遇到多組卡方檢驗時,需要采用行×列表卡方檢驗,如下圖。

幾點說明:
1、行×列表卡方檢驗具有廣泛的適用性,但要求每個格子的理論數(shù)足夠大,如果發(fā)現(xiàn)某個格子中的理論數(shù)太小,應(yīng)擴大觀察例數(shù)。
2、于等級資料,如臨床療效分為治愈、顯效、好轉(zhuǎn)、無效,臨床檢驗結(jié)果分為 +、++、+++ 等,帶有明顯的半定量性質(zhì),對于等級資料行×列表卡方檢驗缺乏敏感性,應(yīng)采用秩和檢驗或Ridit分析(下述)。
3、行×列表卡方檢驗結(jié)果p<0.05或p<0.01表示各組間不全相同,而不是全不相同。
8、用秩和檢驗及Ridit分析
【例8】某院研究不同藥物對支氣管哮喘的患者的療效,患者隨機分為二組,分別為激素組、中藥組,問兩組間療效是否存在差異?

本例為等級資料,應(yīng)采用秩和檢驗或Ridit分析,如下圖(70%的醫(yī)學雜志對等資料誤用卡方檢驗?。?/p>

秩和檢驗與Ridit分析可任選一種方法,首先都是求出“Z值”,然后得到“p值”,本例p<0.01,結(jié)論:激素組與中藥組兩組間療效差異有顯著意義。
9、直線相關(guān)與回歸
【例9】測量不同年齡的兒童身高數(shù)據(jù)如下,問兒童年齡與身高是否存在關(guān)聯(lián)?

在科研與臨床工作中,許多問題是存在關(guān)聯(lián)的,如體表面積與身高、體重之間有明顯的關(guān)聯(lián),直線的相關(guān)與回歸即是研究兩個變量之間的關(guān)聯(lián)問題。兩個變量的關(guān)聯(lián)性分析,可以分解為兩個問題,一是這兩個變量是否存在相互關(guān)聯(lián),即相關(guān)問題;二是如果兩個變量是有關(guān)聯(lián)的,那么是什么樣的數(shù)量關(guān)系,即回歸問題,通常以回歸方程來表示?,F(xiàn)在回到【例9】,研究兒童年齡與身高之間是否存在關(guān)聯(lián)呢?在軟件中選擇“直線相關(guān)與回歸”,然后輸入以上的數(shù)據(jù),如下圖。

計算結(jié)果p<0.05,結(jié)論是兒童年齡與身高之間存在顯著的關(guān)聯(lián),并得出回歸方程 y=44.5278+10.9822x(y表示身高,x表示年齡)。
三、結(jié)語
現(xiàn)在已經(jīng)講完了9個實例,終于松了一口氣。掌握統(tǒng)計學的訣竅是將實際中碰到的的情況,對照本教程中實例,“對號入座”即可,而具體計算過程,可由軟件去完成。最后再啰嗦幾句:1、兩組計量資料用t檢驗;2、多組計量資料用方差分析(F檢驗);3、計數(shù)資料用卡方檢驗; 4、等級資料用用秩和檢驗或Ridit分析。