本文摘自
Streiner DL.Maintaining standards: differences between the standard deviation and standarderror, and when to use each. Can J Psychiatry 1996; 41: 498–502.
標(biāo)準(zhǔn)差(Standard Deviation)
標(biāo)準(zhǔn)差,縮寫為S.D., SD, 或者 s (就是為了把人給弄暈?),是描述數(shù)據(jù)點(diǎn)在均值(mean)周圍聚集程度的指標(biāo)。
如果把單個(gè)數(shù)據(jù)點(diǎn)稱為“Xi,” 因此 “X1” 是第一個(gè)值,“X2” 是第二個(gè)值,以此類推。均值稱為“M”。初看上去Σ(Xi-M)就可以作為描述數(shù)據(jù)點(diǎn)散布情況的指標(biāo),也就是把每個(gè)Xi與M的偏差求和。換句話講,是(單個(gè)數(shù)據(jù)點(diǎn)—數(shù)據(jù)點(diǎn)的平均)的總和。
看上去挺有邏輯性的,但是它有兩個(gè)缺點(diǎn)。
第一個(gè)困難是:上述定義的結(jié)果永遠(yuǎn)是0。根據(jù)定義,高出均值的和永遠(yuǎn)等于低于均值的和,因此它們相互抵消??梢匀〔钪档慕^對(duì)值來解決(也就是說,忽略負(fù)值的符號(hào)),但是由于各種神秘兮兮的原因,統(tǒng)計(jì)學(xué)家不喜歡絕對(duì)值。另外一個(gè)剔除負(fù)號(hào)的方法是取平方,因?yàn)槿魏螖?shù)的平方肯定是正的。所以,我們就有Σ(Xi-M)2。
另外一個(gè)問題是當(dāng)我們增加數(shù)據(jù)點(diǎn)后此等式的結(jié)果會(huì)隨之增大。比如我們手頭有25個(gè)值的樣本,根據(jù)前面公式計(jì)算出SD是10。如果再加25個(gè)一模一樣的樣本,直覺上50個(gè)大樣本的數(shù)據(jù)點(diǎn)分布情況應(yīng)該不變。但是我們的公式會(huì)產(chǎn)生更大的SD值。好在我們可以通過除以數(shù)據(jù)點(diǎn)數(shù)量N來彌補(bǔ)這個(gè)漏洞。所以等式就變成Σ(Xi-M)2/N.
根據(jù)墨菲定律,我們解決了兩個(gè)問題,就會(huì)隨之產(chǎn)生兩個(gè)新問題。
第一個(gè)問題(或者我們應(yīng)該稱為第三個(gè)問題,這樣能與前面的相銜接)是用平方表達(dá)偏差。假設(shè)我們測量自閉癥兒童的IQ。也許會(huì)發(fā)現(xiàn)IQ均值是75, 散布程度是100 個(gè)IQ點(diǎn)平方。這IQ點(diǎn)平方又是什么東西?不過這容易處理:用結(jié)果的平方根替代,這樣結(jié)果就與原來的測量單位一致。所以上面的例子中的散布程度就是10個(gè)IQ點(diǎn),變得更加容易理解。
最后一個(gè)問題是目前的公式是一個(gè)有偏估計(jì),也就是說,結(jié)果總是高于或者低于真實(shí)的值。解釋稍微有點(diǎn)復(fù)雜,先要繞個(gè)彎。在多數(shù)情況下,我們做研究的時(shí)候,更感興趣樣本來自的總體(population)。比如,我們探查有年輕男性精神分裂癥患者的家庭中的外現(xiàn)情緒(expressed emotion,EE)水平時(shí),我們的興趣點(diǎn)是所有滿足此條件的家庭(總體),而不單單是哪些受研究的家庭。我們的工作便是從樣本中估計(jì)出總體的均值(mean)和SD。因?yàn)檠芯渴褂玫闹皇菢颖荆赃@些估計(jì)會(huì)與總體的值未知程度的偏差。理想情況下,計(jì)算SD的時(shí)候我們應(yīng)當(dāng)知道每個(gè)家庭的分值(score)偏離總體均值的程度,但是我們手頭只有樣本的均值。
根據(jù)定義,分值樣本偏離樣本均值的程度要小于偏離其他值,因此使用樣本均值減去分值得到的結(jié)果總是比用總體均值(還不知道)減去分值要小,公式產(chǎn)生的結(jié)果也就偏?。ó?dāng)然N很大的時(shí)候,這個(gè)偏差就可以忽略)。為了糾正這個(gè)問題,我們會(huì)用N-1除,而不是N??傊詈笪覀兊玫搅诵拚臉?biāo)準(zhǔn)差的(估計(jì))公式(稱為樣本標(biāo)準(zhǔn)差):
順帶一下,不要直接使用此公式計(jì)算SD,會(huì)產(chǎn)生很多舍入誤差(rounding error)。統(tǒng)計(jì)學(xué)書一般會(huì)提供另外一個(gè)等同的公式,能獲得更加精確的值。
現(xiàn)在我們完成了所有推導(dǎo)工作,這意味著什么呢?
假設(shè)數(shù)據(jù)是正態(tài)分布的,一旦知道了均值和SD,我們便知道了分值分布的所有情況。對(duì)于任一個(gè)正態(tài)分布,大概2/3(精確的是68.2%)的分值會(huì)落在均值-1 SD和均值+1 SD之間,95.4%的在均值-2 SD 和均值+2 SD之間。比如,大部分研究生或者職業(yè)院校的入學(xué)考試(GRE,MCAT,LSAT和其他折磨人的手段)的分?jǐn)?shù)分布(正態(tài))就設(shè)計(jì)成均值500,SD 100。這意味68%的人得分在400到600之間,略超過95%的人在300到700之間。使用正態(tài)曲線的概率表,我們就能準(zhǔn)確指出低于或者高于某個(gè)分?jǐn)?shù)的比例是多少。相反的,如果我們想讓5%的人淘汰掉,如果知道當(dāng)年測試的均值和SD,依靠概率表,我們就能準(zhǔn)確劃出最低分?jǐn)?shù)線。
總結(jié)一下,SD告訴我們分值圍繞均值的分布情況。現(xiàn)在我們轉(zhuǎn)向標(biāo)準(zhǔn)誤差(standard error)。
標(biāo)準(zhǔn)誤差(Standard Error)
前面我提到過大部分研究的目的是估計(jì)某個(gè)總體(population)的參數(shù),比如均值和SD(標(biāo)準(zhǔn)方差)。一旦有了估計(jì)值,另外一個(gè)問題隨之而來:這個(gè)估計(jì)的精確程度如何?這問題看上去無解。我們實(shí)際上不知道確切的總體參數(shù)值,所以怎么能評(píng)價(jià)估計(jì)值的接近程度呢?挺符合邏輯的推理。但是以前的統(tǒng)計(jì)學(xué)家們沒有被嚇倒,我們也不會(huì)。我們可以求助于概率:(問題轉(zhuǎn)化成)真實(shí)總體均值處于某個(gè)范圍內(nèi)的概率有多大?(格言:統(tǒng)計(jì)意味著你不需要把話給說絕了。)
回答這個(gè)疑問的一種方法重復(fù)研究(實(shí)驗(yàn))幾百次,獲得很多均值估計(jì)。然后取這些均值估計(jì)的均值,同時(shí)也得出它的標(biāo)準(zhǔn)方差(估計(jì))。然后用前面提到的概率表,我們可估計(jì)出一個(gè)范圍,包括90%或者95%的這些均值估計(jì)。如果每個(gè)樣本是隨機(jī)的,我們就可以安心地說真實(shí)的(總體)均值90%或者95%會(huì)落在這個(gè)范圍內(nèi)。我們給這些均值估計(jì)的標(biāo)準(zhǔn)差取一個(gè)新名字:均值的標(biāo)準(zhǔn)誤差(the standard error of the mean),縮寫是SEM,或者,如果不存在混淆,直接用SE代表。
但是首先得處理一個(gè)小紕漏:重復(fù)研究(實(shí)驗(yàn))幾百次?,F(xiàn)今做一次研究已經(jīng)很困難了,不要說幾百次了(即使你能花費(fèi)整個(gè)余生來做這些實(shí)驗(yàn))。好在一向給力的統(tǒng)計(jì)學(xué)家們已經(jīng)想出了基于單項(xiàng)研究(實(shí)驗(yàn))確定SE的方法。讓我們先從直觀的角度來講:是哪些因素影響了我們對(duì)估計(jì)精確性的判斷?一個(gè)明顯的因素是研究的規(guī)模。樣本規(guī)模N越大,反常數(shù)據(jù)對(duì)結(jié)果的影響就越小,我們的估計(jì)就越接近總體的均值。所以,N應(yīng)該出現(xiàn)在計(jì)算SE公式的分母中:因?yàn)?em>N越大,SE越小。類似的,第二因素是:數(shù)據(jù)的波動(dòng)越小,我們越相信均值估計(jì)能精確反映它們。所以,SD應(yīng)該出現(xiàn)在計(jì)算公式的分子上:SD越大,SE越大。因此我們得出以下公式:
(為什么不是N? 因?yàn)閷?shí)際是我們是在用N除方差SD2,我們實(shí)際不想再用平方值,所以就又采用平方根了。)
所以,SD實(shí)際上反映的是數(shù)據(jù)點(diǎn)的波動(dòng)情況,而SE則是均值的波動(dòng)情況。
置信區(qū)間(Confidence Interval)
前面一節(jié),針對(duì)SE,我們提到了某個(gè)值范圍。我們有95%或者99%的信心認(rèn)為真實(shí)值就處在當(dāng)中。我們稱這個(gè)值范圍為“置信區(qū)間”,縮寫是CI。讓我們看看它是如何計(jì)算的??凑龖B(tài)分布表,你會(huì)發(fā)現(xiàn)95%的區(qū)域處在-1.96 SD 和+1.96 SD 之間。回顧到前面的GRE和MCAT的例子,分?jǐn)?shù)均值是500,SD是100,這樣95%的分?jǐn)?shù)處在304和696之間。如何得到這兩個(gè)值呢?首先,我們把SD乘上1.96,然后從均值中減去這部分,便得到下限304。如果加到均值上我們便得到上限696。CI也是這樣計(jì)算的,不同的地方是我們用SE替代SD。所以計(jì)算95%的CI的公式是:95%CI= 均值± ( 1.96 x SE)。
選擇SD, SE和CI
好了,現(xiàn)在我們有SD, SE和CI。問題也隨之而來:什么時(shí)候用?選擇哪個(gè)指標(biāo)呢?很明顯,當(dāng)我們描述研究結(jié)果時(shí),SD是必須報(bào)告的。根據(jù)SD和樣本大小,讀者很快就能獲知SE和任意的CI。如果我們再添加上SE和CI,是不是有重復(fù)之嫌?回答是:“YES”和“NO”兼有。
本質(zhì)上,我們是想告之讀者通常數(shù)據(jù)在不同樣本上是存在波動(dòng)的。某一次研究上獲得的數(shù)據(jù)不會(huì)與另外一次重復(fù)研究的結(jié)果一模一樣。我們想告之的是期望的差異到底有多大:可能波動(dòng)存在,但是沒有大到會(huì)修改結(jié)論,或者波動(dòng)足夠大,下次重復(fù)研究可能會(huì)得出相反的結(jié)論。
某種程度上來講,這就是檢驗(yàn)的顯著程度,P level 越低,結(jié)果的偶然性就越低,下次能重復(fù)出類似結(jié)果的可能性越高。但是顯著性檢驗(yàn),通常是黑白分明的:結(jié)果要么是顯著的,要么不是。如果兩個(gè)實(shí)驗(yàn)組的均值差別只是勉強(qiáng)通過了P < 0.05的紅線,也經(jīng)常被當(dāng)成一個(gè)很穩(wěn)定的結(jié)果。如果我們在圖表中加上CI,讀者就很容易確定樣本和樣本間的數(shù)據(jù)波動(dòng)會(huì)有多大,但是我們選擇哪個(gè)CI呢?
我們會(huì)在圖表上加上error bar(誤差條,很難聽),通常等同于1個(gè)SE。好處是不用選擇SE或者CI了(它們指向的是一樣的東西),也無過多的計(jì)算。不幸的這種方法傳遞了很少有用信息。一個(gè)error bar (-1 SE,+1 SE )等同于68%的CI;代表我們有68%的信心真的均值(或者2個(gè)實(shí)驗(yàn)組的均值的差別)會(huì)落在這個(gè)范圍內(nèi)。糟糕的是,我們習(xí)慣用95%,99% 而不是68%。所以讓忘記加上SE吧,傳遞的信息量太少了,它的主要用途是計(jì)算CI。
那么把error bar加長吧,用2個(gè)SE如何?這好像有點(diǎn)意思,2是1.96的不錯(cuò)估計(jì)。有兩方面的好處。首先這個(gè)方法能顯示95%的CI,比68%更有意義。其次能讓我們用眼睛檢驗(yàn)差別的顯著性(至少在2個(gè)實(shí)驗(yàn)組的情況下是如此)。如果下面bar的頂部和上面bar的底部沒有重疊,兩個(gè)實(shí)驗(yàn)組的差異必定是顯著的(5%的顯著水平)。因此我們會(huì)說,這2個(gè)組間存在顯著差別。如果我們做t-test,結(jié)果會(huì)驗(yàn)證這個(gè)發(fā)現(xiàn)。這種方法對(duì)超過2個(gè)組的情況就不那么精確了。因?yàn)樾枰啻伪容^(比如,組1和組2,組2和組3,組1和組3),但是至少能給出差別的粗略指示。在表格中展示CI的時(shí)候,你應(yīng)該給出確切的數(shù)值(乘以1.96而不是2)。
總結(jié)
SD反映的是數(shù)據(jù)點(diǎn)圍繞均值的分布狀況,是數(shù)據(jù)報(bào)告中必須有的指標(biāo)。SE則反映了均值波動(dòng)的情況,是研究重復(fù)多次后,期望得到的差異程度。SE自身不傳遞很多有用的信息,主要功能是計(jì)算95%和99%的CI。 CI是顯著性檢驗(yàn)的補(bǔ)充,反映的是真實(shí)的均值或者均值差別的范圍。
一些期刊已把顯著性檢驗(yàn)拋棄了,CI取而代之。這可能走過頭了。因?yàn)檫@兩種方法各有優(yōu)點(diǎn),也均會(huì)被誤用。比如,一項(xiàng)小樣本研究可能發(fā)現(xiàn)控制組和實(shí)驗(yàn)組間的差別顯著(0.05的顯著水平)。如果在結(jié)果展示加上CI,讀者會(huì)很容易看到CI十分寬,說明對(duì)差別的估計(jì)是很粗糙的。與之相反,大量鼓吹的被二手煙影響的人數(shù),實(shí)際上不是一個(gè)均值估計(jì)。最好的估計(jì)是0,它有很寬的CI,報(bào)道的卻只是CI的上限。
總之,SD、顯著性檢驗(yàn),95%或者99% 的CI,均應(yīng)該加在報(bào)告中,有利于讀者理解研究結(jié)果。它們均有信息量,能相互補(bǔ)充,而不是替代。相反,“裸”的SE的并不能告訴我們什么信息**,多占據(jù)了一些篇幅和空間而已。