本文摘自

Streiner DL.Maintaining standards: differences between the standard deviation and standarderror, and when to use each. Can J Psychiatry 1996; 41: 498–502.

標(biāo)準(zhǔn)差(Standard Deviation)

標(biāo)準(zhǔn)差，縮寫為S.D., SD, 或者 s (就是為了把人給弄暈？)，是描述數(shù)據(jù)點(diǎn)在均值（mean）周圍聚集程度的指標(biāo)。

如果把單個(gè)數(shù)據(jù)點(diǎn)稱為“X_i,” 因此 “X₁” 是第一個(gè)值，“X₂” 是第二個(gè)值，以此類推。均值稱為“M”。初看上去Σ(X_i-M)就可以作為描述數(shù)據(jù)點(diǎn)散布情況的指標(biāo)，也就是把每個(gè)X_i與M的偏差求和。換句話講，是（單個(gè)數(shù)據(jù)點(diǎn)—數(shù)據(jù)點(diǎn)的平均）的總和。

看上去挺有邏輯性的，但是它有兩個(gè)缺點(diǎn)。

第一個(gè)困難是：上述定義的結(jié)果永遠(yuǎn)是0。根據(jù)定義，高出均值的和永遠(yuǎn)等于低于均值的和，因此它們相互抵消?？梢匀〔钪档慕^對(duì)值來解決（也就是說，忽略負(fù)值的符號(hào)），但是由于各種神秘兮兮的原因，統(tǒng)計(jì)學(xué)家不喜歡絕對(duì)值。另外一個(gè)剔除負(fù)號(hào)的方法是取平方，因?yàn)槿魏螖?shù)的平方肯定是正的。所以，我們就有Σ(X_i-M)²。

另外一個(gè)問題是當(dāng)我們增加數(shù)據(jù)點(diǎn)后此等式的結(jié)果會(huì)隨之增大。比如我們手頭有25個(gè)值的樣本，根據(jù)前面公式計(jì)算出SD是10。如果再加25個(gè)一模一樣的樣本，直覺上50個(gè)大樣本的數(shù)據(jù)點(diǎn)分布情況應(yīng)該不變。但是我們的公式會(huì)產(chǎn)生更大的SD值。好在我們可以通過除以數(shù)據(jù)點(diǎn)數(shù)量N來彌補(bǔ)這個(gè)漏洞。所以等式就變成Σ(X_i-M)²/N.

根據(jù)墨菲定律，我們解決了兩個(gè)問題，就會(huì)隨之產(chǎn)生兩個(gè)新問題。

第一個(gè)問題（或者我們應(yīng)該稱為第三個(gè)問題，這樣能與前面的相銜接）是用平方表達(dá)偏差。假設(shè)我們測量自閉癥兒童的IQ。也許會(huì)發(fā)現(xiàn)IQ均值是75, 散布程度是100 個(gè)IQ點(diǎn)平方。這IQ點(diǎn)平方又是什么東西？不過這容易處理：用結(jié)果的平方根替代，這樣結(jié)果就與原來的測量單位一致。所以上面的例子中的散布程度就是10個(gè)IQ點(diǎn)，變得更加容易理解。

最后一個(gè)問題是目前的公式是一個(gè)有偏估計(jì)，也就是說，結(jié)果總是高于或者低于真實(shí)的值。解釋稍微有點(diǎn)復(fù)雜，先要繞個(gè)彎。在多數(shù)情況下，我們做研究的時(shí)候，更感興趣樣本來自的總體（population）。比如，我們探查有年輕男性精神分裂癥患者的家庭中的外現(xiàn)情緒（expressed emotion，EE)水平時(shí)，我們的興趣點(diǎn)是所有滿足此條件的家庭（總體），而不單單是哪些受研究的家庭。我們的工作便是從樣本中估計(jì)出總體的均值（mean）和SD。因?yàn)檠芯渴褂玫闹皇菢颖荆赃@些估計(jì)會(huì)與總體的值未知程度的偏差。理想情況下，計(jì)算SD的時(shí)候我們應(yīng)當(dāng)知道每個(gè)家庭的分值(score)偏離總體均值的程度，但是我們手頭只有樣本的均值。

根據(jù)定義，分值樣本偏離樣本均值的程度要小于偏離其他值，因此使用樣本均值減去分值得到的結(jié)果總是比用總體均值（還不知道）減去分值要小，公式產(chǎn)生的結(jié)果也就偏?。ó?dāng)然N很大的時(shí)候，這個(gè)偏差就可以忽略）。為了糾正這個(gè)問題，我們會(huì)用N-1除，而不是N?？傊詈笪覀兊玫搅诵拚臉?biāo)準(zhǔn)差的（估計(jì)）公式（稱為樣本標(biāo)準(zhǔn)差）：

image

順帶一下，不要直接使用此公式計(jì)算SD，會(huì)產(chǎn)生很多舍入誤差(rounding error)。統(tǒng)計(jì)學(xué)書一般會(huì)提供另外一個(gè)等同的公式，能獲得更加精確的值。

現(xiàn)在我們完成了所有推導(dǎo)工作，這意味著什么呢？

假設(shè)數(shù)據(jù)是正態(tài)分布的，一旦知道了均值和SD，我們便知道了分值分布的所有情況。對(duì)于任一個(gè)正態(tài)分布，大概2/3（精確的是68.2%）的分值會(huì)落在均值-1 SD和均值+1 SD之間，95.4%的在均值-2 SD 和均值+2 SD之間。比如，大部分研究生或者職業(yè)院校的入學(xué)考試（GRE,MCAT,LSAT和其他折磨人的手段）的分?jǐn)?shù)分布（正態(tài)）就設(shè)計(jì)成均值500，SD 100。這意味68%的人得分在400到600之間，略超過95%的人在300到700之間。使用正態(tài)曲線的概率表，我們就能準(zhǔn)確指出低于或者高于某個(gè)分?jǐn)?shù)的比例是多少。相反的，如果我們想讓5%的人淘汰掉，如果知道當(dāng)年測試的均值和SD，依靠概率表，我們就能準(zhǔn)確劃出最低分?jǐn)?shù)線。

總結(jié)一下，SD告訴我們分值圍繞均值的分布情況。現(xiàn)在我們轉(zhuǎn)向標(biāo)準(zhǔn)誤差（standard error）。

標(biāo)準(zhǔn)誤差(Standard Error)

前面我提到過大部分研究的目的是估計(jì)某個(gè)總體(population)的參數(shù)，比如均值和SD（標(biāo)準(zhǔn)方差）。一旦有了估計(jì)值，另外一個(gè)問題隨之而來：這個(gè)估計(jì)的精確程度如何？這問題看上去無解。我們實(shí)際上不知道確切的總體參數(shù)值，所以怎么能評(píng)價(jià)估計(jì)值的接近程度呢？挺符合邏輯的推理。但是以前的統(tǒng)計(jì)學(xué)家們沒有被嚇倒，我們也不會(huì)。我們可以求助于概率：（問題轉(zhuǎn)化成）真實(shí)總體均值處于某個(gè)范圍內(nèi)的概率有多大？（格言：統(tǒng)計(jì)意味著你不需要把話給說絕了。）

回答這個(gè)疑問的一種方法重復(fù)研究（實(shí)驗(yàn)）幾百次，獲得很多均值估計(jì)。然后取這些均值估計(jì)的均值，同時(shí)也得出它的標(biāo)準(zhǔn)方差（估計(jì)）。然后用前面提到的概率表，我們可估計(jì)出一個(gè)范圍，包括90%或者95%的這些均值估計(jì)。如果每個(gè)樣本是隨機(jī)的，我們就可以安心地說真實(shí)的（總體）均值90%或者95%會(huì)落在這個(gè)范圍內(nèi)。我們給這些均值估計(jì)的標(biāo)準(zhǔn)差取一個(gè)新名字：均值的標(biāo)準(zhǔn)誤差（the standard error of the mean），縮寫是SEM,或者，如果不存在混淆，直接用SE代表。

但是首先得處理一個(gè)小紕漏：重復(fù)研究（實(shí)驗(yàn)）幾百次?，F(xiàn)今做一次研究已經(jīng)很困難了，不要說幾百次了（即使你能花費(fèi)整個(gè)余生來做這些實(shí)驗(yàn)）。好在一向給力的統(tǒng)計(jì)學(xué)家們已經(jīng)想出了基于單項(xiàng)研究（實(shí)驗(yàn)）確定SE的方法。讓我們先從直觀的角度來講：是哪些因素影響了我們對(duì)估計(jì)精確性的判斷？一個(gè)明顯的因素是研究的規(guī)模。樣本規(guī)模N越大，反常數(shù)據(jù)對(duì)結(jié)果的影響就越小，我們的估計(jì)就越接近總體的均值。所以，N應(yīng)該出現(xiàn)在計(jì)算SE公式的分母中：因?yàn)?em>N越大，SE越小。類似的，第二因素是：數(shù)據(jù)的波動(dòng)越小，我們越相信均值估計(jì)能精確反映它們。所以，SD應(yīng)該出現(xiàn)在計(jì)算公式的分子上：SD越大，SE越大。因此我們得出以下公式：

image

(為什么不是N? 因?yàn)閷?shí)際是我們是在用N除方差SD²，我們實(shí)際不想再用平方值，所以就又采用平方根了。)

所以，SD實(shí)際上反映的是數(shù)據(jù)點(diǎn)的波動(dòng)情況，而SE則是均值的波動(dòng)情況。

置信區(qū)間(Confidence Interval)

前面一節(jié)，針對(duì)SE，我們提到了某個(gè)值范圍。我們有95%或者99%的信心認(rèn)為真實(shí)值就處在當(dāng)中。我們稱這個(gè)值范圍為“置信區(qū)間”，縮寫是CI。讓我們看看它是如何計(jì)算的?？凑龖B(tài)分布表，你會(huì)發(fā)現(xiàn)95%的區(qū)域處在-1.96 SD 和+1.96 SD 之間。回顧到前面的GRE和MCAT的例子，分?jǐn)?shù)均值是500，SD是100，這樣95%的分?jǐn)?shù)處在304和696之間。如何得到這兩個(gè)值呢？首先，我們把SD乘上1.96，然后從均值中減去這部分，便得到下限304。如果加到均值上我們便得到上限696。CI也是這樣計(jì)算的，不同的地方是我們用SE替代SD。所以計(jì)算95%的CI的公式是：95%CI= 均值± ( 1.96 x SE)。

選擇SD, SE和CI

好了，現(xiàn)在我們有SD, SE和CI。問題也隨之而來：什么時(shí)候用？選擇哪個(gè)指標(biāo)呢？很明顯，當(dāng)我們描述研究結(jié)果時(shí)，SD是必須報(bào)告的。根據(jù)SD和樣本大小，讀者很快就能獲知SE和任意的CI。如果我們再添加上SE和CI，是不是有重復(fù)之嫌？回答是：“YES”和“NO”兼有。

本質(zhì)上，我們是想告之讀者通常數(shù)據(jù)在不同樣本上是存在波動(dòng)的。某一次研究上獲得的數(shù)據(jù)不會(huì)與另外一次重復(fù)研究的結(jié)果一模一樣。我們想告之的是期望的差異到底有多大：可能波動(dòng)存在，但是沒有大到會(huì)修改結(jié)論，或者波動(dòng)足夠大，下次重復(fù)研究可能會(huì)得出相反的結(jié)論。

某種程度上來講，這就是檢驗(yàn)的顯著程度，P level 越低，結(jié)果的偶然性就越低，下次能重復(fù)出類似結(jié)果的可能性越高。但是顯著性檢驗(yàn)，通常是黑白分明的：結(jié)果要么是顯著的，要么不是。如果兩個(gè)實(shí)驗(yàn)組的均值差別只是勉強(qiáng)通過了P < 0.05的紅線，也經(jīng)常被當(dāng)成一個(gè)很穩(wěn)定的結(jié)果。如果我們在圖表中加上CI，讀者就很容易確定樣本和樣本間的數(shù)據(jù)波動(dòng)會(huì)有多大，但是我們選擇哪個(gè)CI呢？

我們會(huì)在圖表上加上error bar（誤差條，很難聽），通常等同于1個(gè)SE。好處是不用選擇SE或者CI了（它們指向的是一樣的東西），也無過多的計(jì)算。不幸的這種方法傳遞了很少有用信息。一個(gè)error bar (-1 SE,+1 SE )等同于68%的CI；代表我們有68%的信心真的均值（或者2個(gè)實(shí)驗(yàn)組的均值的差別）會(huì)落在這個(gè)范圍內(nèi)。糟糕的是，我們習(xí)慣用95%，99% 而不是68%。所以讓忘記加上SE吧，傳遞的信息量太少了，它的主要用途是計(jì)算CI。

那么把error bar加長吧，用2個(gè)SE如何？這好像有點(diǎn)意思，2是1.96的不錯(cuò)估計(jì)。有兩方面的好處。首先這個(gè)方法能顯示95%的CI，比68%更有意義。其次能讓我們用眼睛檢驗(yàn)差別的顯著性（至少在2個(gè)實(shí)驗(yàn)組的情況下是如此）。如果下面bar的頂部和上面bar的底部沒有重疊，兩個(gè)實(shí)驗(yàn)組的差異必定是顯著的（5%的顯著水平）。因此我們會(huì)說，這2個(gè)組間存在顯著差別。如果我們做t-test，結(jié)果會(huì)驗(yàn)證這個(gè)發(fā)現(xiàn)。這種方法對(duì)超過2個(gè)組的情況就不那么精確了。因?yàn)樾枰啻伪容^（比如，組1和組2，組2和組3，組1和組3），但是至少能給出差別的粗略指示。在表格中展示CI的時(shí)候，你應(yīng)該給出確切的數(shù)值（乘以1.96而不是2）。

總結(jié)

SD反映的是數(shù)據(jù)點(diǎn)圍繞均值的分布狀況，是數(shù)據(jù)報(bào)告中必須有的指標(biāo)。SE則反映了均值波動(dòng)的情況，是研究重復(fù)多次后，期望得到的差異程度。SE自身不傳遞很多有用的信息，主要功能是計(jì)算95%和99%的CI。 CI是顯著性檢驗(yàn)的補(bǔ)充，反映的是真實(shí)的均值或者均值差別的范圍。

一些期刊已把顯著性檢驗(yàn)拋棄了，CI取而代之。這可能走過頭了。因?yàn)檫@兩種方法各有優(yōu)點(diǎn)，也均會(huì)被誤用。比如，一項(xiàng)小樣本研究可能發(fā)現(xiàn)控制組和實(shí)驗(yàn)組間的差別顯著（0.05的顯著水平）。如果在結(jié)果展示加上CI，讀者會(huì)很容易看到CI十分寬，說明對(duì)差別的估計(jì)是很粗糙的。與之相反，大量鼓吹的被二手煙影響的人數(shù)，實(shí)際上不是一個(gè)均值估計(jì)。最好的估計(jì)是0，它有很寬的CI，報(bào)道的卻只是CI的上限。

總之，SD、顯著性檢驗(yàn)，95%或者99% 的CI，均應(yīng)該加在報(bào)告中，有利于讀者理解研究結(jié)果。它們均有信息量，能相互補(bǔ)充，而不是替代。相反，“裸”的SE的并不能告訴我們什么信息**，多占據(jù)了一些篇幅和空間而已。

轉(zhuǎn)載其他人博客：鏈接

https://blog.csdn.net/zzminer/article/details/8939244?utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromMachineLearnPai2%7Edefault-1.control&dist_request_id=1331302.267.16182420970660717&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromMachineLearnPai2%7Edefault-1.control

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

27 - 標(biāo)準(zhǔn)差(Standard Deviation) 與標(biāo)準(zhǔn)誤差(Standard Error)

27 - 標(biāo)準(zhǔn)差(Standard Deviation) 與標(biāo)準(zhǔn)誤差(Standard Error)

標(biāo)準(zhǔn)差(Standard Deviation)

標(biāo)準(zhǔn)誤差(Standard Error)

置信區(qū)間(Confidence Interval)

選擇SD, SE和CI

總結(jié)

轉(zhuǎn)載其他人博客：鏈接

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

27 - 標(biāo)準(zhǔn)差(Standard Deviation) 與標(biāo)準(zhǔn)誤差(Standard Error)

標(biāo)準(zhǔn)差(Standard Deviation)

標(biāo)準(zhǔn)誤差(Standard Error)

置信區(qū)間(Confidence Interval)

選擇SD, SE和CI

總結(jié)

轉(zhuǎn)載其他人博客：鏈接

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av