用個簡單的例子馬上就懂了:
1.你的數(shù)據(jù):假設你現(xiàn)在從 100 個病人中收集到了一組數(shù)字(每個人的身高)。
2.你的任務:你需要用這組數(shù)字來估計整個人群的身高波動即標準差(比如估計我們國家,共有13億),但你只能使用你手頭的這些數(shù)字。
關鍵點來了!
一個重要的假設是:由于你沒有所有可能的數(shù)據(jù)(因為你只取了一部分,即“樣本”),所以你的估計可能會有一點偏差,這種偏差往往是對樣本波動性的估計過低。
理解上面這一句話非常重要,當你只取了 100 個樣本時,實際上你的這一百個樣本的波動性(不確定性)是要小于于總體樣本的。因為,我們知道,當樣本數(shù)量增加,數(shù)據(jù)的極端值往往會增加。
再舉個例子,你在人群中抽樣10個人、甚至是100個人,大概率抽不到姚明這么高的。但是當你增加抽樣次數(shù),抽1千萬個樣本,總會有幾百個2米多的壯漢。應了那句古話,林子大了什么鳥都有!
所以,當你使用樣本標準差估計整體標準差時,你可能忽略了“林子大了”(整體樣本)以后鳥(數(shù)據(jù))的多樣性。所以分母除以n-1,實際上是在樣本標準差的條件下增加了我們對總體波動性的估計。(分母減少,數(shù)值增大)