為了理解為什么除以n會(huì)低估總體方差(population mean),我們會(huì)從幾個(gè)簡單的例子開始,然后用數(shù)學(xué)證明,一勞永逸地。
在第一個(gè)簡單的例子中,我想用0替換樣本均值(sample mean)x,看看會(huì)發(fā)生什么。現(xiàn)在我們把測(cè)量值和0之間的差值平方,然后計(jì)算平均?,F(xiàn)在我們把這個(gè)值畫出來。

當(dāng)x為樣本均值時(shí)方差最小,當(dāng)x為總體均值時(shí),方差要大于當(dāng)x為樣本均值時(shí)。也就是說,使用樣本均值時(shí),低估了總體均值的方差。

現(xiàn)在,我們可以對(duì)公式求導(dǎo),用它來確定v在不同值處曲線的斜率。當(dāng)斜率為0時(shí),我們就能求出方差最小的v值。提醒大家一下,導(dǎo)數(shù)對(duì)應(yīng)的是紫色直線的斜率。我們想求出v的值,使紫色線的斜率為0,因?yàn)檫@是我們能求出的最小方差。為了使這個(gè)問題更清楚,我們將用三種不同的方法來求導(dǎo)數(shù)為零和方差最小的地方。

第1種,我們將使用觀測(cè)數(shù)據(jù),找到方差最小的地方。
我們做的第一件事是把n代入5,因?yàn)槲覀冇?個(gè)測(cè)量值。然后計(jì)算當(dāng)斜率為0時(shí),v的值。

當(dāng)v=17.6,方差最小。我們發(fā)現(xiàn)當(dāng)v為樣本平均值時(shí)方差小于當(dāng)v為總體均值的方差。

第2種,我們就會(huì)找到任何5個(gè)測(cè)量值,方差最小的地方。
把n代入5,因?yàn)槲覀冇?個(gè)未知測(cè)量值。然后計(jì)算當(dāng)斜率為0時(shí),v的值。

我們發(fā)現(xiàn)不管我們5個(gè)測(cè)量值是多少,當(dāng)v為樣本均值時(shí),方差最小。
第3種,我們會(huì)講如何求出任意樣本的最小方差,不管樣本大小如何。
當(dāng)我們有n個(gè)測(cè)量值的樣本。然后計(jì)算當(dāng)斜率為0時(shí),v的值。

我們發(fā)現(xiàn)不管有多少個(gè)測(cè)量值,當(dāng)v為樣本均值時(shí),方差最小。
結(jié)論:因此,當(dāng)我們除以n時(shí),樣本均值的方差總是小于總體均值的方差。除非樣本均值和總體均值完全相同,這幾乎不會(huì)發(fā)生。
