正態(tài)分布被命名為高斯分布,我們也容易認(rèn)為是高斯發(fā)現(xiàn)了正態(tài)分布,其實(shí)不然,高斯分布最早由棣莫弗在1718年著作的書(shū)籍(Doctrine of Change),及1734年發(fā)表的一篇關(guān)于二項(xiàng)分布文章中提出的,不過(guò)高斯對(duì)于正態(tài)分布?xì)v史地位的確立起到了決定性的作用。本篇主要介紹一維高斯分布參數(shù)的極大似然估計(jì)如何計(jì)算。
一維高斯分布
對(duì)于一元實(shí)值變量,高斯分布被定義為
給定一個(gè)數(shù)據(jù)集,表示變量
的
次觀測(cè),這里假定每個(gè)觀測(cè)值是獨(dú)立地從高斯分布中抽取的,分布的均值
和方差
未知。
因此數(shù)據(jù)的聯(lián)合概率為
這里我們使用極大似然估計(jì)來(lái)估計(jì)高斯分布的參數(shù)。對(duì)數(shù)似然函數(shù)為
將高斯分布的分布函數(shù)代入得對(duì)數(shù)似然函數(shù)
對(duì)似然函數(shù)求偏導(dǎo)得
由第一式得出的解為
以此代入第二式,得到的解為
分別對(duì)和
求期望
我們可以看到是
的無(wú)偏估計(jì),而
則是有偏的,經(jīng)過(guò)修正得無(wú)偏估計(jì)
那么為什么一個(gè)有偏一個(gè)無(wú)偏呢?
我們注意到是關(guān)于樣本均值
的樣本方差。這是因?yàn)槲覀円瑫r(shí)關(guān)于
和
最大化函數(shù),但是在高斯分布的情況下,
的解和
的無(wú)關(guān)(
直接得到了
的解),因此我們先估計(jì)公式
,然后使用這個(gè)結(jié)果來(lái)估計(jì)公式
,感覺(jué)是在這個(gè)過(guò)程中
的估計(jì)便產(chǎn)生了偏移。如圖

當(dāng)樣本數(shù)量增大時(shí),最大似然解的偏移會(huì)逐漸變小,當(dāng)
時(shí),
的極限為1,方差的最大似然解與真實(shí)分布的真實(shí)方差相等。在實(shí)際應(yīng)?中,只要N的值不太小,那么偏移的現(xiàn)象不是個(gè)?問(wèn)題。但是對(duì)于那些帶有很多參數(shù)的模型,最大似然偏移的問(wèn)題會(huì)更加嚴(yán)重。實(shí)際上,在機(jī)器學(xué)習(xí)中,最大似然的偏移問(wèn)題是我們?cè)诙囗?xiàng)式曲線擬合問(wèn)題中遇到的過(guò)擬合問(wèn)題的核心(這里暫不做論證)。
參考:
陳希孺:概率論與數(shù)理統(tǒng)計(jì)
模式識(shí)別與機(jī)器學(xué)習(xí)(PRML)
維基百科