高斯分布參數(shù)的極大似然估計(jì)

正態(tài)分布被命名為高斯分布,我們也容易認(rèn)為是高斯發(fā)現(xiàn)了正態(tài)分布,其實(shí)不然,高斯分布最早由棣莫弗在1718年著作的書(shū)籍(Doctrine of Change),及1734年發(fā)表的一篇關(guān)于二項(xiàng)分布文章中提出的,不過(guò)高斯對(duì)于正態(tài)分布?xì)v史地位的確立起到了決定性的作用。本篇主要介紹一維高斯分布參數(shù)的極大似然估計(jì)如何計(jì)算。

一維高斯分布

對(duì)于一元實(shí)值變量x,高斯分布被定義為
N\left( x|\mu ,\sigma ^2 \right) =\frac{1}{\left( 2\pi \sigma ^2 \right) ^{\frac{1}{2}}}\exp \left\{ -\frac{1}{2\sigma ^2}\left( x-\mu \right) ^2 \right\}

給定一個(gè)數(shù)據(jù)集\boldsymbol{x}=\left( x_1,x_{2,}...,x_N \right) ^T,表示變量xN次觀測(cè),這里假定每個(gè)觀測(cè)值是獨(dú)立地從高斯分布中抽取的,分布的均值\mu 和方差\sigma ^2未知。
因此數(shù)據(jù)的聯(lián)合概率為
p\left( \boldsymbol{x|}\mu ,\sigma ^2 \right) =\prod_{i=1}^N{N\left( x_i|\mu ,\sigma ^2 \right)}
這里我們使用極大似然估計(jì)來(lái)估計(jì)高斯分布的參數(shù)。對(duì)數(shù)似然函數(shù)為

\ln L=\ln p\left( \boldsymbol{x|}\mu ,\sigma ^2 \right) =\ln \prod_{n=1}^N{N\left( x_n|\mu ,\sigma ^2 \right)}

將高斯分布的分布函數(shù)代入得對(duì)數(shù)似然函數(shù)
\ln L=\ln p\left( \boldsymbol{x|}\mu ,\sigma ^2 \right) =-\frac{1}{2\sigma ^2}\sum_{n=1}^N{\left( x_n-\mu \right)}^2-\frac{N}{2}\ln \sigma ^2-\frac{N}{2}\ln \left( 2\pi \right)
對(duì)似然函數(shù)求偏導(dǎo)得
\left\{ \begin{array}{c} \frac{\partial \ln L}{\partial \mu}=\frac{1}{\sigma ^2}\sum_{i=1}^N{\left( x_i-\mu \right) =0}\\ \frac{\partial \ln L}{\partial \left( \sigma ^2 \right)}=-\frac{N}{2\sigma ^2}+\frac{1}{2\sigma ^4}\sum_{i=1}^N{\left( x_i-\mu \right) ^2}=0\\ \end{array} \right.
由第一式得出\mu的解為

\mu_{MLE}=\frac{1}{N}\sum\limits _{i=1}^{N}x_{i}
以此代入第二式,得到\sigma^2的解為
\sigma_{MLE}^{2}=\frac{1}{N}\sum\limits _{i=1}^{N}(x_{i}-\mu_{MLE})^{2}
分別對(duì)\mu\sigma^2求期望
E\left[ \mu _{MLE} \right] =E\left[ \frac{1}{N}\sum\limits_{i=1}^N{x}_i \right] =\frac{1}{N}\sum_{i=1}^N{E\left[ x_i \right] =\mu}

\begin{aligned} E\left[ \sigma _{MLE}^{2} \right] &=E\left[ \frac{1}{N}\sum\limits_{i=1}^N{\left( x_i-\mu _{MLE} \right)}^2 \right] =E\text{[}\frac{1}{N}\sum\limits_{i=1}^N{\left( x_{i}^{2}-2x_i\mu _{MLE}+\mu _{MLE}^{2} \right)}\\ &=E\left[ \frac{1}{N}\sum\limits_{i=1}^N{x}_{i}^{2}-\mu _{MLE}^{2} \right] =\frac{1}{N}\sum_{i=1}^N{E\left[ x_i^2 \right] -E\left[ \mu _{MLE}^{2} \right]}\\ &=\frac{1}{N}\sum_{i=1}^N{\left[ var\left( x_i \right) +E^2\left( x_i \right) \right] -\left[ var\left( \mu _{MLE} \right) +E^2\left( \mu _{MLE} \right) \right]}\\ &=\frac{1}{N}\left( N\sigma ^2+N\mu ^2 \right) -\left[ var\left( \frac{1}{N}\sum_{i=1}^N{x_i} \right) +\mu ^2 \right]\\ &=\sigma ^2+\mu ^2-\left[ \frac{1}{N^2}\left( N\sigma ^2 \right) +\mu ^2 \right]\\ &=\sigma ^2+\mu ^2-\frac{1}{N}\sigma ^2-\mu ^2\\ &=\frac{N-1}{N}\sigma ^2\\ \end{aligned}

我們可以看到\mu_{MLE}\mu的無(wú)偏估計(jì),而\sigma_{MLE}^{2}則是有偏的,經(jīng)過(guò)修正得無(wú)偏估計(jì)\hat{\sigma}^{2}=\frac{1}{N-1}\sum\limits _{i=1}^{N}(x_{i}-\mu_{MLE})^{2}

那么為什么一個(gè)有偏一個(gè)無(wú)偏呢?

我們注意到\sigma_{MLE}^{2}是關(guān)于樣本均值\mu_{MLE}的樣本方差。這是因?yàn)槲覀円瑫r(shí)關(guān)于\mu\sigma^2最大化函數(shù),但是在高斯分布的情況下,\mu的解和\sigma^2的無(wú)關(guān)(\frac{\partial \ln L}{\partial \mu}直接得到了\mu的解),因此我們先估計(jì)公式\frac{\partial \ln L}{\partial \mu},然后使用這個(gè)結(jié)果來(lái)估計(jì)公式\frac{\partial \ln L}{\partial \left( \sigma ^2 \right)},感覺(jué)是在這個(gè)過(guò)程中\sigma^2的估計(jì)便產(chǎn)生了偏移。如圖

PRML

當(dāng)樣本數(shù)量N增大時(shí),最大似然解的偏移會(huì)逐漸變小,當(dāng)N\rightarrow \infty時(shí),\frac{N-1}{N}的極限為1,方差的最大似然解與真實(shí)分布的真實(shí)方差相等。在實(shí)際應(yīng)?中,只要N的值不太小,那么偏移的現(xiàn)象不是個(gè)?問(wèn)題。但是對(duì)于那些帶有很多參數(shù)的模型,最大似然偏移的問(wèn)題會(huì)更加嚴(yán)重。實(shí)際上,在機(jī)器學(xué)習(xí)中,最大似然的偏移問(wèn)題是我們?cè)诙囗?xiàng)式曲線擬合問(wèn)題中遇到的過(guò)擬合問(wèn)題的核心(這里暫不做論證)。

參考:
陳希孺:概率論與數(shù)理統(tǒng)計(jì)
模式識(shí)別與機(jī)器學(xué)習(xí)(PRML)
維基百科

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容