【理解機(jī)器學(xué)習(xí)(一)】理解極大似然估計(jì)和EM算法(上)

搞懂極大似然估計(jì)與EM算法的定義及理清它們間的關(guān)系


寫在最前面的結(jié)論:

極大似然估計(jì)和EM算法都是對(duì)于概率模型而言的

極大似然是對(duì)概率模型參數(shù)學(xué)習(xí)優(yōu)化目標(biāo)的一種定義

EM算法是用于求解極大似然估計(jì)的一種迭代逼近的算法


機(jī)器學(xué)習(xí)的一大重要任務(wù):

根據(jù)一些已觀察到的證據(jù)(例如訓(xùn)練樣本)來(lái)對(duì)感興趣的未知變量(例如類別標(biāo)記)進(jìn)行估計(jì)

那么對(duì)于上面的任務(wù),一種有效的實(shí)現(xiàn)途徑就是使用概率模型

概率模型的本質(zhì)是,將機(jī)器學(xué)習(xí)任務(wù)歸結(jié)為計(jì)算變量的概率,其核心是基于可觀測(cè)變量推斷出位置變量的條件分布

假定所關(guān)心的變量的集合為Y,可觀測(cè)變量集合為O,不可觀測(cè)變量集合為I,則完全變量U=\{O,I\},且Y\subset U

則基于概率模型的機(jī)器任務(wù)可以形式化地表示為

Y^*=arg \max_Y P(Y \mid O,\theta)

即,對(duì)于已經(jīng)訓(xùn)練好的模型\theta,給定一組觀測(cè)值O,且已知感興趣的未知變量Y的可能取值范圍,計(jì)算出所以可能的P(Y \mid O,\theta),那個(gè)概率最大的Y就是模型給出的判斷

那么,如何從預(yù)先給出的訓(xùn)練數(shù)據(jù)集學(xué)習(xí)出概率模型的參數(shù)\theta呢?

(1)定義優(yōu)化目標(biāo)——極大似然估計(jì)

一般使用極大似然估計(jì)

極大似然估計(jì) (maximize likelihood estimation, MLE):

在概率模型中,給定觀測(cè)數(shù)據(jù)作O為模型的訓(xùn)練樣本,訓(xùn)練出對(duì)應(yīng)的概率模型,即得到模型的參數(shù)\theta,使得基于此模型的產(chǎn)生觀測(cè)數(shù)據(jù)的條件概率(稱為似然)P(O\mid \theta)最大化

所以極大似然估計(jì)是概率模型的一種優(yōu)化方法,可以表示為

\theta^*=arg \max_{\theta}P(O \mid \theta)

前面已經(jīng)提到了,在概率模型中,有時(shí)既含有可觀測(cè)變量 (observable variable) O,又含有隱藏變量或潛在變量(latent variable) I

  • 若只含有觀測(cè)變量

    比如,貝葉斯分類器,可以不僅觀測(cè)到每個(gè)樣本的features(假設(shè)所有的與模型相關(guān)的features都被觀測(cè)到了),還可以知道每個(gè)樣本所屬的類別,則沒(méi)有隱變量,即U=\{O,I\},而\, I=\emptyset,則 \, U=O

    則此時(shí),給定數(shù)據(jù),可以直接用極大似然估計(jì)法來(lái)估計(jì)模型參數(shù)

    \theta^*=arg \max_Y P(O \mid \theta)

  • 若含有隱變量

    比如,隱馬爾可夫模型 (hidden markov model, HMM)

    則此時(shí)的優(yōu)化目標(biāo)仍然是極大似然估計(jì)(MLE),但是是含有隱變量的極大似然估計(jì),即

    \theta^*=arg \max_Y P(O \mid \theta)=arg \max_Y \sum_I P(O,I\mid \theta)

(2)求解優(yōu)化目標(biāo)

上面我們已經(jīng)談?wù)摿烁怕誓P蛥?shù)學(xué)習(xí)的一般步驟的第一步,即用極大似然估計(jì)來(lái)定義我們的優(yōu)化目標(biāo)

且對(duì)于可觀測(cè)數(shù)據(jù)的不同,把極大似然估計(jì)分成了兩種情況,即觀測(cè)數(shù)據(jù)是完全數(shù)據(jù)O \subseteq U的情況,和觀測(cè)數(shù)據(jù)是不完全數(shù)據(jù)O\subsetneq U的情況

\theta^*= \begin{cases} arg \max_Y P(O \mid \theta) , & if \quad O \subseteq U \\ arg \max_Y \sum_I P(O,I\mid \theta), & if \quad O\subsetneq U \end{cases}

而對(duì)于完全數(shù)據(jù)和不完全數(shù)據(jù),極大似然估計(jì)的求解難度是不一樣的:

  • 對(duì)于完全數(shù)據(jù),它的優(yōu)化目標(biāo)中只含有待求解的\theta,使用常規(guī)的優(yōu)化目標(biāo)求解法即可,例如梯度下降、擬牛頓法,或者直接導(dǎo)數(shù)法也可以;

  • 對(duì)于不完全數(shù)據(jù),其中有隱變量I的干擾,所以要想直接求解\theta是無(wú)法做到的

那么怎么解決含有隱含變量的極大似然估計(jì)?

這便是EM算法要做的事

下一篇文章將對(duì)EM算法的優(yōu)化思想進(jìn)行討論


參考資料:

(1) 周志華《機(jī)器學(xué)習(xí)》第14章《概率圖模型》

(2) 李航《統(tǒng)計(jì)學(xué)習(xí)方法》第9章《EM算法》

(3) 吳軍《數(shù)學(xué)之美》第5章《隱馬爾科夫模型》和第27章《上帝的算法——期望最大化算法》

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容