搞懂極大似然估計(jì)與EM算法的定義及理清它們間的關(guān)系
寫在最前面的結(jié)論:
極大似然估計(jì)和EM算法都是對(duì)于概率模型而言的
極大似然是對(duì)概率模型參數(shù)學(xué)習(xí)優(yōu)化目標(biāo)的一種定義
EM算法是用于求解極大似然估計(jì)的一種迭代逼近的算法
機(jī)器學(xué)習(xí)的一大重要任務(wù):
根據(jù)一些已觀察到的證據(jù)(例如訓(xùn)練樣本)來(lái)對(duì)感興趣的未知變量(例如類別標(biāo)記)進(jìn)行估計(jì)
那么對(duì)于上面的任務(wù),一種有效的實(shí)現(xiàn)途徑就是使用概率模型
概率模型的本質(zhì)是,將機(jī)器學(xué)習(xí)任務(wù)歸結(jié)為計(jì)算變量的概率,其核心是基于可觀測(cè)變量推斷出位置變量的條件分布
假定所關(guān)心的變量的集合為Y,可觀測(cè)變量集合為O,不可觀測(cè)變量集合為I,則完全變量
,且
則基于概率模型的機(jī)器任務(wù)可以形式化地表示為
即,對(duì)于已經(jīng)訓(xùn)練好的模型
,給定一組觀測(cè)值O,且已知感興趣的未知變量Y的可能取值范圍,計(jì)算出所以可能的
,那個(gè)概率最大的Y就是模型給出的判斷
那么,如何從預(yù)先給出的訓(xùn)練數(shù)據(jù)集學(xué)習(xí)出概率模型的參數(shù)呢?
(1)定義優(yōu)化目標(biāo)——極大似然估計(jì)
一般使用極大似然估計(jì)
極大似然估計(jì) (maximize likelihood estimation, MLE):
在概率模型中,給定觀測(cè)數(shù)據(jù)作
為模型的訓(xùn)練樣本,訓(xùn)練出對(duì)應(yīng)的概率模型,即得到模型的參數(shù)
,使得基于此模型的產(chǎn)生觀測(cè)數(shù)據(jù)的條件概率(稱為似然)
最大化
所以極大似然估計(jì)是概率模型的一種優(yōu)化方法,可以表示為
前面已經(jīng)提到了,在概率模型中,有時(shí)既含有可觀測(cè)變量 (observable variable) O,又含有隱藏變量或潛在變量(latent variable) I
-
若只含有觀測(cè)變量
比如,貝葉斯分類器,可以不僅觀測(cè)到每個(gè)樣本的features(假設(shè)所有的與模型相關(guān)的features都被觀測(cè)到了),還可以知道每個(gè)樣本所屬的類別,則沒(méi)有隱變量,即
則此時(shí),給定數(shù)據(jù),可以直接用極大似然估計(jì)法來(lái)估計(jì)模型參數(shù)
-
若含有隱變量
比如,隱馬爾可夫模型 (hidden markov model, HMM)
則此時(shí)的優(yōu)化目標(biāo)仍然是極大似然估計(jì)(MLE),但是是含有隱變量的極大似然估計(jì),即
(2)求解優(yōu)化目標(biāo)
上面我們已經(jīng)談?wù)摿烁怕誓P蛥?shù)學(xué)習(xí)的一般步驟的第一步,即用極大似然估計(jì)來(lái)定義我們的優(yōu)化目標(biāo)
且對(duì)于可觀測(cè)數(shù)據(jù)的不同,把極大似然估計(jì)分成了兩種情況,即觀測(cè)數(shù)據(jù)是完全數(shù)據(jù)的情況,和觀測(cè)數(shù)據(jù)是不完全數(shù)據(jù)
的情況
而對(duì)于完全數(shù)據(jù)和不完全數(shù)據(jù),極大似然估計(jì)的求解難度是不一樣的:
對(duì)于完全數(shù)據(jù),它的優(yōu)化目標(biāo)中只含有待求解的
,使用常規(guī)的優(yōu)化目標(biāo)求解法即可,例如梯度下降、擬牛頓法,或者直接導(dǎo)數(shù)法也可以;
對(duì)于不完全數(shù)據(jù),其中有隱變量I的干擾,所以要想直接求解
是無(wú)法做到的
那么怎么解決含有隱含變量的極大似然估計(jì)?
這便是EM算法要做的事
下一篇文章將對(duì)EM算法的優(yōu)化思想進(jìn)行討論
參考資料:
(1) 周志華《機(jī)器學(xué)習(xí)》第14章《概率圖模型》
(2) 李航《統(tǒng)計(jì)學(xué)習(xí)方法》第9章《EM算法》
(3) 吳軍《數(shù)學(xué)之美》第5章《隱馬爾科夫模型》和第27章《上帝的算法——期望最大化算法》
