搞懂極大似然估計(jì)與EM算法的定義及理清它們間的關(guān)系

寫在最前面的結(jié)論：

極大似然估計(jì)和EM算法都是對(duì)于概率模型而言的

極大似然是對(duì)概率模型參數(shù)學(xué)習(xí)優(yōu)化目標(biāo)的一種定義

EM算法是用于求解極大似然估計(jì)的一種迭代逼近的算法

機(jī)器學(xué)習(xí)的一大重要任務(wù)：

根據(jù)一些已觀察到的證據(jù)（例如訓(xùn)練樣本）來(lái)對(duì)感興趣的未知變量（例如類別標(biāo)記）進(jìn)行估計(jì)

那么對(duì)于上面的任務(wù)，一種有效的實(shí)現(xiàn)途徑就是使用概率模型

概率模型的本質(zhì)是，將機(jī)器學(xué)習(xí)任務(wù)歸結(jié)為計(jì)算變量的概率，其核心是基于可觀測(cè)變量推斷出位置變量的條件分布

假定所關(guān)心的變量的集合為Y，可觀測(cè)變量集合為O，不可觀測(cè)變量集合為I，則完全變量 $U=\{O,I\}$ ，且 $Y\subset U$

則基于概率模型的機(jī)器任務(wù)可以形式化地表示為

$Y^*=arg \max_Y P(Y \mid O,\theta)$

即，對(duì)于已經(jīng)訓(xùn)練好的模型 $\theta$ ，給定一組觀測(cè)值O，且已知感興趣的未知變量Y的可能取值范圍，計(jì)算出所以可能的 $P(Y \mid O,\theta)$ ，那個(gè)概率最大的Y就是模型給出的判斷

那么，如何從預(yù)先給出的訓(xùn)練數(shù)據(jù)集學(xué)習(xí)出概率模型的參數(shù) $\theta$ 呢？

（1）定義優(yōu)化目標(biāo)——極大似然估計(jì)

一般使用極大似然估計(jì)

極大似然估計(jì) (maximize likelihood estimation, MLE)：

在概率模型中，給定觀測(cè)數(shù)據(jù)作 $O$ 為模型的訓(xùn)練樣本，訓(xùn)練出對(duì)應(yīng)的概率模型，即得到模型的參數(shù) $\theta$ ，使得基于此模型的產(chǎn)生觀測(cè)數(shù)據(jù)的條件概率（稱為似然） $P(O\mid \theta)$ 最大化

所以極大似然估計(jì)是概率模型的一種優(yōu)化方法，可以表示為

$\theta^*=arg \max_{\theta}P(O \mid \theta)$

前面已經(jīng)提到了，在概率模型中，有時(shí)既含有可觀測(cè)變量 (observable variable) O，又含有隱藏變量或潛在變量(latent variable) I

若只含有觀測(cè)變量

比如，貝葉斯分類器，可以不僅觀測(cè)到每個(gè)樣本的features（假設(shè)所有的與模型相關(guān)的features都被觀測(cè)到了），還可以知道每個(gè)樣本所屬的類別，則沒(méi)有隱變量，即 $U=\{O,I\},而\, I=\emptyset,則 \, U=O$

則此時(shí)，給定數(shù)據(jù)，可以直接用極大似然估計(jì)法來(lái)估計(jì)模型參數(shù)

$\theta^*=arg \max_Y P(O \mid \theta)$
若含有隱變量

比如，隱馬爾可夫模型 (hidden markov model, HMM)

則此時(shí)的優(yōu)化目標(biāo)仍然是極大似然估計(jì)(MLE)，但是是含有隱變量的極大似然估計(jì)，即

$\theta^*=arg \max_Y P(O \mid \theta)=arg \max_Y \sum_I P(O,I\mid \theta)$

（2）求解優(yōu)化目標(biāo)

上面我們已經(jīng)談?wù)摿烁怕誓Ｐ蛥?shù)學(xué)習(xí)的一般步驟的第一步，即用極大似然估計(jì)來(lái)定義我們的優(yōu)化目標(biāo)

且對(duì)于可觀測(cè)數(shù)據(jù)的不同，把極大似然估計(jì)分成了兩種情況，即觀測(cè)數(shù)據(jù)是完全數(shù)據(jù) $O \subseteq U$ 的情況，和觀測(cè)數(shù)據(jù)是不完全數(shù)據(jù) $O\subsetneq U$ 的情況

$\theta^*= \begin{cases} arg \max_Y P(O \mid \theta) , & if \quad O \subseteq U \\ arg \max_Y \sum_I P(O,I\mid \theta), & if \quad O\subsetneq U \end{cases}$

而對(duì)于完全數(shù)據(jù)和不完全數(shù)據(jù)，極大似然估計(jì)的求解難度是不一樣的：

對(duì)于完全數(shù)據(jù)，它的優(yōu)化目標(biāo)中只含有待求解的 $\theta$ ，使用常規(guī)的優(yōu)化目標(biāo)求解法即可，例如梯度下降、擬牛頓法，或者直接導(dǎo)數(shù)法也可以；

對(duì)于不完全數(shù)據(jù)，其中有隱變量I的干擾，所以要想直接求解 $\theta$ 是無(wú)法做到的

那么怎么解決含有隱含變量的極大似然估計(jì)？

這便是EM算法要做的事

下一篇文章將對(duì)EM算法的優(yōu)化思想進(jìn)行討論

參考資料：

(1) 周志華《機(jī)器學(xué)習(xí)》第14章《概率圖模型》

(2) 李航《統(tǒng)計(jì)學(xué)習(xí)方法》第9章《EM算法》

(3) 吳軍《數(shù)學(xué)之美》第5章《隱馬爾科夫模型》和第27章《上帝的算法——期望最大化算法》

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

【理解機(jī)器學(xué)習(xí)（一）】理解極大似然估計(jì)和EM算法（上）

【理解機(jī)器學(xué)習(xí)（一）】理解極大似然估計(jì)和EM算法（上）

搞懂極大似然估計(jì)與EM算法的定義及理清它們間的關(guān)系

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

【理解機(jī)器學(xué)習(xí)（一）】理解極大似然估計(jì)和EM算法（上）

搞懂極大似然估計(jì)與EM算法的定義及理清它們間的關(guān)系

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av