1. 最大熵原理
最大熵模型(Maximum Entropy Model)是通過(guò)最大熵原理推導(dǎo)實(shí)現(xiàn),那什么是最大熵原理?
熵是隨機(jī)變量不確定性大的度量,不確定性越大,熵值越大;若隨機(jī)變量變?yōu)槎ㄖ?,即某個(gè)值發(fā)生的概率為1,而其它事件都為0, 此時(shí)熵值為0,均勻分布是熵值最大的分布,也即“最不確定的分布”。
假設(shè)離散隨機(jī)變量 的概率分布是
,則其熵為:
熵滿(mǎn)足如下條件:
其中, 表示
的取值,當(dāng)
的分布是均勻分布時(shí),滿(mǎn)足左邊等號(hào),當(dāng)
是確定事件時(shí),滿(mǎn)足左邊的等號(hào)。
從上面可知,最大熵原理認(rèn)為該求解的概率模型滿(mǎn)足如下條件:
- 滿(mǎn)足事先已約束的條件;
- 然后在滿(mǎn)足這些條件的模型中選擇熵最大的模型,即讓不確定的信息等可能的發(fā)生;
2. 最大熵模型
將最大熵原理應(yīng)用到分類(lèi)問(wèn)題中即得到最大熵模型。假設(shè)分類(lèi)模型的一個(gè)條件概率分布 ,
表示輸入,
表示輸出。這個(gè)模型表示給定的輸入
,以條件概率
輸出
。
給定一個(gè)訓(xùn)練數(shù)據(jù)集
學(xué)習(xí)的目標(biāo)是用最大熵原理選擇最好的模型。
對(duì)于給定訓(xùn)練數(shù)據(jù)集,我們可以確定聯(lián)合分布的經(jīng)驗(yàn)分布
和邊緣分布
的經(jīng)驗(yàn)分布
,即:
其中, 表示訓(xùn)練數(shù)據(jù)中樣本
出現(xiàn)的頻數(shù),
表示訓(xùn)練數(shù)據(jù)集中
出現(xiàn)的頻數(shù)。
表示訓(xùn)練樣本的總?cè)萘俊?/p>
特征函數(shù) 表示輸入
和輸出
之間的某個(gè)約束。其定義為:
特征函數(shù) 關(guān)于經(jīng)驗(yàn)分布
的期望值為:
特征函數(shù) 關(guān)于模型
和經(jīng)驗(yàn)分布
的期望值為:
因?yàn)闄C(jī)器學(xué)習(xí)的目的就是從數(shù)據(jù)集中學(xué)得數(shù)據(jù)中包含的某種內(nèi)在信息,因此我們可以假設(shè)公式4和公式5相等,即
公式6就作為模型的約束條件,如果有 n 個(gè)特征函數(shù),則就有 n 個(gè)約束條件。
最大熵模型 假設(shè)滿(mǎn)足所有約束條件的模型集合為
定義在條件概率分布 上的條件熵為:
則模型集合 條件熵最大的模型成為最大熵模型
補(bǔ)充
條件概率的熵的公式為
因此最大熵模型如公式7所示。
總之,最大熵模型就是在滿(mǎn)足約束的模型集合中選擇條件概率分布 最大的模型。
3. 最大熵模型的學(xué)習(xí)
通過(guò)上述上述的描述,最大熵模型可以形式化為約束最優(yōu)化問(wèn)題,即
按照優(yōu)化習(xí)慣,通常將最大值優(yōu)化轉(zhuǎn)換為最小值優(yōu)化。即
公式10所得出的解就是最大熵模型學(xué)習(xí)的模型。
解決上述約束最優(yōu)化問(wèn)題,我們通過(guò)拉格朗日對(duì)偶性來(lái)進(jìn)行解決。
首先我們引入拉格朗日乘子,定義拉格朗日函數(shù)
為
因此,最優(yōu)化問(wèn)題的原始問(wèn)題為
對(duì)偶問(wèn)題
我們稱(chēng)公式10、11和12為原始問(wèn)題,公式13為原始問(wèn)題的對(duì)偶問(wèn)題,且原始問(wèn)題的解與對(duì)偶問(wèn)題的解是等價(jià)的,因此,公式11的解就是我們求解的模型。
我們首先求解對(duì)偶問(wèn)題公式13內(nèi)部的極小化問(wèn)題,該函數(shù)是關(guān)于
的函數(shù),我們將其記作:
稱(chēng)為對(duì)偶函數(shù),同時(shí)其解記為:
我們可以利用偏導(dǎo)數(shù)來(lái)求解公式15,即
由于 是凸函數(shù),我們我可令上式偏導(dǎo)數(shù)為0,在
的情況下,即可求出
, 即:
由于在概率論中,,因此需對(duì)公式17進(jìn)行歸一化,又
為常數(shù),因此:
其中
公式18、19表示的模型就是最大熵模型.然后求解對(duì)偶函數(shù)的極大化問(wèn)題
求得,得到最終模型。
4 極大似然估計(jì)
通過(guò)上面一小節(jié)的計(jì)算,我們已經(jīng)求出最大熵模型,但是此時(shí)該模型還是一個(gè)關(guān)于 的函數(shù),我們?nèi)绾吻蟪?
來(lái)求得最終的模型呢。
我們先來(lái)描述對(duì)數(shù)似然函數(shù),通過(guò)前面一章的邏輯回歸模型中的最大似然估計(jì),我們可知對(duì)數(shù)似然函數(shù)和熵在值上互為相反數(shù),又通過(guò)公式8得知條件概率的熵形式,因此我們可以得知,條件概率分布的對(duì)數(shù)似然函數(shù)
我們?cè)贈(zèng)_似然函數(shù)的定義方面證明上述公司的正確性。
在給定數(shù)據(jù)集,我們可求得當(dāng)前模型的似然函數(shù)為:
我們假設(shè)在訓(xùn)練集中出現(xiàn)了
,因此公式22可以轉(zhuǎn)化為:
表示訓(xùn)練數(shù)據(jù)集中總共有 k 種不同的輸入特征,我們對(duì)上市求其
次方,得:
對(duì)公式24求對(duì)數(shù)的:
因此對(duì)于 和
是等價(jià)的,
因此對(duì)于條件概率分布的對(duì)數(shù)似然函數(shù)
對(duì)于公式21-26的推導(dǎo),不具有嚴(yán)格的樹(shù)學(xué)理論,只是為了理解下面公式27做鋪墊。
一直訓(xùn)練數(shù)據(jù)的經(jīng)驗(yàn)概率分布條件概率分布
的對(duì)數(shù)似然函數(shù)表示為
將公式18和19帶入公式27可得:
公式28就是極大似然函數(shù)。上式最后兩步最后一項(xiàng)的轉(zhuǎn)化是因?yàn)? 是關(guān)于 x 的函數(shù),所以可以對(duì)
對(duì)
進(jìn)行累加得到
.
我們?cè)倏纯磳?duì)偶函數(shù) ,我們將
帶入公式11得:
公式29第三步到第四步用到下面公式進(jìn)行推導(dǎo):
倒數(shù)第二步到最后一步的推導(dǎo)用到了 .
比較公式公式28和公式29,可得:
因此,可以證明,最大熵模型學(xué)習(xí)中的對(duì)偶函數(shù)極大化等價(jià)于最大熵模型的極大似然估計(jì)。