最大熵模型

目錄:

一、最大熵原理

二、最大熵模型

三、對偶函數(shù)的極大化等價(jià)于最大熵模型的極大似然函數(shù)估計(jì)的證明

在介紹最大熵模型之前,先來簡單介紹下最大熵原理。

一、最大熵原理

最大熵原理是概率模型學(xué)習(xí)的一個(gè)準(zhǔn)則。

最大熵原理認(rèn)為,學(xué)習(xí)概率模型時(shí),在所有可能的概率模型中,熵最大的模型是最好的模型。通常用約束條件來確定概率模型的集合。

所以,最大熵原理也可以表述為在滿足約束條件的模型集合中選取熵最大的模型。

假設(shè)離散隨機(jī)變量X的概率分布是P(X),則熵是:

1-1

熵滿足下列不等式:

1-2

其中,?\vert X \vert 是X的取值個(gè)數(shù),當(dāng)且僅當(dāng)X的分布是均勻分布時(shí)右邊的等號成立。

即,當(dāng)X服從均勻分布時(shí),熵最大。

上下限的證明過程,如下:

1-3

其中,

1-4

(ai是X=xi的個(gè)數(shù),n為總數(shù))

1-5
1-6

所以原始式為:

1-7

注:?logn是一個(gè)大于等于0的數(shù),logn=logx且ai>=0

(1)上限的證明

首先,我們知道,

1-8

其中的每一項(xiàng)均大于等于0,所以其和大于等于0.

1-9

又因?yàn)閚>0,所以其乘積小于等于0

1-10

為了求其最大值,我們需要令不等式(1-10)為0,當(dāng)且僅當(dāng)?a1=...=an=1時(shí),該不等式取0.

因此,當(dāng)且僅當(dāng)X的分布是均勻分布時(shí)右邊的等號成立。

(2)下限的證明

我們令aj=n,其余為0.

等式(1-7)的值為0.

綜上,證明結(jié)束。

二、最大熵模型

1、最大熵模型的定義

假設(shè)滿足所有的約束條件的模型集合為

2-1

定義在條件概率分布P(Y|X)上的條件熵為

2-2

模型滿足的條件:

(1)訓(xùn)練數(shù)據(jù)集

(2)聯(lián)合分布P(X,Y)的經(jīng)驗(yàn)分布

2-3

為訓(xùn)練數(shù)據(jù)中樣本(x,y)出現(xiàn)的頻數(shù)。

N:訓(xùn)練樣本容量

(3)邊緣分布P(X)

2-4

為訓(xùn)練數(shù)據(jù)中輸入x出現(xiàn)的頻數(shù)

(4)特征函數(shù)f(x,y):描述輸入x的輸出y之間的某一個(gè)事實(shí)

2-5

(5)特征函數(shù)f(x,y)關(guān)于經(jīng)驗(yàn)分布的期望值

2-6

(6)特征函數(shù)f(x,y)關(guān)于模型P(Y|X)與經(jīng)驗(yàn)分布的期望值

2-7

其中,根據(jù)概率統(tǒng)計(jì)的知識我們可知:

2-8

如果模型能夠獲取訓(xùn)練數(shù)據(jù)中的信息,那么就可以假設(shè)這兩個(gè)期望值相等

2-9

2-10

2、最大熵模型的學(xué)習(xí)

最大熵模型的學(xué)習(xí)就是求解最大熵模型的過程,下面簡單的講解下求解的過程。

(1)將最大熵模型等價(jià)于約束最優(yōu)化問題

對于給定的訓(xùn)練數(shù)據(jù)集

以及特征函數(shù)

2-11

(2)按照最優(yōu)化問題的習(xí)慣,將求最大值問題改寫為等價(jià)的求最小值問題

2-12
2-13
2-14

(3)引入拉格朗日乘子,定義拉格朗日乘子函數(shù)

2-15

將等式(2-12)(2-6)(2-7)代入到等式(2-15)中,得到等式(2-16):

2-16

因此原始問題則變?yōu)椋?/p>

2-17

(4)將原始問題轉(zhuǎn)換成對偶問題

因?yàn)槔窭嗜蘸瘮?shù)L(P,w)是P的凸函數(shù),原始問題的解與對偶問題的解是等價(jià)的。

因此我們將原始問題轉(zhuǎn)換為對偶問題:

2-18

(5)對對偶問題(2-18)進(jìn)行求解

① 求解對偶問題內(nèi)部的極小化問題。

我們(2-18)內(nèi)部的極小化問題是關(guān)于w的函數(shù),將其記作

2-19

其中

2-20

② 函數(shù)L(P,w)對P(y|x)的偏導(dǎo)數(shù)

2-21

③ 令偏導(dǎo)數(shù)為0,解得:

2-22

即,

2-23

④ 因?yàn)?/p>

2-24

所以

2-25

解得

2-26

因此我們令

2-27

⑤ 求解對偶問題外部的極大化問題

該問題解為

綜上,我么可以應(yīng)用最優(yōu)化算法求對偶函數(shù)的極大化,得到?w^* ,用來表達(dá) P^*\in C ,其中,

是學(xué)習(xí)到的最大熵模型,即最大熵模型的學(xué)習(xí)歸結(jié)為對偶函數(shù)的極大化。

三、對偶函數(shù)的極大化等價(jià)于最大熵模型的極大似然函數(shù)估計(jì)的證明

????????我們即將證明最大熵模型學(xué)習(xí)中的對偶函數(shù)極大化等價(jià)于最大熵模型的極大似然估計(jì)這一事實(shí)。

????????這樣,最大熵模型的學(xué)習(xí)問題就轉(zhuǎn)換為具體求解對數(shù)似然函數(shù)極大化或者對偶函數(shù)極大化的問題。

????????下面是證明過程。

則對偶函數(shù)的極大化

3-1

最大模型的極大似然估計(jì)

3-2

證明對偶函數(shù)的極大化等價(jià)于最大熵模型的極大似然估計(jì)。

即證明等式(3-1)與等式(3-2)相等即可。

3-3

證明:

(1)等式左邊:

根據(jù)?

?所以得到等式(3-4):

3-4

將等式(2-27)代入等式(3-4)中,得到等式(3-5):

3-5

根據(jù)?

?所以得到等式(3-6),

3-6

根據(jù)

所以得到等式(3-7),

3-7

(2)等式右邊:

3-8

將等式(3-8)整理可得等式(3-9),

3-9

將等式(2-24)代入,得到等式(3-10)(3-11),

3-10
3-11

即等式左邊等于右邊:

3-12

證明完畢。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容