邏輯斯諦回歸與最大熵模型
- 邏輯斯諦回歸模型
- 最大熵模型
- 最大熵模型的學(xué)習(xí)
邏輯斯諦回歸(logistic regression)是統(tǒng)計(jì)學(xué)習(xí)中的經(jīng)典分類(lèi)方法。最大熵是概率模型學(xué)習(xí)的一個(gè)準(zhǔn)則,將其推廣到分類(lèi)問(wèn)題得到最大熵模型(maximum entropy model)。邏輯斯諦回歸模型與最大熵模型都屬于對(duì)數(shù)線(xiàn)性模型。
邏輯斯諦回歸模型
-
邏輯斯諦分布:設(shè)是連續(xù)隨機(jī)變量,
服從邏輯斯諦分布是指
具有下列分布函數(shù)和密度函數(shù)
式中,為位置參數(shù),
為形狀參數(shù)。
- 邏輯斯諦分布函數(shù),其圖像是一條 S 形曲線(xiàn)。該曲線(xiàn)以點(diǎn)
為中心對(duì)稱(chēng),即滿(mǎn)足
曲線(xiàn)在中心附近增長(zhǎng)速度較快,在兩端增長(zhǎng)速度較慢。形狀參數(shù)的值越小,曲線(xiàn)在中心附近增長(zhǎng)得越快。
- 二項(xiàng)邏輯斯諦回歸模型(binomial logistic regression model)是一種分類(lèi)模型,由條件概率分布
表示,形式為參數(shù)化的邏輯斯諦分布。這里,隨機(jī)變量
取值為實(shí)數(shù),隨機(jī)變量
取值為1或0。我們通過(guò)監(jiān)督學(xué)習(xí)的方法來(lái)估計(jì)模型參數(shù)。
- 二項(xiàng)邏輯斯諦回歸模型是如下的條件概率分布:
這里,是輸入,
是輸出,
和
是參數(shù),
稱(chēng)為權(quán)值向量,
稱(chēng)為偏置,
為
和
的內(nèi)積。
- 邏輯斯諦回歸比較兩個(gè)條件概率值的大小,將實(shí)例
分到概率值較大的那一類(lèi)。
- 為了方便,將
,
,這時(shí),邏輯斯諦回歸模型如下:
- 一個(gè)事件的
幾率(odds)是指該事件發(fā)生的概率與該事件不發(fā)生的概率的比值。如果事件發(fā)生的概率是,那么該事件的幾率是
,該事件的對(duì)數(shù)幾率(log odds)或 logit 函數(shù)是
對(duì)邏輯斯諦回歸而言
這就是說(shuō),在邏輯斯諦回歸模型中,輸出的對(duì)數(shù)幾率是輸入
的線(xiàn)性函數(shù)?;蛘哒f(shuō),輸出
的對(duì)數(shù)幾率是由輸入
的線(xiàn)性函數(shù)表示的模型,即邏輯斯諦回歸模型。
- 給定訓(xùn)練數(shù)據(jù)集
,其中
,
,可以應(yīng)用極大似然估計(jì)法估計(jì)模型參數(shù),從而得到邏輯斯諦回歸模型。
設(shè),
似然函數(shù)為
對(duì)數(shù)似然函數(shù)為
對(duì)求極大值,就得到
的估計(jì)值。
這樣,問(wèn)題就變成了以對(duì)數(shù)似然函數(shù)為目標(biāo)函數(shù)的最優(yōu)化問(wèn)題。邏輯斯諦回歸學(xué)習(xí)中通常采用的方法是梯度下降法及擬牛頓法。
- 二分類(lèi)邏輯斯諦模型,可以將其推廣為多項(xiàng)邏輯斯諦回歸模型(multi-nominal logistic regression model),用于多類(lèi)分類(lèi)。
最大熵模型
-
最大熵原理是概率模型學(xué)習(xí)的一個(gè)準(zhǔn)則。最大熵原理認(rèn)為,學(xué)習(xí)概率模型時(shí),在所有可能的概率模型(分布)中,熵最大的模型是最好的模型。通常用約束條件來(lái)確定概率模型的集合,所以,最大熵原理也可以表述為在滿(mǎn)足約束條件的模型集合中選取熵最大的模型。
- 假設(shè)離散隨機(jī)變量
的概率分布式
,則其熵是
熵滿(mǎn)足以下不等式
式中,是
取值的個(gè)數(shù),當(dāng)且僅當(dāng)
的分布式均勻分布時(shí)右邊的等號(hào)成立。也就是說(shuō),
服從均勻分布時(shí),熵最大。
- 直觀地,最大熵原理認(rèn)為要選擇的概率模型首先必須滿(mǎn)足已有的事實(shí),即約束條件。
在沒(méi)有更多信息的情況下,那些不確定的部分都是“等可能的”。
- 等概率表示了對(duì)事實(shí)的無(wú)知。
- 給定訓(xùn)練數(shù)據(jù)集
,確定聯(lián)合分布
的經(jīng)驗(yàn)分布和邊緣分布
的經(jīng)驗(yàn)分布,分別以
和
表示
其中,表示訓(xùn)練數(shù)據(jù)中樣本
出現(xiàn)的頻數(shù),
表示訓(xùn)練數(shù)據(jù)中輸入
出現(xiàn)的頻數(shù)。
表示訓(xùn)練樣本容量。
- 用特征函數(shù)
描述輸入
和輸出
之間的某一個(gè)事實(shí)。
它是一個(gè)二值函數(shù)。
- 特征函數(shù)
關(guān)于經(jīng)驗(yàn)分布
的期望值,用
表示
特征函數(shù)關(guān)于模型
與經(jīng)驗(yàn)分布
的期望值,用
表示
如果模型能夠獲取訓(xùn)練數(shù)據(jù)中的信息,那么就可以假設(shè),我們將該假設(shè)作為模型學(xué)習(xí)的約束條件。如果有多個(gè)特征函數(shù),那么就會(huì)有多個(gè)約束條件。
-
最大熵模型定義:假設(shè)滿(mǎn)足所有約束條件的模型集合為
定義在條件概率分布上的條件熵為
則模型集合中條件熵
最大的模型稱(chēng)為最大熵模型。式中的對(duì)數(shù)為自然對(duì)數(shù)。
最大熵模型的學(xué)習(xí)
- 對(duì)于給定的訓(xùn)練數(shù)據(jù)集
以及特征函數(shù)
,
,最大熵模型的學(xué)習(xí)等價(jià)于約束最優(yōu)化問(wèn)題
將最大值問(wèn)題改寫(xiě)為等價(jià)的最小值問(wèn)題
將約束最優(yōu)化的原始問(wèn)題轉(zhuǎn)換為無(wú)約束最優(yōu)化的對(duì)偶問(wèn)題
引入拉格朗日乘子,定義拉格朗日函數(shù)
最優(yōu)化的原始問(wèn)題是
對(duì)偶問(wèn)題是
由于拉格朗日函數(shù)是
的凸函數(shù),原始問(wèn)題的解與對(duì)偶問(wèn)題的解釋等價(jià)的。這樣可以求解對(duì)偶問(wèn)題來(lái)求解原始問(wèn)題。
求解對(duì)偶問(wèn)題內(nèi)部極小化問(wèn)題,該函數(shù)是
的函數(shù),將其記作
稱(chēng)為對(duì)偶函數(shù)。同時(shí),將其解記作
具體地,求對(duì)
的偏導(dǎo)數(shù)
令偏導(dǎo)數(shù)等于 0,在的情況下解得
由于得
其中,
稱(chēng)為規(guī)范化因子;
是特征函數(shù);
是特征的權(quán)值。
之后,對(duì)解對(duì)偶問(wèn)題外部的極大化問(wèn)題
將其解記為
這就是說(shuō),可以應(yīng)用最優(yōu)化算法求對(duì)偶函數(shù)的極大化,得到
,用來(lái)表示
。這里,
是學(xué)習(xí)到的最優(yōu)模型(最大熵模型)。也就是說(shuō),最大熵模型的學(xué)習(xí)歸結(jié)為對(duì)偶函數(shù)
的極大化。
