邏輯斯諦回歸與最大熵模型

邏輯斯諦回歸與最大熵模型

  • 邏輯斯諦回歸模型
  • 最大熵模型
  • 最大熵模型的學(xué)習(xí)

邏輯斯諦回歸(logistic regression)是統(tǒng)計(jì)學(xué)習(xí)中的經(jīng)典分類(lèi)方法。最大熵是概率模型學(xué)習(xí)的一個(gè)準(zhǔn)則,將其推廣到分類(lèi)問(wèn)題得到最大熵模型(maximum entropy model)。邏輯斯諦回歸模型與最大熵模型都屬于對(duì)數(shù)線(xiàn)性模型。

邏輯斯諦回歸模型

  1. 邏輯斯諦分布:設(shè) X 是連續(xù)隨機(jī)變量,X 服從邏輯斯諦分布是指 X 具有下列分布函數(shù)和密度函數(shù)
    F(x) = P(X \le x) = \frac{1}{1+ e^{-(x-\mu)/\gamma}} \\ f(x) = F'(x) = \frac{e^{-(x-\mu)/\gamma}}{\gamma(1+ e^{-(x-\mu)/\gamma})^2}
    式中,\mu 為位置參數(shù),\gamma \gt 0 為形狀參數(shù)。

  2. 邏輯斯諦分布函數(shù),其圖像是一條 S 形曲線(xiàn)。該曲線(xiàn)以點(diǎn) (\mu, \frac{1}{2}) 為中心對(duì)稱(chēng),即滿(mǎn)足
    F(-x+\mu)-\frac{1}{2} = -F(x+\mu) + \frac{1}{2}

    曲線(xiàn)在中心附近增長(zhǎng)速度較快,在兩端增長(zhǎng)速度較慢。形狀參數(shù) \gamma 的值越小,曲線(xiàn)在中心附近增長(zhǎng)得越快。

  3. 二項(xiàng)邏輯斯諦回歸模型(binomial logistic regression model)是一種分類(lèi)模型,由條件概率分布 P(Y|X) 表示,形式為參數(shù)化的邏輯斯諦分布。這里,隨機(jī)變量 X 取值為實(shí)數(shù),隨機(jī)變量 Y 取值為1或0。我們通過(guò)監(jiān)督學(xué)習(xí)的方法來(lái)估計(jì)模型參數(shù)。

  4. 二項(xiàng)邏輯斯諦回歸模型是如下的條件概率分布:
    P(Y=1 \mid x) = \frac{exp(\omega\cdot x + b)}{1+exp(\omega \cdot x + b)} \\ p(Y=0 \mid x) = \frac{1}{1+exp(\omega \cdot x + b)}
    這里,x \in R^n 是輸入,Y\in \{0,1\} 是輸出,\omega \in R^nb \in R 是參數(shù),\omega 稱(chēng)為權(quán)值向量,b 稱(chēng)為偏置,\omega \cdot x\omegax 的內(nèi)積。

  5. 邏輯斯諦回歸比較兩個(gè)條件概率值的大小,將實(shí)例 x 分到概率值較大的那一類(lèi)。

  6. 為了方便,將 \omega = (\omega^{(1)}, \omega^{(2)},...,\omega^{(n)}, b)^T,x=(x^{(1)},x^{(2)},...,x^{(n)}, 1)^T,這時(shí),邏輯斯諦回歸模型如下:
    P(Y=1 \mid x) = \frac{exp(\omega\cdot x)}{1+exp(\omega \cdot x)} \\ p(Y=0 \mid x) = \frac{1}{1+exp(\omega \cdot x)}

  7. 一個(gè)事件的幾率(odds)是指該事件發(fā)生的概率與該事件不發(fā)生的概率的比值。如果事件發(fā)生的概率是 p,那么該事件的幾率是 \frac{p}{1-p},該事件的對(duì)數(shù)幾率(log odds)或 logit 函數(shù)是
    logit(p) = \log\frac{p}{1-p}
    對(duì)邏輯斯諦回歸而言
    \log\frac{P(Y=1\mid x)}{1-P(Y=1 \mid x)} = \omega \cdot x
    這就是說(shuō),在邏輯斯諦回歸模型中,輸出 Y=1 的對(duì)數(shù)幾率是輸入 x 的線(xiàn)性函數(shù)?;蛘哒f(shuō),輸出 Y=1 的對(duì)數(shù)幾率是由輸入 x 的線(xiàn)性函數(shù)表示的模型,即邏輯斯諦回歸模型。

  8. 給定訓(xùn)練數(shù)據(jù)集 T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\},其中 x_i \in R^n,y_i \in \{0,1\},可以應(yīng)用極大似然估計(jì)法估計(jì)模型參數(shù),從而得到邏輯斯諦回歸模型。
    設(shè) P(Y=1\mid x)=\pi (x)P(Y=0\mid x)= 1-\pi (x)
    似然函數(shù)為
    \prod_{i=1}^N[\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i}
    對(duì)數(shù)似然函數(shù)為
    \begin{array} \ L(\omega) &=& \sum_{i=1}^N[y_i\log \pi(x_i) + (1-y_i)\log(1-\pi(x_i))] \\ &=& \sum_{i=1}^N [y_i \log\frac{\pi(x_i)}{1-\pi(x_i)}+\log(1-\pi(x_i)] \\ &=& \sum_{i=1}^N[y_i(\omega \cdot x_i)-\log(1+\exp(\omega\cdot x_i))] \end{array}
    對(duì) L(\omega) 求極大值,就得到 \omega 的估計(jì)值。
    這樣,問(wèn)題就變成了以對(duì)數(shù)似然函數(shù)為目標(biāo)函數(shù)的最優(yōu)化問(wèn)題。邏輯斯諦回歸學(xué)習(xí)中通常采用的方法是梯度下降法及擬牛頓法。

  9. 二分類(lèi)邏輯斯諦模型,可以將其推廣為多項(xiàng)邏輯斯諦回歸模型(multi-nominal logistic regression model),用于多類(lèi)分類(lèi)。

最大熵模型

  1. 最大熵原理是概率模型學(xué)習(xí)的一個(gè)準(zhǔn)則。最大熵原理認(rèn)為,學(xué)習(xí)概率模型時(shí),在所有可能的概率模型(分布)中,熵最大的模型是最好的模型。通常用約束條件來(lái)確定概率模型的集合,所以,最大熵原理也可以表述為在滿(mǎn)足約束條件的模型集合中選取熵最大的模型。

  2. 假設(shè)離散隨機(jī)變量 X 的概率分布式 P(X),則其熵是
    H(P) = -\sum_xP(x)\log P(x)
    熵滿(mǎn)足以下不等式
    0 \le H(P) \le \log \mid X \mid
    式中,\mid X \midX 取值的個(gè)數(shù),當(dāng)且僅當(dāng) X 的分布式均勻分布時(shí)右邊的等號(hào)成立。也就是說(shuō), X 服從均勻分布時(shí),熵最大。

  3. 直觀地,最大熵原理認(rèn)為要選擇的概率模型首先必須滿(mǎn)足已有的事實(shí),即約束條件。在沒(méi)有更多信息的情況下,那些不確定的部分都是“等可能的”。

  4. 等概率表示了對(duì)事實(shí)的無(wú)知。

  5. 給定訓(xùn)練數(shù)據(jù)集 T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\},確定聯(lián)合分布 P(X,Y) 的經(jīng)驗(yàn)分布和邊緣分布 P(X) 的經(jīng)驗(yàn)分布,分別以 \hat{P}(X,Y)\hat{P}(X) 表示
    \hat{P}(X=x,Y=y) = \frac{\#(X=x,Y=y)}{N} \\ \hat{P}(X=x) = \frac{\#(X=x)}{N}
    其中,\#(X=x,Y=y) 表示訓(xùn)練數(shù)據(jù)中樣本 (X,Y) 出現(xiàn)的頻數(shù), \#(X=x) 表示訓(xùn)練數(shù)據(jù)中輸入 x 出現(xiàn)的頻數(shù)。N 表示訓(xùn)練樣本容量。

  6. 用特征函數(shù) f(X,Y) 描述輸入 x 和輸出 y 之間的某一個(gè)事實(shí)。
    f(x,y) = \begin{cases} & 1, \ \ \ \ \ \ x與y滿(mǎn)足某一事實(shí) \\ & 0, \ \ \ \ \ \ 否則 \end{cases}
    它是一個(gè)二值函數(shù)。

  7. 特征函數(shù) f(X,Y) 關(guān)于經(jīng)驗(yàn)分布 \hat{P}(X,Y) 的期望值,用 E_{\hat{P}}(f) 表示
    E_{\hat{P}}(f) = \sum_{x,y}\hat{P}(x,y)f(x,y)
    特征函數(shù) f(X,Y) 關(guān)于模型 P(Y\mid X) 與經(jīng)驗(yàn)分布 \hat{P}(X) 的期望值,用 E_P(f) 表示
    E_P(f) = \sum_{x,y}\hat{P}(x)P(y\mid x)f(x,y)
    如果模型能夠獲取訓(xùn)練數(shù)據(jù)中的信息,那么就可以假設(shè) E_P(f)=E_{\hat{P}}(f),我們將該假設(shè)作為模型學(xué)習(xí)的約束條件。如果有多個(gè)特征函數(shù),那么就會(huì)有多個(gè)約束條件。

  8. 最大熵模型定義: 假設(shè)滿(mǎn)足所有約束條件的模型集合為
    C = \{P \in \rho \mid E_p(f_i)=E_{\hat{p}}(f_i),\ \ \ \ \ \ i=1,2,...,n\}
    定義在條件概率分布P(Y\mid X)上的條件熵為
    H(P) = -\sum_{x,y}\hat{p}(x)P(y|x)\log P(y|x)
    則模型集合 C 中條件熵 H(P) 最大的模型稱(chēng)為最大熵模型。式中的對(duì)數(shù)為自然對(duì)數(shù)。

最大熵模型的學(xué)習(xí)

  1. 對(duì)于給定的訓(xùn)練數(shù)據(jù)集 T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\} 以及特征函數(shù) f_i(X,Y),i=1,2,...,n,最大熵模型的學(xué)習(xí)等價(jià)于約束最優(yōu)化問(wèn)題
    \begin{array} \ max_{P \in C} & H(P) = -\sum_{x,y}\hat{p}(x)P(y|x)\log P(y|x)\\ s.t. & E_P(f_i)=E_{\hat{p}}(f_i), \ \ \ \ \ i=1,2,...,n \\ & \sum_yP(y\mid x) =1 \end{array}
    將最大值問(wèn)題改寫(xiě)為等價(jià)的最小值問(wèn)題
    \begin{array} \ min_{P \in C} & -H(P) = \sum_{x,y}\hat{p}(x)P(y|x)\log P(y|x)\\ s.t. & E_P(f_i)-E_{\hat{p}}(f_i)=0, \ \ \ \ \ i=1,2,...,n \\ & \sum_yP(y\mid x) =1 \end{array}
    將約束最優(yōu)化的原始問(wèn)題轉(zhuǎn)換為無(wú)約束最優(yōu)化的對(duì)偶問(wèn)題
    引入拉格朗日乘子 \omega_0,\omega_1,...,\omega_n,定義拉格朗日函數(shù) L(P,\omega)
    \begin{array} \ L(P, \omega) & = & -H(p) + \omega_0(1-\sum_yP(y\mid x)) + \sum_{i=1}^n\omega_i(E_{\hat{P}}(f_i)-E_P(f_i)) \\ & = & \sum_{x,y}\hat{p}(x)P(y|x)\log P(y|x) + \omega_0(1-\sum_yP(y\mid x)) + \sum_{i=1}^n\omega_i(E_{\hat{P}}(f_i)-E_P(f_i)) \end{array}
    最優(yōu)化的原始問(wèn)題是
    min_{P \in C}\ max_\omega\ L(P,\omega)
    對(duì)偶問(wèn)題是
    max_\omega\ min_{P \in C} \ L(P,\omega)
    由于拉格朗日函數(shù) L(P,\omega)P 的凸函數(shù),原始問(wèn)題的解與對(duì)偶問(wèn)題的解釋等價(jià)的。這樣可以求解對(duì)偶問(wèn)題來(lái)求解原始問(wèn)題。
    求解對(duì)偶問(wèn)題內(nèi)部極小化問(wèn)題 min_{P \in C} \ L(P,\omega),該函數(shù)是 \omega 的函數(shù),將其記作
    \psi(\omega) = min_{P \in C} \ L(P,\omega) = L(P_\omega, \omega)
    \psi(\omega) 稱(chēng)為對(duì)偶函數(shù)。同時(shí),將其解記作
    P_\omega = arg \ min_{P \in C}L(P, \omega)=P_\omega(y \mid x)
    具體地,求 L(p, \omega) 對(duì) P(Y\mid X)的偏導(dǎo)數(shù)
    \begin{array} \ \frac{\partial L(P, \omega)}{\partial P(y\mid x)} & = & \sum_{x,y}\hat{P}(x)(\log P(y\mid x) + 1) - \sum_y \omega_0 - \sum_{x,y}(\hat{P}(x)\sum_{i=1}^n \omega_if_i(x, y)) \\ & = & \sum_{x,y}\hat{P}(x)(\log P(y\mid x) + 1 -\omega_0 -\sum_{i=1}^n \omega_if_i(x, y) ) \end{array}
    令偏導(dǎo)數(shù)等于 0,在 \hat{P}(x) \gt 0 的情況下解得
    \begin{array} \ P(y\mid x) & = & exp(\sum_{i=1}^n\omega_if_i(x,y) + \omega_0 -1) \\ & = & \frac{exp(\sum_{i=1}^n\omega_if_i(x,y))}{exp(1-\omega_0)} \end{array}
    由于 \sum_yP(y\mid x) =1
    p_\omega(y\mid x) = \frac{1}{Z_\omega(x)}exp(\sum_{i=1}^n\omega_if_i(x,y))
    其中,
    Z_\omega(x) = \sum_y exp(\sum_{i=1}^n \omega_if_i(x,y))
    Z_\omega(x) 稱(chēng)為規(guī)范化因子;f_i(X,Y) 是特征函數(shù);\omega_i 是特征的權(quán)值。
    之后,對(duì)解對(duì)偶問(wèn)題外部的極大化問(wèn)題
    max_\omega \ \psi(\omega)
    將其解記為 \omega^*
    \omega^* = arg max_\omega \ \psi(\omega)
    這就是說(shuō),可以應(yīng)用最優(yōu)化算法求對(duì)偶函數(shù) \psi(\omega) 的極大化,得到 \omega^*,用來(lái)表示 P^* \in C。這里,P^*=P_{\omega^*}=P_{\omega^*}(Y \mid X) 是學(xué)習(xí)到的最優(yōu)模型(最大熵模型)。也就是說(shuō),最大熵模型的學(xué)習(xí)歸結(jié)為對(duì)偶函數(shù) \psi(\omega) 的極大化。
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容