男人天堂熟妇女日本优,九九爱播放视频,久夜夜躁婷婷AV蜜桃

邏輯斯諦回歸與最大熵模型

邏輯斯諦回歸模型
最大熵模型
最大熵模型的學(xué)習(xí)

邏輯斯諦回歸（logistic regression）是統(tǒng)計(jì)學(xué)習(xí)中的經(jīng)典分類(lèi)方法。最大熵是概率模型學(xué)習(xí)的一個(gè)準(zhǔn)則，將其推廣到分類(lèi)問(wèn)題得到最大熵模型（maximum entropy model）。邏輯斯諦回歸模型與最大熵模型都屬于對(duì)數(shù)線(xiàn)性模型。

邏輯斯諦回歸模型

邏輯斯諦分布：設(shè) $X$ 是連續(xù)隨機(jī)變量， $X$ 服從邏輯斯諦分布是指 $X$ 具有下列分布函數(shù)和密度函數(shù)
$F(x) = P(X \le x) = \frac{1}{1+ e^{-(x-\mu)/\gamma}} \\ f(x) = F'(x) = \frac{e^{-(x-\mu)/\gamma}}{\gamma(1+ e^{-(x-\mu)/\gamma})^2}$
式中， $\mu$ 為位置參數(shù)， $\gamma \gt 0$ 為形狀參數(shù)。
邏輯斯諦分布函數(shù)，其圖像是一條 S 形曲線(xiàn)。該曲線(xiàn)以點(diǎn) $(\mu, \frac{1}{2})$ 為中心對(duì)稱(chēng)，即滿(mǎn)足
$F(-x+\mu)-\frac{1}{2} = -F(x+\mu) + \frac{1}{2}$

曲線(xiàn)在中心附近增長(zhǎng)速度較快，在兩端增長(zhǎng)速度較慢。形狀參數(shù) $\gamma$ 的值越小，曲線(xiàn)在中心附近增長(zhǎng)得越快。
二項(xiàng)邏輯斯諦回歸模型（binomial logistic regression model）是一種分類(lèi)模型，由條件概率分布 $P(Y|X)$ 表示，形式為參數(shù)化的邏輯斯諦分布。這里，隨機(jī)變量 $X$ 取值為實(shí)數(shù)，隨機(jī)變量 $Y$ 取值為1或0。我們通過(guò)監(jiān)督學(xué)習(xí)的方法來(lái)估計(jì)模型參數(shù)。
二項(xiàng)邏輯斯諦回歸模型是如下的條件概率分布：
$P(Y=1 \mid x) = \frac{exp(\omega\cdot x + b)}{1+exp(\omega \cdot x + b)} \\ p(Y=0 \mid x) = \frac{1}{1+exp(\omega \cdot x + b)}$
這里， $x \in R^n$ 是輸入， $Y\in \{0,1\}$ 是輸出， $\omega \in R^n$ 和 $b \in R$ 是參數(shù)， $\omega$ 稱(chēng)為權(quán)值向量， $b$ 稱(chēng)為偏置， $\omega \cdot x$ 為 $\omega$ 和 $x$ 的內(nèi)積。
邏輯斯諦回歸比較兩個(gè)條件概率值的大小，將實(shí)例 $x$ 分到概率值較大的那一類(lèi)。
為了方便，將 $\omega = (\omega^{(1)}, \omega^{(2)},...,\omega^{(n)}, b)^T$ ， $x=(x^{(1)},x^{(2)},...,x^{(n)}, 1)^T$ ，這時(shí)，邏輯斯諦回歸模型如下：
$P(Y=1 \mid x) = \frac{exp(\omega\cdot x)}{1+exp(\omega \cdot x)} \\ p(Y=0 \mid x) = \frac{1}{1+exp(\omega \cdot x)}$
一個(gè)事件的幾率（odds）是指該事件發(fā)生的概率與該事件不發(fā)生的概率的比值。如果事件發(fā)生的概率是 $p$ ，那么該事件的幾率是 $\frac{p}{1-p}$ ，該事件的對(duì)數(shù)幾率（log odds）或 logit 函數(shù)是
$logit(p) = \log\frac{p}{1-p}$
對(duì)邏輯斯諦回歸而言
$\log\frac{P(Y=1\mid x)}{1-P(Y=1 \mid x)} = \omega \cdot x$
這就是說(shuō)，在邏輯斯諦回歸模型中，輸出 $Y＝1$ 的對(duì)數(shù)幾率是輸入 $x$ 的線(xiàn)性函數(shù)?；蛘哒f(shuō)，輸出 $Y＝1$ 的對(duì)數(shù)幾率是由輸入 $x$ 的線(xiàn)性函數(shù)表示的模型，即邏輯斯諦回歸模型。
給定訓(xùn)練數(shù)據(jù)集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ ，其中 $x_i \in R^n$ ， $y_i \in \{0,1\}$ ，可以應(yīng)用極大似然估計(jì)法估計(jì)模型參數(shù)，從而得到邏輯斯諦回歸模型。
設(shè) $P(Y=1\mid x)=\pi (x)$ ， $P(Y=0\mid x)= 1-\pi (x)$
似然函數(shù)為
$\prod_{i=1}^N[\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i}$
對(duì)數(shù)似然函數(shù)為
$\begin{array} \ L(\omega) &=& \sum_{i=1}^N[y_i\log \pi(x_i) + (1-y_i)\log(1-\pi(x_i))] \\ &=& \sum_{i=1}^N [y_i \log\frac{\pi(x_i)}{1-\pi(x_i)}+\log(1-\pi(x_i)] \\ &=& \sum_{i=1}^N[y_i(\omega \cdot x_i)-\log(1+\exp(\omega\cdot x_i))] \end{array}$
對(duì) $L(\omega)$ 求極大值，就得到 $\omega$ 的估計(jì)值。
這樣，問(wèn)題就變成了以對(duì)數(shù)似然函數(shù)為目標(biāo)函數(shù)的最優(yōu)化問(wèn)題。邏輯斯諦回歸學(xué)習(xí)中通常采用的方法是梯度下降法及擬牛頓法。
二分類(lèi)邏輯斯諦模型，可以將其推廣為多項(xiàng)邏輯斯諦回歸模型（multi-nominal logistic regression model），用于多類(lèi)分類(lèi)。

最大熵模型

最大熵原理是概率模型學(xué)習(xí)的一個(gè)準(zhǔn)則。最大熵原理認(rèn)為，學(xué)習(xí)概率模型時(shí)，在所有可能的概率模型（分布）中，熵最大的模型是最好的模型。通常用約束條件來(lái)確定概率模型的集合，所以，最大熵原理也可以表述為在滿(mǎn)足約束條件的模型集合中選取熵最大的模型。
假設(shè)離散隨機(jī)變量 $X$ 的概率分布式 $P(X)$ ，則其熵是
$H(P) = -\sum_xP(x)\log P(x)$
熵滿(mǎn)足以下不等式
$0 \le H(P) \le \log \mid X \mid$
式中， $\mid X \mid$ 是 $X$ 取值的個(gè)數(shù)，當(dāng)且僅當(dāng) $X$ 的分布式均勻分布時(shí)右邊的等號(hào)成立。也就是說(shuō)， $X$ 服從均勻分布時(shí)，熵最大。
直觀地，最大熵原理認(rèn)為要選擇的概率模型首先必須滿(mǎn)足已有的事實(shí)，即約束條件。在沒(méi)有更多信息的情況下，那些不確定的部分都是“等可能的”。
等概率表示了對(duì)事實(shí)的無(wú)知。
給定訓(xùn)練數(shù)據(jù)集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ ，確定聯(lián)合分布 $P(X,Y)$ 的經(jīng)驗(yàn)分布和邊緣分布 $P(X)$ 的經(jīng)驗(yàn)分布，分別以 $\hat{P}(X,Y)$ 和 $\hat{P}(X)$ 表示
$\hat{P}(X=x,Y=y) = \frac{\#(X=x,Y=y)}{N} \\ \hat{P}(X=x) = \frac{\#(X=x)}{N}$
其中， $\#(X=x,Y=y)$ 表示訓(xùn)練數(shù)據(jù)中樣本 $(X,Y)$ 出現(xiàn)的頻數(shù)， $\#(X=x)$ 表示訓(xùn)練數(shù)據(jù)中輸入 $x$ 出現(xiàn)的頻數(shù)。 $N$ 表示訓(xùn)練樣本容量。
用特征函數(shù) $f(X,Y)$ 描述輸入 $x$ 和輸出 $y$ 之間的某一個(gè)事實(shí)。
$f(x,y) = \begin{cases} & 1, \ \ \ \ \ \ x與y滿(mǎn)足某一事實(shí) \\ & 0, \ \ \ \ \ \ 否則 \end{cases}$
它是一個(gè)二值函數(shù)。
特征函數(shù) $f(X,Y)$ 關(guān)于經(jīng)驗(yàn)分布 $\hat{P}(X,Y)$ 的期望值，用 $E_{\hat{P}}(f)$ 表示
$E_{\hat{P}}(f) = \sum_{x,y}\hat{P}(x,y)f(x,y)$
特征函數(shù) $f(X,Y)$ 關(guān)于模型 $P(Y\mid X)$ 與經(jīng)驗(yàn)分布 $\hat{P}(X)$ 的期望值，用 $E_P(f)$ 表示
$E_P(f) = \sum_{x,y}\hat{P}(x)P(y\mid x)f(x,y)$
如果模型能夠獲取訓(xùn)練數(shù)據(jù)中的信息，那么就可以假設(shè) $E_P(f)=E_{\hat{P}}(f)$ ，我們將該假設(shè)作為模型學(xué)習(xí)的約束條件。如果有多個(gè)特征函數(shù)，那么就會(huì)有多個(gè)約束條件。
最大熵模型定義： 假設(shè)滿(mǎn)足所有約束條件的模型集合為
$C = \{P \in \rho \mid E_p(f_i)=E_{\hat{p}}(f_i),\ \ \ \ \ \ i=1,2,...,n\}$
定義在條件概率分布 $P(Y\mid X)$ 上的條件熵為
$H(P) = -\sum_{x,y}\hat{p}(x)P(y|x)\log P(y|x)$
則模型集合 $C$ 中條件熵 $H(P)$ 最大的模型稱(chēng)為最大熵模型。式中的對(duì)數(shù)為自然對(duì)數(shù)。

最大熵模型的學(xué)習(xí)

對(duì)于給定的訓(xùn)練數(shù)據(jù)集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ 以及特征函數(shù) $f_i(X,Y)$ ， $i=1,2,...,n$ ，最大熵模型的學(xué)習(xí)等價(jià)于約束最優(yōu)化問(wèn)題
$\begin{array} \ max_{P \in C} & H(P) = -\sum_{x,y}\hat{p}(x)P(y|x)\log P(y|x)\\ s.t. & E_P(f_i)=E_{\hat{p}}(f_i), \ \ \ \ \ i=1,2,...,n \\ & \sum_yP(y\mid x) =1 \end{array}$
將最大值問(wèn)題改寫(xiě)為等價(jià)的最小值問(wèn)題
$\begin{array} \ min_{P \in C} & -H(P) = \sum_{x,y}\hat{p}(x)P(y|x)\log P(y|x)\\ s.t. & E_P(f_i)-E_{\hat{p}}(f_i)=0, \ \ \ \ \ i=1,2,...,n \\ & \sum_yP(y\mid x) =1 \end{array}$
將約束最優(yōu)化的原始問(wèn)題轉(zhuǎn)換為無(wú)約束最優(yōu)化的對(duì)偶問(wèn)題
引入拉格朗日乘子 $\omega_0,\omega_1,...,\omega_n$ ，定義拉格朗日函數(shù) $L(P,\omega)$
$\begin{array} \ L(P, \omega) & = & -H(p) + \omega_0(1-\sum_yP(y\mid x)) + \sum_{i=1}^n\omega_i(E_{\hat{P}}(f_i)-E_P(f_i)) \\ & = & \sum_{x,y}\hat{p}(x)P(y|x)\log P(y|x) + \omega_0(1-\sum_yP(y\mid x)) + \sum_{i=1}^n\omega_i(E_{\hat{P}}(f_i)-E_P(f_i)) \end{array}$
最優(yōu)化的原始問(wèn)題是
$min_{P \in C}\ max_\omega\ L(P,\omega)$
對(duì)偶問(wèn)題是
$max_\omega\ min_{P \in C} \ L(P,\omega)$
由于拉格朗日函數(shù) $L(P,\omega)$ 是 $P$ 的凸函數(shù)，原始問(wèn)題的解與對(duì)偶問(wèn)題的解釋等價(jià)的。這樣可以求解對(duì)偶問(wèn)題來(lái)求解原始問(wèn)題。
求解對(duì)偶問(wèn)題內(nèi)部極小化問(wèn)題 $min_{P \in C} \ L(P,\omega)$ ，該函數(shù)是 $\omega$ 的函數(shù)，將其記作
$\psi(\omega) = min_{P \in C} \ L(P,\omega) = L(P_\omega, \omega)$
$\psi(\omega)$ 稱(chēng)為對(duì)偶函數(shù)。同時(shí)，將其解記作
$P_\omega = arg \ min_{P \in C}L(P, \omega)=P_\omega(y \mid x)$
具體地，求 $L(p, \omega)$ 對(duì) $P(Y\mid X)$ 的偏導(dǎo)數(shù)
$\begin{array} \ \frac{\partial L(P, \omega)}{\partial P(y\mid x)} & = & \sum_{x,y}\hat{P}(x)(\log P(y\mid x) + 1) - \sum_y \omega_0 - \sum_{x,y}(\hat{P}(x)\sum_{i=1}^n \omega_if_i(x, y)) \\ & = & \sum_{x,y}\hat{P}(x)(\log P(y\mid x) + 1 -\omega_0 -\sum_{i=1}^n \omega_if_i(x, y) ) \end{array}$
令偏導(dǎo)數(shù)等于 0，在 $\hat{P}(x) \gt 0$ 的情況下解得
$\begin{array} \ P(y\mid x) & = & exp(\sum_{i=1}^n\omega_if_i(x,y) + \omega_0 -1) \\ & = & \frac{exp(\sum_{i=1}^n\omega_if_i(x,y))}{exp(1-\omega_0)} \end{array}$
由于 $\sum_yP(y\mid x) =1$ 得
$p_\omega(y\mid x) = \frac{1}{Z_\omega(x)}exp(\sum_{i=1}^n\omega_if_i(x,y))$
其中，
$Z_\omega(x) = \sum_y exp(\sum_{i=1}^n \omega_if_i(x,y))$
$Z_\omega(x)$ 稱(chēng)為規(guī)范化因子； $f_i(X,Y)$ 是特征函數(shù)； $\omega_i$ 是特征的權(quán)值。
之后，對(duì)解對(duì)偶問(wèn)題外部的極大化問(wèn)題
$max_\omega \ \psi(\omega)$
將其解記為 $\omega^*$
$\omega^* = arg max_\omega \ \psi(\omega)$
這就是說(shuō)，可以應(yīng)用最優(yōu)化算法求對(duì)偶函數(shù) $\psi(\omega)$ 的極大化，得到 $\omega^*$ ，用來(lái)表示 $P^* \in C$ 。這里， $P^*＝P_{\omega^*}＝P_{\omega^*}(Y \mid X)$ 是學(xué)習(xí)到的最優(yōu)模型（最大熵模型）。也就是說(shuō)，最大熵模型的學(xué)習(xí)歸結(jié)為對(duì)偶函數(shù) $\psi(\omega)$ 的極大化。