機器學(xué)習(xí)系列4:邏輯回歸與softmax回歸詳解

一、Logistic regression中sigmod函數(shù)推導(dǎo)

sigmod函數(shù)的推導(dǎo)

1.伯努利分布

一個事件x,其結(jié)果只有兩種:x=1 or 0,比如拋硬幣。
when x=1,p(1)=p\{x=1\}=p
when x=0, p(0)=p\{x=0\}=1-p
伯努利分布的概率質(zhì)量函數(shù)為:
f(x|p)=p^x(1-p)^{1-x}
可以寫成x - Bernoulli(p)

2.指數(shù)族分布

如果一個分布能用以下的方式寫出,就設(shè)這類分布屬于指數(shù)族:
p(y|n)=b(y)e^{\eta T(y)-\alpha(\eta)}
伯努利分布可以表示成:
\begin{split} p(x|y)= {} & p^x(1-p)^{1-x} {}\\ & = e^{xlnp+(1-x)ln(1-p)} {} \\ &=e^{x(lnp-ln(1-p))+ln(1-p)} {}\\ & = e^{xln\frac{p}{1-p }+ln(1-p)} \end{split}
可以發(fā)現(xiàn),伯努利分布是指數(shù)族分布,其中:
\begin{cases} T(y) =x \\ b(y)=1 \\ \eta =ln\frac{p}{1-p} \\ \alpha(\eta)=-ln(1-p)=ln(1+e^{\eta} ) \end{cases}

3.sigmod函數(shù)的推導(dǎo)

標準的邏輯回歸問題中,是二分類的,與伯努利分布類似。
\eta = ln\frac{p}{1-p} \Rightarrow e^\eta = \frac{p}{1-p} \Rightarrow p = \frac{1}{1+e^{-\eta}}
上式即為sigmod函數(shù)的由來。
綜上:若有一個樣本空間y|x;\theta - Bernoulli(p),
那么E[y|x;\theta]=p
h_\theta(x)=E[y|x;\theta]=p=\frac{1}{1+e^{-\eta}}=\frac{1}{1+e^{-\theta^Tx}}
h_\theta(x)即為sigmod \quad function

二、Logistic regression損失函數(shù)推導(dǎo)

與線性回歸的損失函數(shù)推導(dǎo)類似,通過最大似然函數(shù)估計來推出:
首先已知:
p(y=1|x;\theta)=h_\theta(x) p(y=0|x;\theta)=1-h_\theta(x)
更簡潔地,上式可以寫成:
p(y|x;\theta)=h_\theta(x)^y(1-h_\theta(x))^{1-y}
假設(shè)m個樣本都是相互獨立的,即可得似然函數(shù):
\begin{split} L(\theta)= {} & p(\vec{y}|x;\theta) {}\\ & =\prod_{i=1}^mp((y^{(i)}|x^{(i)};\theta) {}\\ & = \prod_{i=1}^m h_\theta(x^i)^{y^i} (1-h_\theta(x^i))^{1-y^i} \end{split}
取對數(shù):
\begin{split} l(\theta)= {} & log(L(\theta)) {}\\ & = \sum_{i=1}^m \left \{ y^i log(h_\theta(x^i)) + (1-y^i)log(1-h_\theta(x^i)) \right \} \end{split}
我們要求似然函數(shù)的最大值,反之在似然函數(shù)前加個負號,就能得到損失函數(shù):
J(\theta)= -\frac{1}{m} \sum_{i=1}^m \left \{ y^i log(h_\theta(x^i)) + (1-y^i)log(1-h_\theta(x^i)) \right \}

三、Logistic regression梯度下降

我們先將J(\theta)簡化:
J(\theta)=-\frac{1}{m} \sum_{i=1}^m \left \{ y^i log(\frac{1}{1+e^{-\theta^Tx^i }}) + (1-y^i)log(1-\frac{1}{1+e^{-\theta^Tx^i }}) \right \} {}\\ =-\frac{1}{m} \sum_{i=1}^m \left \{ -y^i log({1+e^{-\theta^Tx^i }}) - (1-y^i)log({1+e^{\theta^Tx^i }}) \right \}
可得:
\begin{split} \frac{\partial {J(\theta) } }{\partial{\theta_j}} = {} & -\frac{1}{m} \sum_{i=1}^m \left \{ -y^i \frac{-x_j^i e^ {-\theta^Tx^i }} {1+e^ {-\theta^Tx^i }} - (1-y^i) \frac{x_j^ie^{\theta^Tx^i }}{1+e^{\theta^Tx^i }}) \right \} {}\\ &= -\frac{1}{m} \sum_{i=1}^m \left \{ y^i \frac{ x_j^i} {1+e^{\theta^Tx^i }} - (1-y^i) \frac{x_j^ie^{\theta^Tx^i }}{1+e^{\theta^Tx^i }}) \right \} {}\\ &= -\frac{1}{m} \sum_{i=1}^m \left \{ \frac{ y^ix_j^i - x_j^i e^{\theta^Tx^i } +y^ix_j^ie^{\theta^Tx^i }} {1+e^{\theta^Tx^i }} \right \} {}\\ &=-\frac{1}{m} \sum_{i=1}^m \left \{ \frac{y^i(1+e^{\theta^Tx^i }) - e^{\theta^Tx^i } } {1+e^{\theta^Tx^i }} x_j^i \right \} {}\\ &= -\frac{1}{m} \sum_{i=1}^m \left \{ y^i - \frac{1 } {1+e^{-\theta^Tx^i }} x_j^i \right \}{}\\ &= -\frac{1}{m} \sum_{i=1}^m \left \{ (y^i - h_\theta(x^i)) x_j^i \right \}{}\\ &=\frac{1}{m} \sum_{i=1}^m \left \{ ( h_\theta(x^i) - y^i ) x_j^i \right \} \end{split}

四、softmax函數(shù)推導(dǎo)

softmax回歸是邏輯回歸的推廣,在標準的邏輯回歸中,響應(yīng)變量y只有兩個類別:0或1,在softmax回歸中,y可以是k個取值中的任意一個:
y \in \{ 1,2,\cdots,k \}
比如說在手寫數(shù)字識別問題中,k=10,y有10個類別。
y取每個類別都對應(yīng)一個概率,由于總的概率相加必為1,因此我們可以用k-1個參數(shù)來對這些概率值參數(shù)化。
令:\phi _i=p(y=i;\phi)
可得:
\phi_k=p(y=k;\phi)=1-\sum_{i=1}^{k-1}\phi_i
對應(yīng)定義T(y) \in R^{k-1}
T(1)=\begin{bmatrix} 1 \\ 0 \\ 0 \\ \vdots\\ 0\\ \end{bmatrix} T(2)=\begin{bmatrix} 0 \\ 1 \\ 0 \\ \vdots\\ 0\\ \end{bmatrix} ,\cdots , T(k-1)=\begin{bmatrix} 0 \\ 0 \\ 0 \\ \vdots\\ 1\\ \end{bmatrix} T(k)=\begin{bmatrix} 0 \\ 0 \\ 0 \\ \vdots\\ 0 \\ \end{bmatrix}

T(y)是一個k-1維的向量,T(y)_i代表向量第i個元素。
這就是熟悉的one-hot向量的形式
再介紹一種幾號:指示函數(shù):1\{ \cdot \},若參數(shù)為真,則等于1,否則等于0.
比如1\{ 2==3 \}=0,1\{ 1==1 \}=1
根據(jù)定義,可知:T(y)_i=1 \{ y=i\} (確保理解此處)
因為:E[(T(y))_i]=p(y=i)=\phi_i
把k個多項式表示成指數(shù)分布:
\begin{split} p(y;\phi)= {} & \phi_1^{1 \{y=1 \} }\phi_2^{1 \{y=2 \}} \cdots \phi_k^{1 \{y=k \}} {}\\ & = \phi_1^{ T(y)_1} \phi_2^{ T(y)_2} \cdots \phi_k^{ 1-\sum_{i=1}^{k-1}T(y)_i} {}\\ &= exp \left\{ T(y)_1 log(\phi_1) + T(y)_2 log(\phi_2) + \cdots + (1- \sum_{i=1}^{k-1}T(y)_i)log(\phi_k) \right \} {}\\ &=exp \left\{ T(y)_1 log(\frac{\phi_1}{\phi_k}) + T(y)_2 log( \frac{\phi_2}{\phi_k }) + \cdots + log(\phi_k) \right \} {}\\ & =b(y)exp(\eta^TT(y)-\alpha(\eta)) \end{split}
其中:
\begin{cases} \eta = \begin{bmatrix} log( \frac{\phi_1}{\phi_k }) \\ log( \frac{\phi_2}{\phi_k }) \\ \vdots\\ log( \frac{\phi_{k-1}}{\phi_k }) \\ \end{bmatrix}\\ \alpha(\eta)=-log(\phi_k )\\ b(y)=1 \end{cases}
與i=1,2,...,k相對應(yīng)的鏈接函數(shù)為:
\eta_i=log(\frac{\phi_i}{\phi_k})
為方便起見,定義:\eta_k=log(\frac{\phi_k}{\phi_k})=0
對鏈接函數(shù)取反函數(shù):
e^{\eta_i}=\frac{\phi_i}{\phi_k} \phi_ke^{\eta_i}=\phi_i
得:\phi_k\sum_{i=1}^ke^{\eta_i}=\sum_{i=1}^k\phi_i=1
可得:
\phi_k=\frac{1}{\sum_{i=1}^{k}e^{\eta_i}}
得到響應(yīng)函數(shù):
\phi_i=\frac{e^{\eta_i}}{\sum_{j=1}^{k}e^{\eta_j}}
與邏輯回歸,線性回歸一樣,softmax回歸也屬于廣義線性模型,滿足假設(shè):自然參數(shù)\eta和輸入x是線性相關(guān)的,即\eta=\theta^Tx
即可得到y(tǒng)的條件分布為:
\begin{split} p(y=i|x;\theta) {} & = \phi_i {}\\ &=\frac{e^{\eta_i}}{\sum_{j=1}^{k}e^{\eta_j}} {}\\ &=\frac{e^{\theta_i^Tx}}{\sum_{j=1}^{k}e^{\theta_j^Tx}} \end{split}
最終得到的適用于解決多分類問題的模型,即為softmax回歸的激活函數(shù)。

一下還有softmax損失函數(shù)和梯度下降的推導(dǎo),由于時間關(guān)系,改天再補上,請見諒。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容