邏輯回歸(Logistics Regression)

邏輯回歸(Logistics Regression)

假設(shè)我們有訓(xùn)練數(shù)據(jù)D=\{(\mathbf{x}_1,y_1),...,(\mathbf{x}_n,y_n)\}, 其中(\mathbf{x}_i,y_i)為每一個樣本,而且\mathbf{x}_i是樣本的特征并且\mathbf{x}_i\in \mathcal{R}^D, y_i代表樣本數(shù)據(jù)的標(biāo)簽(label), 取值為0或者1。 在邏輯回歸中,模型的參數(shù)為(\mathbf{w},b)。

1. 非線性概率化

P(y=1|w,x)=g(z)=\frac{1}{1+e^{-(w^Tx+b)}}

P(y=0|w,x)=1-g(z)=\frac{e^{-(w^Tx+b)}}{1+e^{-(w^Tx+b)}}

2. MLE

L(\theta)=g(z_i)^{y_i}*(1-g(z_i))^{1-y_i}

\log L(\theta)= \sum_{i=1}^{n}(y_i\log(g(z_i))+((1-y_i) \log(1-g(z_i))))

3. 目標(biāo)函數(shù)

J(w,b)=-\frac{1}{n}\log L(\theta)=-\frac{1}{n} \sum_{i=1}^{n}(y_i\log(g(z_i))+((1-y_i) \log(1-g(z_i))))


J(\mathbf{w},b)=-\frac{1}{n} \sum_{i=1}^{n}(y_i\log(\frac{1}{1+e^{-(w^Tx_i+b)}})+(1-y_i) \log(\frac{e^{-(w^Tx_i+b)}}{1+e^{-(w^Tx_i+b)}}))
需要最小化 J(w,b)

4. 關(guān)于求導(dǎo)

\begin{aligned} \frac{\partial J(w,b)}{\partial w}&= -\frac{1}{n}\sum_{i=1}^n [y_i*\frac{\sigma(z_i)(1-\sigma(z_i)) }{\sigma(zi)}*x_i+(1-y_i)*-(\frac{\sigma(z_i)(1-\sigma(z_i)) }{1-\sigma(zi)})*x_i]\\ &= -\frac{1}{n}\sum_{i=1}^n[y_i-\sigma(zi)]*x_i \end{aligned}

乘法是矩陣乘法
\begin{aligned} \frac{\partial J(w,b)}{\partial b}&= -\frac{1}{n}\sum_{i=1}^n [y_i*\frac{\sigma(z_i)(1-\sigma(z_i)) }{\sigma(zi)}+(1-y_i)*-(\frac{\sigma(z_i)(1-\sigma(z_i)) }{1-\sigma(zi)})]\\ &= -\frac{1}{n}\sum_{i=1}^n[y_i-\sigma(zi)] \end{aligned}

5. 更新

基于梯度下降法(batch)的對于??和b的更新

假設(shè)加了一個L2正則項,梯度下降法(batch)的對于??和b的更新
w^{t+1}=w^t-\alpha * dw

b^{t+1}=b^t-\alpha * db

假設(shè)加了一個L2正則項,梯度下降法(batch)的對于??和b的更新
w^{t+1}=w^t-\alpha * dw+\lambda*\frac{w}{m}

6.關(guān)于凸函數(shù)

證明邏輯回歸函數(shù)是凸函數(shù)。假設(shè)一個函數(shù)是凸函數(shù),我們則可以得出局部最優(yōu)解即為全局最優(yōu)解,所以假設(shè)我們通過隨機梯度下降法等手段找到最優(yōu)解 時我們就可以確認(rèn)這個解就是全局最優(yōu)解。
\frac{\partial^2 \mathcal{L}}{\partial^2 \mathbf{w}}=\frac{1}{n}\sum_{i=1}^n x_i^T*\sigma(z_i)(1-\sigma(z_i))*x_i

H=\frac{\partial^2 \mathcal{L}}{\partial^2 \mathbf{w}}=\frac{1}{n} X^T V X\\ V=diag(\sigma(z_i)(1-\sigma(z_i)))

說明得出來的Hessian Matrix是Positive Definite.

證明一個D\times D的矩陣H為Positive Semidefinite,需要證明對于任意一個非零向量v\in \mathcal{R}^D, 需要得出A^{T}HA >=0

顯然 V是正定的,所以H也是正定的

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容