logistic回歸

假設(shè)有m個(gè)樣本為\{(x^{(1)}, y^{(1)}), (x^{(2)},y^{(2)}),...,(x^{(i)}, y^{(i)}),...,(x^{(m)},y^{(m)})\},其中x^{(i)}為第i個(gè)樣本的特征,y^{(i)}為第i個(gè)樣本的標(biāo)簽。
logistic regression的hypothesis為:
h_{\theta} (x^{(i)})=\frac{1}{1+{exp}^{- \theta^Tx^{(i)}}}
從上式的logistic函數(shù)可知h_{\theta}(x^{(i)})的取值在0\sim1之間,對(duì)于二分類任務(wù)而言,y^{(i)}\subset\{0,1 \},因此可以假設(shè)h_{\theta}(x^{(i)})y^{(i)}取某個(gè)值時(shí)的概率分布,即:
\begin{align} p(y^{(i)}=1|x^{(i)};\theta) &= h_{\theta}(x^{(i)})\\ p(y^{(i)}=0|x^{(i)};\theta) &= 1-h_{\theta}(x^{(i)}) \end{align}
即:
p(y^{(i)}|x^{(i)};\theta) = {h_{\theta} (x^{(i)})}^{y^{(i)}} {\bigl(1-h_{\theta}(x^{(i)})\bigr)}^{1-y^{(i)}}
m個(gè)樣本的似然函數(shù)為:
L(\theta) = \prod_{i=1}^{m}p(y^{(i)}|x^{(i)}; \theta)
對(duì)似然函數(shù)取對(duì)數(shù)可得:
\begin{align} l(\theta) &= log\bigl(L(\theta)\bigr)= \sum_{i=1}^{m}log\bigl(p(y^{(i)}|x^{(i)}\theta)\bigr)\\ &= \sum_{i=1}^{m}log\biggl({h_{\theta}(x^{(i)})}^{y^{(i)}}{\bigl(1-h_{\theta}(x^{(i)})\bigr)}^{1-y^{(i)}}\biggr)\\ &= \sum_{i=1}^{m}y^{(i)}log\bigl(h_{\theta}(x^{(i)})\bigr) + \bigl(1-y^{(i)}\bigr)log\bigl(1-h_{\theta}(x^{(i)})\bigr) \end{align}
最大化對(duì)數(shù)似然函數(shù),求對(duì)數(shù)似然函數(shù)l(\theta)對(duì)\theta的導(dǎo)數(shù),即求\frac{\partial{l(\theta)}}{\partial{\theta}}。
對(duì)于一般的logistic函數(shù)g(z)=\frac{1} {1+{exp}^{-z}}對(duì)其求導(dǎo)可得:
g'(z) = g(z)\cdot\bigl(1-g(z)\bigr)
因此:
\begin{align} \frac{\partial{l(\theta)}} {\partial{\theta}} &= \sum_{i=1}^{m}y^{(i)}\frac{1}{h_{\theta}\bigl(x^{(i)}\bigr)}h_{\theta}\bigl(x^{(i)}\bigr)\biggl(1-h_{\theta}\bigl(x^{(i)}\bigr)\biggr){x^{(i)}}^T \\ &+ \sum_{i=1}^{m}\bigl(1-y^{(i)}\bigr)\frac{-1}{1-h_{\theta}(x^{(i)})}h_{\theta}\bigl(x^{(i)}\bigr)\biggl(1-h_{\theta}\bigl(x^{(i)}\bigr)\biggr){x^{(i)}}^T\\ &= \sum_{i=1}^{m} \biggl(y^{(i)}-h_{\theta}(x^{i})\biggr)\cdot{x^{(i)}}^T \end{align}
對(duì)\theta進(jìn)行梯度更新,可得:
\theta:=\theta+\alpha\cdot \sum_{i=1}^{m} \biggl(y^{(i)}-h_{\theta}(x^{i})\biggr)\cdot{{x^{(i)}}^T}
注意:因?yàn)槭亲畲蠡迫缓瘮?shù),所以使用梯度更新的時(shí)候是相加而非相減。\alpha為學(xué)習(xí)率。對(duì)比一下最小二乘擬合,可以發(fā)現(xiàn),兩者的梯度更新非常相像,不同點(diǎn)在于logistic regression是要最大化似然函數(shù),所以采用了梯度上升的策略,而最小二乘采用的是最小化均方誤差損失函數(shù),所以采用了梯度下降的策略進(jìn)行梯度更新。

references:
http://cs229.stanford.edu/notes/cs229-notes1.pdf

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容