邏輯回歸

和感知機(jī)不同,邏輯回歸在點(diǎn)到平面的距離基礎(chǔ)上,通過(guò)邏輯函數(shù),把距離值轉(zhuǎn)換成一個(gè)(0,1) 的值,這個(gè)值稱為P值(可能性)

logist函數(shù)

p = logist(x) = \frac{1}{1+e^{-out}} = \frac{1}{1+e^{-\sum{w_i*x_i}+b_0}}

通過(guò)這個(gè)函數(shù)可以看到:

  • 當(dāng) out 趨向于 -inf 的時(shí)候,p = 0
  • 當(dāng) out 趨向于 +inf 的時(shí)候,p = 1
  • out 相當(dāng)于點(diǎn)到分類超平面的距離 out \approx \frac{1}{|W|}*|\sum{w_i*x_i}+b_0|

似然函數(shù)

已知當(dāng)前我們有個(gè)任務(wù),把一組樣本分成兩類,0 或者 1,設(shè):

  • p(y_i=1|X_i) = p
  • p(y_i=0|X_i) = 1 - p

組合上面兩個(gè)公式,則一個(gè)樣本點(diǎn) X_i 的分類密度函數(shù)可以表示為:

  • P = p^{y_i} * {(1-p) }^ {1- y_i}
    • 當(dāng) yi = 1 的時(shí)候,P = p
    • 當(dāng) yi = 0 的時(shí)候,P = 1-p

通過(guò)最大似然估計(jì)法,樣本集的似然函數(shù)表示為:
L= \prod{P_i} = \prod{ p^{y_i} * (1-p)^ {1-y_i} }
ln(L) = \sum(y_i*ln(p) + (1-y_i)*ln(1-p))

損失函數(shù)

我們現(xiàn)在對(duì)模型定義一個(gè)損失函數(shù) loss,使得 loss 最小的時(shí)候,L 最大;
loss = -\frac{1}{m}ln(L) = - \frac{1}{m}\sum(y_i*ln(p) + (1-y_i)*ln(1-p))

  • 其中 yi 是真實(shí)值,p 是預(yù)測(cè)值
  • 取負(fù)數(shù),是為了讓 loss 最小的時(shí)候,L 最大
  • \frac{1}{m} 取的是每輪訓(xùn)練中樣本的損失平均值

損失函數(shù)求導(dǎo)

\begin{split} \frac{\partial loss}{\partial w_i} &= \frac{-1}{m}*\frac{\partial ln(L)}{\partial w_i} \\ &= \frac{-1}{m}*\frac{\partial \sum(y_i*ln(p) + (1-y_i)*ln(1-p))}{\partial w_i} \\ &= \frac{-1}{m}* \sum( y_i * \frac{1}{p} * \frac{\partial p}{\partial w_i} + (1-y_i) * \frac{1}{1-p} * (-1) * \frac{\partial p}{\partial w_i} ) \\ &= \frac{-1}{m} * \sum(y_i * \frac{1}{p}+ (y_i-1) * \frac{1}{1-p}) * \frac{\partial p}{\partial w_i} \\ &= \frac{-1}{m} * \sum(\frac{y_i}{p} + \frac{y_i}{1-p} - \frac{1}{1-p}) * \frac{\partial p}{\partial w_i} \\ &= \frac{-1}{m} * \sum( \frac{y_i(1-p)}{p(1-p)}+ \frac{p*y_i}{p*(1-p)} - \frac{p}{p*(1-p)}) * \frac{\partial p}{\partial w_i} \\ &= \frac{-1}{m} * \sum( \frac{y_i(1-p)+ p*y_i - p}{p*(1-p)}) * \frac{\partial p}{\partial w_i} \\ &= \frac{-1}{m} * \sum( \frac{y_i- p}{p*(1-p)}) * \frac{\partial p}{\partial w_i} \\ \end{split}

又有

\begin{split} \frac{\partial p}{\partial w_i} &= \frac{\partial (1+e^{-WX})^{-1}}{\partial w_i} \\ &=(-1)(1+e^{-WX})^{-2}e^{-WX}*(-1)\frac{\partial}{\partial w_i}(WX)\\ &=\frac{e^{-WX}}{(1+e^{-WX})^2}*x_i \\ &=\frac{1}{1+e^{-WX}}*\frac{e^{-WX}}{1+e^{-WX}}*x_i \\ &=p*(1-p)*x_i \\ \end{split}

得到:
\begin{split} \frac{\partial loss}{\partial w_i} &= \frac{-1}{m} * \sum( \frac{y_i- p}{p*(1-p)}) * \frac{\partial p}{\partial w_i} \\ &= \frac{-1}{m} * \sum( \frac{y_i- p}{p*(1-p)}) * p*(1-p)*x_i \\ &= \frac{-1}{m} * \sum((y_i- p)*x_i) \\ \end{split}

權(quán)重更新

\begin{split} w_i & = w_i - a * \frac{\partial loss}{\partial w_i} \\ & = w_i - a * \frac{-1}{m} * \sum((y_i- p)*x_i) \end{split}

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容