??線性回歸用于處理因變量是連續(xù)量的預(yù)測(cè)問題,而邏輯回歸是解決二分類的問題(邏輯回歸名字叫“回歸”其實(shí)解決的是分類問題)。邏輯回歸的結(jié)果只有兩種情況(0或1),那么為什么冠以“回歸”的名稱呢?
“邏輯回歸”為什么叫“回歸”?
??假設(shè)有一個(gè)“買車”問題,買車與否與一個(gè)人的收入有關(guān)系,收入多則買車,收入低就不會(huì)買車。假設(shè)一個(gè)人的收入與工齡、每周工作時(shí)間、支出等因素有關(guān),這樣收入的多少與工齡、工作時(shí)間、支出等可以看做一個(gè)線性回歸問題。很顯然是否買車與與工齡、每周工作時(shí)間、支出等因素有關(guān)卻不能用一個(gè)線性的模型去模擬。買車與否在數(shù)學(xué)建模上來(lái)說(shuō)本質(zhì)上是一個(gè)(0, 1)問題。我們希望能有一個(gè)模型能幫我們實(shí)現(xiàn)從
值到0, 1的轉(zhuǎn)換。

??數(shù)學(xué)家們發(fā)現(xiàn)一個(gè)函數(shù)具有如圖1所示的性質(zhì)。則是sigmod函數(shù),其能將實(shí)數(shù)轉(zhuǎn)換在[0,-1]范圍內(nèi)。這樣我們便可以將上面線性回歸的結(jié)果
??這樣便能實(shí)現(xiàn)對(duì)一個(gè)二分類問題進(jìn)行建模與預(yù)測(cè),因?yàn)槠鋝igmod函數(shù)的輸入運(yùn)用的便是之前的線性回歸的東西,所以這里叫“邏輯回歸”。
尋找代價(jià)函數(shù)
為什么不能用誤差函數(shù)作為代價(jià)函數(shù)
??建造邏輯回歸的模型公式后,我們需要找一個(gè)懲罰函數(shù)或者說(shuō)代價(jià)函數(shù),以便來(lái)訓(xùn)練模型。這個(gè)我們可以試著用以前處理線性回歸一樣方法來(lái)找邏輯回歸的代價(jià)函數(shù),如下式:??其中,
,
表示第
個(gè)樣本點(diǎn),
表示第
個(gè)樣本點(diǎn)的真實(shí)值,
表示第
個(gè)樣本的預(yù)測(cè)值。直接對(duì)上式求導(dǎo)求其最小值,最后會(huì)發(fā)現(xiàn)代價(jià)函數(shù)是一個(gè)關(guān)于
的非凸函數(shù),如圖2。這意味著其會(huì)有很多局部極小值,這不利于求解。

可行的代價(jià)函數(shù)
??換個(gè)思路,前面運(yùn)用sigmod函數(shù)將問題最終轉(zhuǎn)化為一個(gè)(0, 1)問題,其也可以看做是一個(gè)后驗(yàn)概率的估計(jì),即在
的情況下,
的分布。所以就有如下公式:
??其中,
表示具有參數(shù)
的情況下,在
點(diǎn),
的概率。上面的式子也可以寫作如下的一般形式:
??這個(gè)式子相當(dāng)于是將上面兩個(gè)式子合二為一,當(dāng)
時(shí),
則上式變?yōu)?img class="math-inline" src="https://math.jianshu.com/math?formula=p(y%7Cx%3Bw)%3D%5Cphi%20(Z)" alt="p(y|x;w)=\phi (Z)" mathimg="1">,當(dāng)
時(shí),上式變?yōu)?img class="math-inline" src="https://math.jianshu.com/math?formula=p(y%3D0%7Cx%3Bw)%3D1-%5Cphi%20(Z)" alt="p(y=0|x;w)=1-\phi (Z)" mathimg="1">。
??對(duì)于上面帶有參數(shù)的一般形式可以運(yùn)用極大似然的思想進(jìn)行理解,即:求一個(gè)
使
經(jīng)過上面的運(yùn)算最接近
。則上面式可以寫為似然函數(shù)如下式:
??為了簡(jiǎn)化可以兩邊取對(duì)數(shù)
??上式是求
使
最接近
,將上式取負(fù)(加負(fù)號(hào))則是求最小值,這便是我們需要的目標(biāo)函數(shù),如下:
??為了更好的理解代價(jià)函數(shù),拿一個(gè)例子(其中的一項(xiàng))來(lái)看一下:

??從圖中可以看出若樣本的值是1,估計(jì)值越接近1,付出的代價(jià)越小,反之越大。同理,如果樣本的值是0,估計(jì)值越接近0,付出的代價(jià)越少,反之越大。
利用梯度下降法求解
?? sigmoid函數(shù)有一個(gè)很好的性質(zhì)那就是:
??梯度下降法的使用: ??其中,
表示第
個(gè)特征的權(quán)重,
為學(xué)習(xí)率,用來(lái)控制步長(zhǎng),式中的梯度如下:
?? 在使用梯度下降算法更新權(quán)重時(shí),可進(jìn)行批量更新權(quán)重:??在數(shù)據(jù)樣本較大的時(shí)候每次更新權(quán)重非常的消耗時(shí)間,這時(shí)可以采用隨機(jī)梯度下降和小批量梯度下降法.