?? 邏輯回歸其實(shí)是一個(gè)分類算法而不是回歸算法。通常是利用已知的自變量來預(yù)測(cè)一個(gè)離散型因變量的值(像二進(jìn)制值0/1,是/否,真/假)。簡(jiǎn)單來說,它就是通過擬合一個(gè)邏輯函數(shù)(logit fuction)來預(yù)測(cè)一個(gè)事件發(fā)生的概率。所以它預(yù)測(cè)的是一個(gè)概率值,自然,它的輸出值應(yīng)該在0到1之間。--計(jì)算的是單個(gè)輸出
1.假設(shè)函數(shù)(Hypothesis function)
首先要先介紹一下Sigmoid函數(shù),也稱為邏輯函數(shù)(Logistic function):


從上圖可以看到sigmoid函數(shù)是一個(gè)s形的曲線,它的取值在[0, 1]之間,在遠(yuǎn)離0的地方函數(shù)的值會(huì)很快接近0或者1。它的這個(gè)特性對(duì)于解決二分類問題十分重要
因?yàn)樵诙诸愔?,輸出y的取值只能為0或者1,所以在線性回歸的假設(shè)函數(shù)外包裹一層Sigmoid函數(shù),使之取值范圍屬于(0,1),完成了從值到概率的轉(zhuǎn)換。邏輯回歸的假設(shè)函數(shù)形式如下:

則若P(y=1|x;)=0.7,表示輸入為x時(shí),y=1的概率為70%。
2.決策邊界--假設(shè)函數(shù)的一個(gè)屬性,決定于其參數(shù)
決策邊界,也稱為決策面,是用于在N維空間,將不同類別樣本分開的直線或曲線,平面或曲面。
根據(jù)以上假設(shè)函數(shù)表示概率,我們可以推得

所以 h(x)=0.5, 即
=0 時(shí)為決策邊界。
線性決策邊界:

非線性決策邊界:

3.代價(jià)函數(shù)(優(yōu)化目標(biāo)):
在線性回歸中,我們給出代價(jià)函數(shù)定義:

由于它是一個(gè)凸函數(shù),所以可用梯度下降直接求解,局部最小值即全局最小值。
但在邏輯回歸中,是一個(gè)復(fù)雜的非線性函數(shù),屬于非凸函數(shù),直接使用梯度下降會(huì)陷入局部最小值中。類似于線性回歸,邏輯回歸的J(
)的具體求解過程如下:
對(duì)于輸入x,分類結(jié)果為類別1和類別0的概率分別為:
P(y=1|x;)=h(x); ? ? ?? P(y=0|x;
)=1-h(x);
則整合之后為:P(y|x;)=
似然函數(shù)為:

對(duì)數(shù)似然函數(shù)為:

根據(jù)最大似然估計(jì),此時(shí)應(yīng)該使用梯度上升求最大值,為了便于使用梯度下降法,這里將J()=-
求解的最小值可以使用梯度下降法,根據(jù)梯度下降可得
的更新過程為:

下面來求偏導(dǎo),式中α為學(xué)習(xí)步長(zhǎng):

由此,的更新過程可以寫成:(下式的
一般省略)

除了梯度下降之外,還有以下優(yōu)化代價(jià)函數(shù)的方法:
1. 共軛梯度法(Conjugate Gradient)
2. BFGS
3. L-BFGS
在這些方法中,相比梯度下降,有以下優(yōu)點(diǎn)和缺點(diǎn):
1. 不需要主觀的選擇學(xué)習(xí)率α,算法中的內(nèi)循環(huán)會(huì)自動(dòng)調(diào)節(jié)
2. 速度更快
3. 算法更復(fù)雜
多元分類:一對(duì)多
多分類(multi-classification)是指分類的結(jié)果不只兩類,而是有多個(gè)類別。
邏輯回歸本質(zhì)上是一種二分類的算法,但是可以通過搭建多個(gè)二分類器的思想,實(shí)現(xiàn)多分類。
針對(duì)類別A ,設(shè) A 為正類,非A 為反類,搭建二分類器?
針對(duì)類別B ,設(shè)? B為正類,非B 為反類,搭建二分類器?
針對(duì)類別?,設(shè)??為正類,非?為反類,搭建二分類器?
.......

這是我在進(jìn)行機(jī)器學(xué)習(xí)的過程中關(guān)于邏輯回歸的筆記和總結(jié),希望能夠幫助大家,如果文章中有錯(cuò)誤,希望大家指出,我們一起進(jìn)步。