寫在前面的話:哈嘍,大家早安、午安、晚安嘍,歡迎大家指點(diǎn),也希望我的內(nèi)容可以溫暖、幫助同在學(xué)習(xí)路上的人們~再次申明:本文的理論知識(shí)來自Peter Harrington的《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》和李航的《統(tǒng)計(jì)學(xué)習(xí)方法》,非常感謝這些優(yōu)秀人物和優(yōu)秀書籍。正文開始~~
今天主要分享Logistic回歸(LR)的基礎(chǔ)知識(shí)。首先簡(jiǎn)答介紹一下回歸的概念。
回歸:回歸分析是一種統(tǒng)計(jì)學(xué)分析數(shù)據(jù)的方法,目的在于了解兩個(gè)或多個(gè)變數(shù)間是否相關(guān)、相關(guān)方向與強(qiáng)度,并建立數(shù)學(xué)模型以便觀察特定變數(shù)來預(yù)測(cè)研究者感興趣的變數(shù)?;貧w在數(shù)學(xué)上來說就是給定一個(gè)點(diǎn)集合,能夠用一條曲線去擬合。根據(jù)曲線的差異分為線性回歸,二次回歸,Logistic回歸等。
Logistic回歸工作原理:根據(jù)現(xiàn)有數(shù)據(jù)對(duì)分類邊界線建立回歸公式,以此進(jìn)行分類?!貧w’源于最佳擬合,表示要找到最佳擬合參數(shù)集。訓(xùn)練分類器時(shí)的做法就是尋找最佳擬合參數(shù),使用的是最優(yōu)化算法。見圖1,Logistic回歸就是為了找到這樣的分類邊界(Decision Boundary)備注:如果是二維情況,那么就是找到如圖0中的分類曲線,如果是多維,那么就是找到可以分類的平面

辣么,接下來就是求解這條曲線了,如果是Y=0,1兩種類型的,可以見圖2。(備注:很遺憾,因?yàn)槲覄傞_始學(xué),所以這篇暫不考慮多類型分類的問題。)

Logistic回歸公式中這些θ參數(shù)的設(shè)置,常用方法有:牛頓法、擬牛頓法、梯度上升方法(或梯度下降方法)、隨機(jī)梯度上升方法(或隨機(jī)梯度下降方法)等。比如如果求函數(shù)的最大值,那么就利用梯度上升方法來求解;如果要找函數(shù)的最小值,那么就利用梯度下降方法來求解。
辣么,具體的實(shí)現(xiàn)過程如下:
1)構(gòu)造預(yù)測(cè)函數(shù),用h(θ)表示,其實(shí)此處的θ和圖1中的w是一個(gè)意思,均表示特征值的參數(shù)。h(θ)與特征值X可能是線性關(guān)系,也可能是非線性關(guān)系,見圖3-圖4。


2)構(gòu)造求解參數(shù)的代價(jià)函數(shù)
在線性規(guī)劃中,代價(jià)函數(shù)的思想是要使得預(yù)估結(jié)果h(θ)與實(shí)際y差距最小,見圖5

那么,在Logistic回歸中,可以將J(θ)表示為如下圖6中的形式:

3)利用梯度下降法求解J(θ)的最值
應(yīng)該通過擬合參數(shù),使得J(θ)達(dá)到最值,這時(shí)候就需要求函數(shù)的梯度。為了簡(jiǎn)化求導(dǎo)的計(jì)算,可以考慮以下的代價(jià)函數(shù):


因?yàn)閳D8中對(duì)θ的求導(dǎo)剛好可以消去求導(dǎo)的因子,實(shí)際每次參數(shù)θ的迭代見圖9

4)基本思想就是這樣啦,開始寫代碼驗(yàn)證啦~~
(1)準(zhǔn)備數(shù)據(jù)

(2)通過梯度下降來獲取參數(shù)

(3)基于求出的參數(shù)θ向量,根據(jù)新的特征值來預(yù)測(cè)分類

好噠,關(guān)于Logistic回歸的初級(jí)學(xué)習(xí)基本就是這些,以后我會(huì)更加深入的學(xué)習(xí),請(qǐng)大神輕拍,也希望自己總結(jié)的內(nèi)容對(duì)大家有所幫助,謝謝
另外,學(xué)習(xí)Logistic回歸的不錯(cuò)的資料,可以查看從初等數(shù)學(xué)視角解讀邏輯回歸、淺析Logistic Regression? 等