邏輯斯蒂回歸詳細(xì)解析 | 統(tǒng)計學(xué)習(xí)方法學(xué)習(xí)筆記 | 數(shù)據(jù)分析 | 機(jī)器學(xué)習(xí)

本文包括:

1.重要概念
2.邏輯斯蒂回歸和線性回歸
3.二項邏輯斯諦回歸模型
4.邏輯斯蒂回顧與幾率
5.模型參數(shù)估計
6.多項邏輯斯諦回歸



1.重要概念:

在正式介紹邏輯斯蒂回歸模型之前,需要先對一些基本概念有所了解,如果明白這些概念可以直接跳過。

分布函數(shù)和密度函數(shù):對于一個連續(xù)型隨機(jī)變量,密度函數(shù)是指該變量在其可取值范圍內(nèi)為一個特定值的概率,分布函數(shù)即在一個特定值和小于該特定值的范圍內(nèi)出現(xiàn)的概率,可以理解為密度函數(shù)的面積比率。

用邏輯斯蒂分布舉例來說(下圖),在密度函數(shù)中,可以看到在x=0時出現(xiàn)峰值,即x取0的概率最大,從0開始往無窮小和無窮大都在遞減。再看分布函數(shù),可以看到當(dāng)x=0時,密度函數(shù)取值為0.5,對照密度函數(shù),在小于等于0的部分,面積是總面積的一半。

似然函數(shù):在統(tǒng)計學(xué)中,概率描述了已知參數(shù)時的隨機(jī)變量的輸出結(jié)果,似然則用來描述已知隨機(jī)變量輸出結(jié)果時,未知參數(shù)的可能取值。那么似然函數(shù)就是用來求得未知參數(shù)的估計值所使用的函數(shù)。

極大似然估計:通過最大化似然函數(shù)求得未知參數(shù)的估計值。這里講一下為什么是極大而非其它的方法求參數(shù)的估計值。

在機(jī)器學(xué)習(xí)中,我們有大量的記錄構(gòu)成訓(xùn)練集,需要根據(jù)訓(xùn)練集進(jìn)行學(xué)習(xí)獲得模型,根據(jù)具體的問題,我們可以將一個特定的模型套用在這個具體問題中?,F(xiàn)在,我們有了一個含有未知參數(shù)的模型,以及大量訓(xùn)練集記錄。

根據(jù)模型,我們可以假設(shè)Y=1的概率為P,Y=0的概率為1-P(這里的P包含了模型中的未知參數(shù))。假設(shè)訓(xùn)練集中有10個記錄,3個為1,7個為0,那么得到這個最終結(jié)果的概率為P^3*(1-P)^7。

現(xiàn)在重點來了,既然現(xiàn)實情況中已經(jīng)出現(xiàn)了3個1和7個0的情況,那么我們的模型應(yīng)該讓這種情況出現(xiàn)的概率最大,因為畢竟這個結(jié)果已經(jīng)出現(xiàn)了。

也就是說,我們應(yīng)當(dāng)最大化P^3*(1-P)^7,以此推得P中所包含的未知參數(shù)的估計值,并最終得到我們想要的模型。



2.邏輯斯蒂回歸和線性回歸:

在線性回歸(感知機(jī))中,我們知道一個分離超平面w·x將特征空間分成兩個部分,實例在不同的子空間中則被分為相對應(yīng)的類。但是線性回歸的一個問題在于,我們不知道一個新輸入的實例,它屬于一個類的概率是多少。

換句話說,新輸入實例在特征空間中的位置可能與分離超平面距離非常近,也有可能非常遠(yuǎn),如果距離較遠(yuǎn),那么它更有可能被分成它所在一側(cè)對應(yīng)的類,但是如果與超平面的距離非常近,說明它被分成另一類的可能性也很大,比如被分成A的可能性為51%,而分成B類的可能性為49%,此時線性回歸會將其分為A類,而忽略了49%分成B類的可能性,也就是說,線性回歸僅給出結(jié)論,未給出概率。

于是,為了得到這一概率,我們引入了Sigmoid函數(shù):

Sigmoid函數(shù)能夠?qū)⒕€性回歸產(chǎn)生的值(-∞,+∞)轉(zhuǎn)換到(0,1)區(qū)間內(nèi),而概率的取值也在(0,1)內(nèi),這樣,就可以顯示一個實例被分為一個類的概率是多少了。



3.二項邏輯斯諦回歸模型:

首先來看邏輯斯蒂函數(shù)的一般形式,其分布具有以下分布函數(shù)和密度函數(shù):


式中,μ為位置參數(shù),γ>0為形狀參數(shù)。

分布函數(shù)以(μ,1/2)為中心對稱,滿足:

形狀參數(shù)γ的值越小,分布函數(shù)曲線在中心附近增長得越快。

現(xiàn)在,我們讓μ取0,γ取1,即得到我們在邏輯斯蒂回歸中使用的函數(shù):

采用上式,我們將線性回歸產(chǎn)生的值代入到sigmoid函數(shù)之中,可得:

二項邏輯斯諦回歸模型是一種分類模型,由條件概率分布P(Y|X)表示。這里,隨機(jī)變量x取值為實數(shù),隨機(jī)變量Y取值為1或0。

這樣,我們就將范圍為實數(shù)的線性回歸產(chǎn)生的值轉(zhuǎn)變?yōu)檫壿嬎沟倩貧w中僅在(0,1)范圍之內(nèi)。

邏輯斯諦回歸僅對二分類的問題有效,我們可以比較P(Y=1|x)和P(Y=0|x)兩個條件概率值的大小,將實例x分到概率較大的那一類,同時也能得知分成兩種類別的可能性是多少。



4.邏輯斯蒂回歸與幾率:

一個事件的幾率是指該事件發(fā)生的概率與該事件不發(fā)生的概率的比值。如果事件發(fā)生的概率是p,那么該事件的幾率是?\frac{p}{1-p} ,該事件的對數(shù)幾率或logit函數(shù)是:

我們將邏輯斯蒂回歸的P代入,可得:

通過上式我們知道,通過幾率的概念對線性函數(shù)進(jìn)行轉(zhuǎn)換,可以得到邏輯斯蒂回歸公式。

一個直觀的理解是,對于上式,分子是y=1的概率,而分母是y≠1的概率,顯然wx+b越大,y=1的概率越大,也就是實例點x在y=1的一側(cè)距離分離超平面越遠(yuǎn),則y=1的概率越大。



5.模型參數(shù)估計:

設(shè):

似然函數(shù)為:

為了計算方便,我們對似然函數(shù)取對數(shù),得到對數(shù)似然函數(shù):

以上公式的第二個等式使用了上一節(jié)談到的幾率。注意,這里的式子中w和xi都是進(jìn)行擴(kuò)展后的w和xi,即權(quán)值向量中最后一項為b,xi最后一項為1。

現(xiàn)在根據(jù)極大似然估計法,對L(w)求導(dǎo):

接下來通常采用的方法是梯度下降法及擬牛頓法來求得w的估計值,待后續(xù)更新。



6.多項邏輯斯諦回歸:

邏輯斯蒂回歸需要將線性回歸通過sigmoid函數(shù)進(jìn)行轉(zhuǎn)換,但這種方法僅對二分類的問題有效,如果碰到多分類的問題邏輯斯蒂回歸就失效了。

于是,對于多分類的問題,我們使用softmax函數(shù)代替sigmoid函數(shù),可以將softmax函數(shù)看做sigmoid函數(shù)的推廣。

Softmax函數(shù):

Softmax函數(shù)計算新輸入實例被分為每一個類的概率,并選擇概率最大的對應(yīng)的類作為新輸入實例的類。

多項邏輯斯蒂回歸:


我是舟曉南,關(guān)注我的同名 公眾號 和 知乎,發(fā)掘更多內(nèi)容哦

對機(jī)器學(xué)習(xí),深度學(xué)習(xí),python感興趣,歡迎關(guān)注專欄,學(xué)習(xí)筆記已原創(chuàng)70+篇,持續(xù)更新中~ ^_^

學(xué)習(xí)筆記:數(shù)據(jù)分析,機(jī)器學(xué)習(xí),深度學(xué)習(xí)

關(guān)于 python 二三事

專欄文章舉例:

【機(jī)器學(xué)習(xí)】關(guān)于邏輯斯蒂回歸,看這一篇就夠了!解答絕大部分關(guān)于邏輯斯蒂回歸的常見問題,以及代碼實現(xiàn) - 知乎 (zhihu.com)

記錄一下工作中用到的少有人知的pandas騷操作,提升工作效率 - 知乎 (zhihu.com)

關(guān)于切片時不考慮最后一個元素以及為什么從0開始計數(shù)的問題 - 知乎 (zhihu.com)

關(guān)于轉(zhuǎn)行:

舟曉南:如何轉(zhuǎn)行和學(xué)習(xí)數(shù)據(jù)分析 | 工科生三個月成功轉(zhuǎn)行數(shù)據(jù)分析心得淺談

舟曉南:求職數(shù)據(jù)分析師崗位,簡歷應(yīng)該如何寫?|工科生三個月成功轉(zhuǎn)行數(shù)據(jù)分析心得淺談

我建了個數(shù)據(jù)分析,機(jī)器學(xué)習(xí),深度學(xué)習(xí)的群~ 需要學(xué)習(xí)資料,想要加入社群均可私信~

在群里我會不定期分享各種數(shù)據(jù)分析相關(guān)資源,技能學(xué)習(xí)技巧和經(jīng)驗等等~

詳情私信,一起進(jìn)步吧!

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容