線性回歸和邏輯回歸的極大似然估計(jì)

離散變量預(yù)測(cè),稱之為分類;連續(xù)變量預(yù)測(cè),稱之為回歸。

本文總結(jié),通過極大似然估計(jì)得到:

  • 1)線性回歸的代價(jià)函數(shù)J(\theta)為均方誤差MSE。
  • 2)邏輯回歸的代價(jià)函數(shù)J(\theta)為(經(jīng)過sigmoid映射后的)二元交叉熵BCE。

一、線性回歸

中心極限定理

中心極限定理是指,給定足夠大的樣本量,無論變量在總體中的分布如何,變量均值的抽樣分布都將近似于正態(tài)分布。詳細(xì)來講,給定一個(gè)任意分布的總體,從這個(gè)總體中抽取n個(gè)樣本,總共隨機(jī)抽取m次(n、m越大越好),計(jì)算這m次的樣本的平均值,則這些平均值的分布是正態(tài)分布,并且這些平均值的均值近似等于總體均值,平均值的方差為總體方差除以n。

誤差

誤差指的是實(shí)際值與預(yù)測(cè)值之間的差值:y^{i} = \theta^{T} X^{i} + \epsilon^{i}
我們期望預(yù)測(cè)結(jié)果\theta^{T} X^{i}盡量接近實(shí)際值y^{i},即希望誤差\epsilon^{i}最小,因此需要對(duì)誤差進(jìn)行分析,以進(jìn)行數(shù)學(xué)建模。
我們假設(shè)誤差\epsilon^{i}是獨(dú)立同分布,且服從N(0, \sigma^2)的高斯分布,則其概率密度函數(shù)為:
P(\epsilon^{i}) = \frac{1}{\sqrt{2\pi}\sigma}\cdot e^{-\frac{(\epsilon^{i})^2}{2\sigma^2}}

似然函數(shù)L(\theta)

對(duì)于已經(jīng)觀察到的樣本的結(jié)果,它的似然函數(shù)為:
L(\theta) = \prod_{i=1}^n P(y^{i}|X^{i};\theta) = \prod_{i=1}^n P(\epsilon^{i}) = \prod_{i=1}^n \frac{1}{\sqrt{2\pi}\sigma}\cdot e^{-\frac{(y^{i} - \theta^{T} X^{i})^2}{2\sigma^2}}
它表示在已知X;\theta條件下,Y=y發(fā)生的概率值,顯然L(\theta)越大越好。

兩邊取對(duì)數(shù),并展開化簡(jiǎn)得:
\log L(\theta) = n \log \frac{1}{\sqrt{2\pi}\sigma} - \frac{1}{\sigma^2} \cdot \frac{1}{2} \sum_{i=1}^n(y^{i} - \theta^T X^{i})^2
約去定值,并乘-1,將求最大值轉(zhuǎn)換為求最小值:
J(\theta) = \frac{1}{2n}\sum_{i=1}^n(y^i-\theta^T X^i)^2
代價(jià)函數(shù)J(\theta)稱為L(zhǎng)2損失或MSE(均方誤差)。

二、邏輯斯蒂回歸(解決分類問題)

伯努利分布

如果隨機(jī)變量X只取0和1兩個(gè)值,且相應(yīng)的概率為:
P(X=1)=p,P(X=0)=1-p,0<p<1
則稱隨機(jī)變量X服從參數(shù)為p的伯努利分布。

基于線性回歸的思考

如何用線性回歸來解決二分類問題?
1.通過sigmoid函數(shù)將值域映射到(0, 1)之間,表示其為正樣本的概率值。
g(z^i) = \frac{1}{1 + e^{-z^i}},z = \theta^T X^i

2.若繼續(xù)模仿線性回歸,利用MSE作為代價(jià)函數(shù),則此時(shí)代價(jià)函數(shù)是一個(gè)非凸函數(shù),會(huì)有許多局部極小值,不利于求解,我們應(yīng)該換一種思路。
J(\theta) = \frac{1}{2n} \sum_{i=1}^n (y^i - g(z^i))^2 = \frac{1}{2n} \sum_{i=1}^n (y^i - \frac{1}{1 + e^{- \theta^T X^i}})^2

似然函數(shù)L(\theta)

在二分類問題中,y取值0,1服從伯努利分布,則有:
y=1時(shí)的概率為:P(y=1|x;\theta) = g(z)
y=0時(shí)的概率為:P(y=0|x;\theta) = 1- g(z)
合并得,P(y|x;\theta) = g(z)^y(1-g(z))^{(1-y)}, y=0,1

對(duì)于已經(jīng)觀察到的樣本的結(jié)果,它的似然函數(shù)為:
L(\theta) = \prod_{i=1}^n P(y^{i}|x^{i};\theta) = \prod_{i=1}^n g(z^{i})^{y^{i}}(1-g(z^{i}))^{(1-y^{i})}
它表示在已知X;\theta條件下,Y=y發(fā)生的概率值,顯然L(\theta)越大越好。

兩邊取對(duì)數(shù),并展開化簡(jiǎn)得:
\log{L(\theta)} = \sum_{i=1}^n [y^i \log{g(z^i)} + (1-y^i) \log{(1-g(z^i))}]
乘以-1,將求最大值轉(zhuǎn)換為求最小值:
J(\theta) = -\sum_{i=1}^n [y^i \log{g(z^i)} + (1-y^i) \log{(1-g(z^i))}],g(z^i) = \frac{1}{1 + e^{-z^i}},z = \theta^T X^i
代價(jià)函數(shù)L(\theta)稱為二元交叉熵?fù)p失(BCE)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容