機(jī)器學(xué)習(xí)-Logistic回歸

1. 后驗概率與logistic函數(shù)

在貝葉斯分類中提到過后驗概率p(y|x),直接對后驗概率建模的計算判別模型。

對于一個二分類的模型,有y \in \{0,1 \}

p(y=0| x) = \frac{p(y=0) \cdot p(x|y=0)}{p(x)}
\quad = \frac{p(y=0) \cdot p(x|y=0)}{p(y=0) \cdot p(x|y=0)+p(y=1) \cdot p(x|y=1)}
\quad = \frac{1}{1+\frac{p(y=1) \cdot p(x|y=1)}{p(y=0) \cdot p(x|y=0)}}
\quad = \frac{1}{1+e^{ln\frac{p(y=1) \cdot p(x|y=1)}{p(y=0) \cdot p(x|y=0)}}}
\quad = \frac{1}{1+e^{-ln\frac{p(y=0)}{p(y=1)} -ln\frac{p(x|y=0)}{p(x|y=1))}}}

因此我們可以將y=0時的后驗概率看作是
p(y=0| x) = \frac{1}{1+e^{-F(x)}}
可以得到y=1的后驗概率為:
p(y=1| x) = 1- p(y=0|x)= \frac{1}{1+e^{F(x)}}

可以看到上面的后驗概率可以寫成logistic函數(shù)(也叫sigmoid函數(shù))的形式:f(x) = \frac{1}{1+e^{-x}}

sigmoid

Sigmoid函數(shù)有很好的特性,若預(yù)測值大于0就判為正例,小于0就判為反例,臨界值的概率為0.5. Sigmoid的導(dǎo)數(shù)可以推到得到(不復(fù)雜,懶得寫過程了)是:
f'(x) = f(x)(1-f(x))

2. 決策邊界

決策邊界用于在特征空間區(qū)分兩個類別,在決策邊界上的點滿足p(y=0|\mathbf{x}) = p(y=1|\mathbf{x}), 因為在分類邊界上的點不能判斷屬于哪個類別。因此在邊界上有:
F(\mathbf{x}) = ln \frac{p(y=0|\mathbf{x})}{p(y=1|\mathbf{x}} = ln 1 = 0

假設(shè)兩個類別的樣本都滿足d維的高斯分布,則有
p(x|y) = \frac{1}{\sqrt{det(2 \pi \Sigma)}}e^{- \frac{1}{2}(x-\mu)^T \Sigma^{-1} (x-\mu)}
F(x) = ln\frac{p(y=0|x)}{p(y=1|x}
= ln \frac{p(y=0)}{p(y=1)}+ln(\frac{\frac{1}{\sqrt{det(2 \pi \Sigma_0)}}e^{- \frac{1}{2}(x-\mu_0)^T \Sigma_0^{-1} (x-\mu_0)}}{\frac{1}{\sqrt{det(2 \pi \Sigma_1)}}e^{- \frac{1}{2}(x-\mu_1)^T \Sigma_1^{-1} (x-\mu_1)}})
= ln \frac{p(y=0)}{p(y=1)} + \frac{1}{2} ln(\frac{det(2 \pi \Sigma_1)}{det(2 \pi \Sigma_0)})+ln \frac{e^{-\frac{1}{2}(x-\mu_0)^T \Sigma_0 ^{-1} (x-\mu_0)}} {e^{-\frac{1}{2}(x-\mu_1)^T \Sigma_1^{-1} (x-\mu_1)}}

可以看到前兩項都是常數(shù),展開第三項可以得到:
ln \frac{e^{-\frac{1}{2}(x-\mu_0)^T \Sigma_0^{-1} (x-\mu_0)}} {e^{-\frac{1}{2}(x-\mu_1)^T \Sigma_1^{-1} (x-\mu_1)}}
= \frac{1}{2}((x-\mu_1)^T \Sigma_1^{-1} (x-\mu_1) - (x-\mu_0)^T \Sigma_0^{-1} (x-\mu_0))
= \frac{1}{2}(x^T(\Sigma_1^{-1}-\Sigma_0^{-1})x - 2(\mu_1^T \Sigma_1^{-1}-\mu_0^T \Sigma_0^{-1})x+\mu_1^T \Sigma_1^{-1}\mu_1-\mu_0^T \Sigma_0^{-1}\mu_0)

綜合一下可以得到,F(x)可以寫成以下形式:
F(\mathbf{x}) = \mathbf{x}^T \mathbf{A}\mathbf{x} + \mathbf{\alpha}^T \mathbf{x} + \alpha_0
其中,\mathbf{A}=\frac{1}{2}(\Sigma_1^{-1}-\Sigma_0^{-1}),
\mathbf{\alpha}^T = \mu_1^T \Sigma_1^{-1}-\mu_0^T \Sigma_0^{-1}, \alpha_0 = ln \frac{p(y=0)}{p(y=1)} + \frac{1}{2} (ln\frac{det(2 \pi \Sigma_1)}{det(2 \pi \Sigma_0)}+\mu_1^T \Sigma_1^{-1}\mu_1-\mu_0^T \Sigma_0^{-1}\mu_0)

也就是說,對于高斯分布的兩個類別,它們的決策邊界是一個二次方程,也被稱作二次判別方程(quadratic discriminant functions (QDA))。

而當(dāng)兩個類別的協(xié)方差相等\Sigma_0 = \Sigma_1時, 決策邊界為線性的,也被稱為線性判別方程(linear discriminant functions(LDA)),對應(yīng)的參數(shù)是
A = 0,
\alpha^T = (\mu_1^T -\mu_0^T )\Sigma^{-1},
\alpha_0 = ln \frac{p(y=0)}{p(y=1)} + \frac{1}{2} (\mu_1+\mu_0) ^T\Sigma^{-1}(\mu_1-\mu_0)

線性決策邊界和二次決策邊界

F(\mathbf{x}) = \mathbf{x}^T \mathbf{A}\mathbf{x} + \mathbf{\alpha}^T \mathbf{x} + \alpha_0,這個非線性的形式可以轉(zhuǎn)換為一種線性的表示。假設(shè)有x=(x_1, x_2),二次決策邊界可以看作是在五維空間(x_1,x_2,x_1x_2,x_1^2,x_2^2)里尋找線性決策邊界,此空間中的線性不等式與原始空間中的二次不等式相同。

LDA與QDA都被廣泛使用,并且都有較好的效果,但是之后會主要關(guān)注于LDA。

3. Logistic回歸

假設(shè)后驗概率為
p(y=0|x) = \frac{1}{1+e^{w^Tx+b}} = 1-g(w^Tx)
p(y=1|x) = \frac{e^{w^Tx+b}}{1+e^{w^Tx+b}} = g(w^Tx)
可以通過極大似然法來估計參數(shù),對數(shù)似然函數(shù)(log_likelihood)為:
L(w,b)=\sum_{i=1}^m lnp(y_i|x_i)
=\sum(y_ilnf(w^Tx_i)+(1-y_i)ln(1-f(w^Tx_i)))
=\sum^m_{i=1}(y_i ln \frac{e^{w^Tx_i}}{1+e^{w^Tx_i}}+(1-y_i)ln \frac{1}{1+e^{w^Tx_i}})
=\sum_{i=1}^m (y_i w^Tx_i+ln\frac{1}{1+e^ {w^Tx_i}})

最大化這個似然函數(shù)也就等價于最小化負(fù)的似然函數(shù),而負(fù)的似然函數(shù)是可導(dǎo)的連續(xù)凸函數(shù),可以使用梯度下降法、牛頓法等求得最優(yōu)解。
對于牛頓法,第k+1輪的更新公式為:

w^{(k+1)}=w^{(k)}-(\frac{\partial^2}{\partial w \partial w^T} L(w^{(k)}))^{-1} \frac{\partial}{\partial w}L(w^{(k)})
其中一、二階導(dǎo)數(shù)分別為
\frac{\partial L(w)}{\partial w} = -\sum_{i=1}^m (y_i-g(w^Tx))x_i
\frac{\partial^2 L(w)}{\partial w \partial w^T} = \sum_{i=1}^m g(w^Tx_i)(1-g(w^Tx_i))x_ix_i^T

邏輯回歸雖然叫做回歸,但是一種分類方法,優(yōu)點有可以直接對分類的可能性進(jìn)行建模,無需事先假設(shè)數(shù)據(jù)分布,可以得到近似的概率預(yù)測,以及有很好的數(shù)學(xué)性質(zhì),方便取最優(yōu)解等。

當(dāng)使用邏輯回歸處理多分類問題時,如果一個樣本只對應(yīng)一個標(biāo)簽,可以假設(shè)每個樣本屬于不同標(biāo)簽的概率服從于幾何分布,使用多項邏輯回歸(Softmax Regression)來進(jìn)行分類。

當(dāng)存在樣本可能屬于多個標(biāo)簽的情況時,可以訓(xùn)練k個二分類的邏輯回歸分類器。第i個分類器用以區(qū)分每個樣本是否可以歸為第i類,訓(xùn)練該分類器時,需要把標(biāo)簽重新整理為“第i類標(biāo)簽”與“非第i類標(biāo)簽”兩類。通過這樣的辦法,就解決了每個樣本可能擁有多個標(biāo)簽的情況。

Reference

  • Friedman J, Hastie T, Tibshirani R. The elements of statistical learning.
  • 周志華,機(jī)器學(xué)習(xí)
  • 百面機(jī)器學(xué)習(xí)
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容