1. 后驗概率與logistic函數(shù)
在貝葉斯分類中提到過后驗概率,直接對后驗概率建模的計算判別模型。
對于一個二分類的模型,有
因此我們可以將時的后驗概率看作是
可以得到的后驗概率為:
可以看到上面的后驗概率可以寫成logistic函數(shù)(也叫sigmoid函數(shù))的形式:

Sigmoid函數(shù)有很好的特性,若預(yù)測值大于0就判為正例,小于0就判為反例,臨界值的概率為0.5. Sigmoid的導(dǎo)數(shù)可以推到得到(不復(fù)雜,懶得寫過程了)是:
2. 決策邊界
決策邊界用于在特征空間區(qū)分兩個類別,在決策邊界上的點滿足, 因為在分類邊界上的點不能判斷屬于哪個類別。因此在邊界上有:
假設(shè)兩個類別的樣本都滿足d維的高斯分布,則有
可以看到前兩項都是常數(shù),展開第三項可以得到:
綜合一下可以得到,可以寫成以下形式:
其中,,
,
也就是說,對于高斯分布的兩個類別,它們的決策邊界是一個二次方程,也被稱作二次判別方程(quadratic discriminant functions (QDA))。
而當(dāng)兩個類別的協(xié)方差相等時, 決策邊界為線性的,也被稱為線性判別方程(linear discriminant functions(LDA)),對應(yīng)的參數(shù)是
,
,

,這個非線性的形式可以轉(zhuǎn)換為一種線性的表示。假設(shè)有
,二次決策邊界可以看作是在五維空間
里尋找線性決策邊界,此空間中的線性不等式與原始空間中的二次不等式相同。
LDA與QDA都被廣泛使用,并且都有較好的效果,但是之后會主要關(guān)注于LDA。
3. Logistic回歸
假設(shè)后驗概率為
可以通過極大似然法來估計參數(shù),對數(shù)似然函數(shù)(log_likelihood)為:
最大化這個似然函數(shù)也就等價于最小化負(fù)的似然函數(shù),而負(fù)的似然函數(shù)是可導(dǎo)的連續(xù)凸函數(shù),可以使用梯度下降法、牛頓法等求得最優(yōu)解。
對于牛頓法,第輪的更新公式為:
其中一、二階導(dǎo)數(shù)分別為
邏輯回歸雖然叫做回歸,但是一種分類方法,優(yōu)點有可以直接對分類的可能性進(jìn)行建模,無需事先假設(shè)數(shù)據(jù)分布,可以得到近似的概率預(yù)測,以及有很好的數(shù)學(xué)性質(zhì),方便取最優(yōu)解等。
當(dāng)使用邏輯回歸處理多分類問題時,如果一個樣本只對應(yīng)一個標(biāo)簽,可以假設(shè)每個樣本屬于不同標(biāo)簽的概率服從于幾何分布,使用多項邏輯回歸(Softmax Regression)來進(jìn)行分類。
當(dāng)存在樣本可能屬于多個標(biāo)簽的情況時,可以訓(xùn)練k個二分類的邏輯回歸分類器。第i個分類器用以區(qū)分每個樣本是否可以歸為第i類,訓(xùn)練該分類器時,需要把標(biāo)簽重新整理為“第i類標(biāo)簽”與“非第i類標(biāo)簽”兩類。通過這樣的辦法,就解決了每個樣本可能擁有多個標(biāo)簽的情況。
Reference
- Friedman J, Hastie T, Tibshirani R. The elements of statistical learning.
- 周志華,機(jī)器學(xué)習(xí)
- 百面機(jī)器學(xué)習(xí)