LR(Logistic Regression Classifier)簡(jiǎn)述

一、二分類問(wèn)題

背景:用一個(gè)函數(shù)擬合二分類問(wèn)題。最直觀的是階躍函數(shù),但缺點(diǎn):0值不可導(dǎo),因此要連續(xù)可微函數(shù) sigmoid。
sigmoid函數(shù)的作用:

  1. 線性回歸預(yù)測(cè)值域是實(shí)數(shù)域,邏輯回歸限制預(yù)測(cè)范圍在[0,1]
  2. 邏輯回歸在0附近是敏感的,模型更關(guān)注分類邊界,因此增強(qiáng)模型魯棒性
    回歸問(wèn)題變成分類問(wèn)題。


    sigmoid函數(shù)圖像

二、LR的假設(shè)

  1. 數(shù)據(jù)服從伯努利分布,樣本正類概率p,負(fù)類1-p
  2. 正類概率是sigmoid函數(shù)計(jì)算的

三、LR相關(guān)的問(wèn)題

1.LR主要解決什么問(wèn)題?目的?

LR假設(shè)數(shù)據(jù)服從伯努利分布,通過(guò)極大化似然函數(shù),運(yùn)用梯度下降求解參數(shù),達(dá)到將數(shù)據(jù)二分類的目的。

2.LR的推導(dǎo)

l(w,b)=Σ ln p(y_i|x_i;w,b)
l'(w) = ... l'(b)=...

3.為什么要用極大似然函數(shù)做損失函數(shù)?交叉熵?fù)p失函數(shù) VS MSE

  1. 從公式上看,MSE不是嚴(yán)格凸函數(shù)。
  2. 前者更新速度穩(wěn)定,避免梯度消失。 MSE求偏導(dǎo)時(shí),有一項(xiàng)因子是w,在初始化時(shí)w很小的時(shí)候,容易梯度消失。
    概念:極大似然估計(jì)w,b -- 所有樣本出現(xiàn)的概率最大化 ->交叉熵?fù)p失函數(shù)

4. LR如何應(yīng)對(duì)多分類?

(1) OVO
缺點(diǎn): 分類器更多,C(n,2)個(gè)分類器
集成方法:投票機(jī)制,3個(gè)投類1,2個(gè)投類2,最后預(yù)測(cè)為類1
(2) OVR
N個(gè)分類器
集成方法:各個(gè)分類器中,選擇預(yù)測(cè)概率最大的類
(3) Softmax
公式:

Softmax

5.線性回歸和邏輯回歸的區(qū)別?

  1. 解決的問(wèn)題,線性回歸是回歸問(wèn)題、連續(xù)值;
  2. 損失函數(shù),最小二乘法,MSE;極大似然估計(jì)法,交叉熵?fù)p失函數(shù)

6. 如何解決過(guò)擬合現(xiàn)象?

  1. 增加正則化:
  • L1正則:模型參數(shù)服務(wù)0均值 拉普拉斯分布;傾向于參數(shù)更稀疏
  • L2正則:模型參數(shù)服務(wù)0均值 正態(tài)分布;

7. LR為什么要對(duì)特征進(jìn)行離散化

1.離散后對(duì)異常值更具魯棒性
2.離散化后,相當(dāng)于非線性,還可以進(jìn)行特征交叉(同樣是引入非線性),提升表達(dá)能力

8. LR特征稀疏的絕對(duì)值不一定是特征的重要性

  1. 特征的尺度變化的話,系數(shù)的絕對(duì)值會(huì)變
  2. 特征是線性相關(guān)的話,系數(shù)就會(huì)轉(zhuǎn)移。

9. 遇到梯度下降,一般都需要?dú)w一化

10.邏輯回歸和MLP的關(guān)系?

隱層到輸出層 = 多類別的邏輯回歸

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容