一、二分類問(wèn)題
背景:用一個(gè)函數(shù)擬合二分類問(wèn)題。最直觀的是階躍函數(shù),但缺點(diǎn):0值不可導(dǎo),因此要連續(xù)可微函數(shù) sigmoid。
sigmoid函數(shù)的作用:
- 線性回歸預(yù)測(cè)值域是實(shí)數(shù)域,邏輯回歸限制預(yù)測(cè)范圍在[0,1]
-
邏輯回歸在0附近是敏感的,模型更關(guān)注分類邊界,因此增強(qiáng)模型魯棒性
回歸問(wèn)題變成分類問(wèn)題。
sigmoid函數(shù)圖像
二、LR的假設(shè)
- 數(shù)據(jù)服從伯努利分布,樣本正類概率p,負(fù)類1-p
- 正類概率是sigmoid函數(shù)計(jì)算的
三、LR相關(guān)的問(wèn)題
1.LR主要解決什么問(wèn)題?目的?
LR假設(shè)數(shù)據(jù)服從伯努利分布,通過(guò)極大化似然函數(shù),運(yùn)用梯度下降求解參數(shù),達(dá)到將數(shù)據(jù)二分類的目的。
2.LR的推導(dǎo)
l(w,b)=Σ ln p(y_i|x_i;w,b)
l'(w) = ... l'(b)=...
3.為什么要用極大似然函數(shù)做損失函數(shù)?交叉熵?fù)p失函數(shù) VS MSE
- 從公式上看,MSE不是嚴(yán)格凸函數(shù)。
- 前者更新速度穩(wěn)定,避免梯度消失。 MSE求偏導(dǎo)時(shí),有一項(xiàng)因子是w,在初始化時(shí)w很小的時(shí)候,容易梯度消失。
概念:極大似然估計(jì)w,b -- 所有樣本出現(xiàn)的概率最大化 ->交叉熵?fù)p失函數(shù)
4. LR如何應(yīng)對(duì)多分類?
(1) OVO
缺點(diǎn): 分類器更多,C(n,2)個(gè)分類器
集成方法:投票機(jī)制,3個(gè)投類1,2個(gè)投類2,最后預(yù)測(cè)為類1
(2) OVR
N個(gè)分類器
集成方法:各個(gè)分類器中,選擇預(yù)測(cè)概率最大的類
(3) Softmax
公式:Softmax
5.線性回歸和邏輯回歸的區(qū)別?
- 解決的問(wèn)題,線性回歸是回歸問(wèn)題、連續(xù)值;
- 損失函數(shù),最小二乘法,MSE;極大似然估計(jì)法,交叉熵?fù)p失函數(shù)
6. 如何解決過(guò)擬合現(xiàn)象?
- 增加正則化:
- L1正則:模型參數(shù)服務(wù)0均值 拉普拉斯分布;傾向于參數(shù)更稀疏
- L2正則:模型參數(shù)服務(wù)0均值 正態(tài)分布;
7. LR為什么要對(duì)特征進(jìn)行離散化
1.離散后對(duì)異常值更具魯棒性
2.離散化后,相當(dāng)于非線性,還可以進(jìn)行特征交叉(同樣是引入非線性),提升表達(dá)能力
8. LR特征稀疏的絕對(duì)值不一定是特征的重要性
- 特征的尺度變化的話,系數(shù)的絕對(duì)值會(huì)變
- 特征是線性相關(guān)的話,系數(shù)就會(huì)轉(zhuǎn)移。
9. 遇到梯度下降,一般都需要?dú)w一化
10.邏輯回歸和MLP的關(guān)系?
隱層到輸出層 = 多類別的邏輯回歸

