1.從公式上理解
loss function角度
L1和L2都是將權(quán)重作為懲罰加到Loss function里,L1正則是加了參數(shù)的一范數(shù)之和,L2正則是加了參數(shù)的二范數(shù)之和。
約束條件的角度
對(duì)權(quán)重進(jìn)行約束,L1是約束參數(shù)的絕對(duì)值,L2約束參數(shù)的平方。
貝葉斯角度
假設(shè)權(quán)重滿足一定的分布,L1是假設(shè)權(quán)重符合拉普拉斯分布,L2是假設(shè)權(quán)重符合高斯分布。
2. 效果上的區(qū)別
相同點(diǎn):
都通過降低模型復(fù)雜度來避免過擬合。
不同點(diǎn):
L1能產(chǎn)生稀疏解,去掉一些冗余特征和相關(guān)性比較大的特征,有特征選擇的效果。適用于特征之間有關(guān)聯(lián)的情況;
L2能讓所有參數(shù)都縮小,但是不會(huì)降為0。適用于特征之間沒有關(guān)聯(lián)的情況。
3. L1能產(chǎn)生稀疏解的原因:
L1將所有小于的參數(shù)置為0,L2是起到一個(gè)縮放的效果。
有兩種推導(dǎo)方法:
- 從貝葉斯的角度,L1正則是權(quán)重符合拉普拉斯分布,L2正則是符合高斯分布
參考資料1 - 求解析解,令梯度為0,看權(quán)重的計(jì)算公式。用到了泰勒公式
手推過程
參考資料2
- 采用L1,而不是L0的原因: 凸優(yōu)化問題、便于求解
【參考資料】