L1和L2正則

1.從公式上理解

loss function角度

L1和L2都是將權(quán)重作為懲罰加到Loss function里,L1正則是加了參數(shù)的一范數(shù)之和,L2正則是加了參數(shù)的二范數(shù)之和。

約束條件的角度

對(duì)權(quán)重進(jìn)行約束,L1是約束參數(shù)的絕對(duì)值,L2約束參數(shù)的平方。

貝葉斯角度

假設(shè)權(quán)重滿足一定的分布,L1是假設(shè)權(quán)重符合拉普拉斯分布,L2是假設(shè)權(quán)重符合高斯分布。

2. 效果上的區(qū)別

相同點(diǎn):
都通過降低模型復(fù)雜度來避免過擬合。
不同點(diǎn):
L1能產(chǎn)生稀疏解,去掉一些冗余特征和相關(guān)性比較大的特征,有特征選擇的效果。適用于特征之間有關(guān)聯(lián)的情況;
L2能讓所有參數(shù)都縮小,但是不會(huì)降為0。適用于特征之間沒有關(guān)聯(lián)的情況。

3. L1能產(chǎn)生稀疏解的原因:

L1將所有小于\frac{\lambda}{2}的參數(shù)置為0,L2是起到一個(gè)縮放的效果。
有兩種推導(dǎo)方法:

  1. 從貝葉斯的角度,L1正則是權(quán)重符合拉普拉斯分布,L2正則是符合高斯分布
    參考資料1
  2. 求解析解,令梯度為0,看權(quán)重的計(jì)算公式。用到了泰勒公式
    手推過程
    參考資料2
  • 采用L1,而不是L0的原因: 凸優(yōu)化問題、便于求解

【參考資料】

  1. 最大似然估計(jì)和最小二乘法怎么理解
  2. L1正則化及其推導(dǎo)
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容