weight decay

sgd
神經(jīng)網(wǎng)絡(luò)經(jīng)常加入weight decay來防止過擬合,optimizer使用SGD時(shí)我們所說的weight decay通常指l2 weight decay(即,加在loss中的l2正則化)。公式1:

在梯度更新時(shí)就會(huì)加入一項(xiàng)權(quán)重衰減項(xiàng),公式2是原始的weight dacay公式:

這符合weight decay的原始定義,在權(quán)重比較大時(shí),因?yàn)椴捎孟嗤乃p系數(shù)w,權(quán)重的懲罰也越大(1-w)xt。此時(shí)l2正則可以通過控制權(quán)重大小使公式與原始weight decay相同。所以在我們使用sgd時(shí),加入weight decay通常是用l2 weight decay的方式加入。

sgd+momentum
momentum是一種梯度下降中常用的加速技術(shù),公式3:

當(dāng)此時(shí)loss加入l2正則時(shí),l2 weight decay和weight decay不相等,即公式3和公式2的結(jié)果不同,l2 weight decay方式的權(quán)重衰減項(xiàng)將會(huì)受momentum中v項(xiàng)滑動(dòng)平均影響,但是當(dāng)前很多實(shí)現(xiàn)方式仍然使用l2 weight decay這種方式。
Adam
相比于sgd+momentum,Adam如果使用l2 weight decay將會(huì)受到更大的影響,在計(jì)算梯度時(shí)由于Adam計(jì)算步驟中減去項(xiàng)有除以梯度平方的累積,使得減去項(xiàng)偏小。不能實(shí)現(xiàn)weight decay的原始定義:權(quán)重越大懲罰越大。因此有AdamW的提出,也就是直接使用weight decay來進(jìn)行實(shí)現(xiàn)。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 為了更方便的表述,我選用化名,小慧吧。上午第一節(jié)課是語文,在課堂上提問了一個(gè)很簡單的問題,只需要從課本上找...
    咖妹閱讀 247評論 0 3
  • 蹭吃專用戶,今天又去二姐家蹭吃蹭喝,開心,幸福。
    蘭心_4d38閱讀 207評論 0 0
  • 二 派對 無神論者自然不會(huì)認(rèn)為世界上有什么超自然現(xiàn)象,什么麥田怪圈,什么ufo。。。陸小陸就...
    我是劉小劉啊閱讀 345評論 0 0
  • yum介紹yellow dog update主要是為了安裝rpm依賴關(guān)系的yum 源總的配置在/etc/yum.c...
    stepyu閱讀 343評論 0 0
  • 23起立鼓掌 愿他們以感謝為祭獻(xiàn)給祂,歡呼述說祂的作為?。ㄔ?07:22) 越來越喜歡這本書,喜歡里面每句話每個(gè)字...
    廉志芳閱讀 390評論 0 2

友情鏈接更多精彩內(nèi)容