16.深度學(xué)習(xí)之優(yōu)化算法-2

16.1 RMSProp

  • RMSProp算法對AdaGrad算法做了修改,僅累積最近迭代的梯度

    • 使用指數(shù)衰減來實現(xiàn)


  • 和AdaGrad算法一樣,RMSProp算法將目標(biāo)函數(shù)自變量中每個元素的學(xué)習(xí)率通過按元素運(yùn)算重新調(diào)整,然后更新自變量


16.2 AdaDelta算法

16.3 Adam算法

  • Adam算法結(jié)合了動量優(yōu)化和 RMSProp 的思想
  • 算法
    • 動量變量
  • 將小批量隨機(jī)梯度按元素平方后的項做指數(shù)加權(quán)移動平均得到
  • 由于將
  • 中的元素都初始化為0, 在時間步t得到
  • 將過去各時間步小批量隨機(jī)梯度的權(quán)值相加,得到
  • 需要注意的是,當(dāng)t較小時,過去各時間步小批量隨機(jī)梯度權(quán)值之和會較小。

  • 例如,當(dāng)


  • 在Adam算法中,對變量


  • 均作偏差修正:


  • 接下來,Adam算法使用以上偏差修正后的變量


  • 將模型參數(shù)中每個元素的學(xué)習(xí)率通過按元素運(yùn)算重新調(diào)整:


  • 最后,使用


  • 迭代自變量:


16.4 深度學(xué)習(xí)為什么不用二階優(yōu)化

  • 目前深度學(xué)習(xí)中,反向傳播主要是依靠一階梯度。
  • 二階梯度在理論和實際上都是可以應(yīng)用都網(wǎng)絡(luò)中的,但相比于一階梯度,二階優(yōu)化會存在以下一些主要問題:
    • 計算量大,訓(xùn)練非常慢。
    • 二階方法能夠更快地求得更高精度的解
    • 穩(wěn)定性

16.5 超參數(shù)的重要性順序

  • 學(xué)習(xí)率
    • 在網(wǎng)絡(luò)參數(shù)、優(yōu)化參數(shù)、正則化參數(shù)中最重要的超參數(shù)可能就是學(xué)習(xí)率了。
  • 損失函數(shù)上的可調(diào)參數(shù),這些損失一般可分成三類:
    • 第一類輔助損失結(jié)合常見的損失函數(shù),起到輔助優(yōu)化特征表達(dá)的作用。
      • 例如度量學(xué)習(xí)中的Center loss,通常結(jié)合交叉熵?fù)p失伴隨一個權(quán)重完成一些特定的任務(wù)。
      • 這種情況下一般建議輔助損失值不高于或者不低于交叉熵?fù)p失值的兩個數(shù)量級;
    • 第二類,多任務(wù)模型的多個損失函數(shù),每個損失函數(shù)之間或獨(dú)立或相關(guān),用于各自任務(wù),這種情況取決于任務(wù)之間本身的相關(guān)性
    • 第三類,獨(dú)立損失函數(shù)
  • 批樣本數(shù)量
    • 過小的批數(shù)量,極端情況下,例如batch size為1,即每個樣本都去修正一次梯度方向,樣本之間的差異越大越難以收斂。
    • 而過大的batch size,會使得梯度方向基本穩(wěn)定,容易陷入局部最優(yōu)解,降低精度。
    • 一般參考范圍會取在[1:1024]之間
  • 動量優(yōu)化器(Gradient Descent with Momentum)的動量參數(shù)β。
    • 動量衰減參數(shù)β是計算梯度的指數(shù)加權(quán)平均數(shù),并利用該值來更新參數(shù),設(shè)置為 0.9 是一個常見且效果不錯的選擇;
  • Adam優(yōu)化器的超參數(shù)、權(quán)重衰減系數(shù)、丟棄法比率(dropout)
    • Adam優(yōu)化器中的β1,β2,?,常設(shè)為 0.9、0.999、10?8就會有不錯的表現(xiàn)
    • 權(quán)重衰減系數(shù)通常會有個建議值,例如0.0005
    • dropout通常會在全連接層之間使用防止過擬合,建議比率控制在[0.2,0.5]之間
  • dropout的位置
    • 一、在RNN中,一般會建議放在輸入和輸出層;
    • 二、不建議dropout后直接跟上batchnorm;
  • 網(wǎng)絡(luò)參數(shù)通常也屬于超參數(shù)的范圍內(nèi),通常情況下增加網(wǎng)絡(luò)層數(shù)能增加模型的容限能力,但模型真正有效的容限能力還和樣本數(shù)量和質(zhì)量、層之間的關(guān)系等有關(guān)
  • 模型深度
  • 卷積核尺寸

大數(shù)據(jù)視頻推薦:
騰訊課堂
CSDN
大數(shù)據(jù)語音推薦:
企業(yè)級大數(shù)據(jù)技術(shù)應(yīng)用
大數(shù)據(jù)機(jī)器學(xué)習(xí)案例之推薦系統(tǒng)
自然語言處理
大數(shù)據(jù)基礎(chǔ)
人工智能:深度學(xué)習(xí)入門到精通

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容