轉(zhuǎn)自知乎?https://zhuanlan.zhihu.com/p/32230623
首先定義:待優(yōu)化參數(shù):,目標(biāo)函數(shù):
?,初始學(xué)習(xí)率 :
而后,開始進(jìn)行迭代優(yōu)化。在每個(gè)epoch??
計(jì)算目標(biāo)函數(shù)關(guān)于當(dāng)前參數(shù)的梯度:??
根據(jù)歷史梯度計(jì)算一階動(dòng)量和二階動(dòng)量:
,
計(jì)算當(dāng)前時(shí)刻的下降梯度:?
根據(jù)下降梯度進(jìn)行更新:?
掌握了這個(gè)框架,你可以輕輕松松設(shè)計(jì)自己的優(yōu)化算法。步驟3、4對(duì)于各個(gè)算法都是一致的,主要的差別就體現(xiàn)在1和2上