2019-04-28 梯度下降

轉(zhuǎn)自知乎?https://zhuanlan.zhihu.com/p/32230623


首先定義:待優(yōu)化參數(shù):w,目標(biāo)函數(shù):f(w)?,初始學(xué)習(xí)率 :\alpha

而后,開始進(jìn)行迭代優(yōu)化。在每個(gè)epoch?t?

計(jì)算目標(biāo)函數(shù)關(guān)于當(dāng)前參數(shù)的梯度:??g_{t}={\Delta f(w_{t})}

根據(jù)歷史梯度計(jì)算一階動(dòng)量和二階動(dòng)量:

m_{t}=\phi (g_1,g_2,…,g_t)V_t=\psi (g_1,g_2,...,g_t)

計(jì)算當(dāng)前時(shí)刻的下降梯度:?\eta =\alpha \cdot m_{t}/\sqrt{V_t}

根據(jù)下降梯度進(jìn)行更新:?w_{t+1}=w_{t}-\eta

掌握了這個(gè)框架,你可以輕輕松松設(shè)計(jì)自己的優(yōu)化算法。步驟3、4對(duì)于各個(gè)算法都是一致的,主要的差別就體現(xiàn)在1和2上

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容