統(tǒng)計(jì)機(jī)器學(xué)習(xí)-梯度下降法

假設(shè)f(x)\textbf R^n上具有一階連續(xù)偏導(dǎo)數(shù)的函數(shù),要求解的無(wú)約束最優(yōu)化問(wèn)題是
\min_{x\in\textbf R^n}f(x)\tag1
x^*表示目標(biāo)函數(shù)f(x)的極小點(diǎn)。由于負(fù)梯度方向是使函數(shù)數(shù)值下降最快的方向,所以梯度下降法在迭代的每一步,以負(fù)梯度方向更新x的值,從而達(dá)到減少函數(shù)值的目的。

當(dāng)目標(biāo)函數(shù)是凸函數(shù)時(shí),梯度下降法的解是全局最優(yōu)解。一般情況下,其解不保證是全局最優(yōu)解。梯度下降法的收斂速度也未必是很快的。

算法

輸入:目標(biāo)函數(shù)f(x),梯度函數(shù)g(x)=\nabla f(x),計(jì)算精度\varepsilon

輸出:f(x)的極小點(diǎn)x^*。

  1. 取初始值x^{(0)}\in\textbf R^n,置k=0
  2. 計(jì)算f(x^{(k)})
  3. 計(jì)算梯度g_k=g(x^{(k)}),當(dāng)||g_k||\lt\varepsilon時(shí),停止迭代,令x^*=x^{(k)};否則,令p_k=-g(x^{(k)}),通過(guò)一維搜索\lambda_k,使

f(x^{(k)}+\lambda_kp_k)=\min_{\lambda\geq0}f(x^{(k)}+\lambda p_k)

  1. x^{(k+1)}=x^{(k)}+\lambda_kp_k,計(jì)算f(x^{(k+1)})

    當(dāng)||f(x^{(k+1)}-f(x^{(k)})||\lt\varepsilon||x^{(k+1)}-x^{(k)}||\lt\varepsilon時(shí),停止迭代,令x^*=x^{(k+1)}

  2. 否則,置k=k+1,轉(zhuǎn)(3)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容