GD(梯度下降)和SGD(隨機(jī)梯度下降)

相同點(diǎn)

在GD和SGD中,都會(huì)在每次迭代中更新模型的參數(shù),使得代價(jià)函數(shù)變小。

不同點(diǎn)

GD

在GD中,每次迭代都要用到全部訓(xùn)練數(shù)據(jù)。
假設(shè)線性模型

Paste_Image.png

θ是參數(shù)

代價(jià)函數(shù) :

Paste_Image.png

那么每次GD的更新算法為:

Paste_Image.png

由此算法可知,在對(duì)代價(jià)函數(shù)求偏導(dǎo)時(shí),是需要用到全部的訓(xùn)練數(shù)據(jù)的。

SGD

在SGD中,每次迭代可以只用一個(gè)訓(xùn)練數(shù)據(jù)來更新參數(shù)。
回到GD的更新算法,假設(shè)此時(shí)我們此時(shí)訓(xùn)練數(shù)據(jù)就只有一條(x,y),

Paste_Image.png

所以此時(shí)的更新參數(shù)的算法變?yōu)椋?/p>

Paste_Image.png

此時(shí)更新的算法,只用到了一個(gè)樣本。
其實(shí)具象的理解下,就是來了一條訓(xùn)練數(shù)據(jù),算下此時(shí)根據(jù)模型算出的值和實(shí)際值的差距,如果差距大,那么參數(shù)更新的幅度大,反之則小。

總結(jié)

當(dāng)訓(xùn)練數(shù)據(jù)過大時(shí),用GD可能造成內(nèi)存不夠用,那么就可以用SGD了,SGD其實(shí)可以算作是一種online-learning。另外SGD收斂會(huì)比GD快,但是對(duì)于代價(jià)函數(shù)求最小值還是GD做的比較好,不過SGD也夠用了。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 第二個(gè)Topic講深度學(xué)習(xí),承接前面的《淺談機(jī)器學(xué)習(xí)基礎(chǔ)》。 深度學(xué)習(xí)簡(jiǎn)介 前面也提到過,機(jī)器學(xué)習(xí)的本質(zhì)就是尋找最...
    我偏笑_NSNirvana閱讀 16,193評(píng)論 7 49
  • 原文章為scikit-learn中"用戶指南"-->"監(jiān)督學(xué)習(xí)的第五節(jié):Stochastic Gradient D...
    HabileBadger閱讀 5,993評(píng)論 0 3
  • 前言 梯度下降算法現(xiàn)在變的越來越流行,但是對(duì)于使用者來說,它的優(yōu)化過程變的越來越黑盒。本文我們介紹下不通梯度下降算...
    wendaJ閱讀 1,645評(píng)論 0 1
  • 梯度下降法求解最小二乘 1、批量梯度下降法 (1)構(gòu)造損失函數(shù) (2)求梯度對(duì)J(theta)關(guān)于theta求偏導(dǎo)...
    wlj1107閱讀 2,737評(píng)論 0 0
  • 轉(zhuǎn)自http://blog.csdn.net/heyongluoyao8/article/details/5247...
    扎Zn了老Fe閱讀 1,695評(píng)論 0 10

友情鏈接更多精彩內(nèi)容