ML學(xué)習(xí)筆記:Gradient Descent

Review

回顧在線性回歸中函數(shù)最優(yōu)化計算的過程中,需要對梯度進(jìn)行計算,然后一步一步微調(diào)參數(shù)w和b,最后得到一個使loss最小的最優(yōu)解。



每次都是沿著法線的方向?qū)Y(jié)果進(jìn)行微調(diào)修改參數(shù)


Tip 1: Tuning your learning rates

如果學(xué)習(xí)率過大,就會在最低點(diǎn)上面來回動蕩,永遠(yuǎn)都到不了最低點(diǎn);
如果學(xué)習(xí)率過小,就會使收斂過慢,需要訓(xùn)練很久才能到達(dá)最優(yōu)結(jié)果。



可以對學(xué)習(xí)率實時進(jìn)行調(diào)整,一開始很大,然后逐漸減少。這個就是常規(guī)的方法,也稱Vanilla Gradient dedcent



更好的解決方案:Adagrad。
用前一次的學(xué)習(xí)率乘以vanilla參數(shù)然后再除以前面所有梯度的均方根。


對Adagrag進(jìn)行簡化



問題:在Adagrag中,分子和分母的變化方向是一樣的,是否造成矛盾?

直觀的理由是造成一種反差的效果:
  • 當(dāng)前面幾步比較慢的時候,后面會根據(jù)前面的梯度下降的值計算出一個比較小的均方根,導(dǎo)致下一步比較大;
  • 當(dāng)前面幾步比較快的時候,后面會根據(jù)前面的梯度下降的值計算出一個比較大的均方根,導(dǎo)致下一步比較?。?/p>


    最優(yōu)的梯度下降方法應(yīng)該是接近最低點(diǎn)的時候梯度下降速度減慢,而不是一直保持一個線性的值。






Tip 2: Stochastic Gradient Descent

思想:只對一個隨機(jī)的樣品進(jìn)行梯度下降——加快訓(xùn)練速度



傳統(tǒng)的梯度下降:一步要計算20個;隨機(jī)梯度下降:一步計算一個,20步計算20個。


Tip 3: Feature Scaling

特征縮放:使不同的特征擁有一樣的規(guī)模大小



原因:使梯度線偏向于一個圓形,更好的進(jìn)行梯度下降



縮放方法:使數(shù)據(jù)的平均值為0,方差為1

為什么梯度下降方法有效?

梯度下降的目標(biāo):給定一個點(diǎn),找到一個最“陡峭”的方向前進(jìn)一步。如何找到這一個陡峭的方向?



泰勒公式:





圓圈的半徑足夠小,即學(xué)習(xí)率足夠小,每次沿著梯度下降最快的方向走一步,就會找到圓圈內(nèi)最小值




兩個參數(shù)的情況:


雖然Gradient Descent方法有效找到一個“最低點(diǎn)”,但是還是會存在很多的問題,我們會在以后的學(xué)習(xí)中去解決它們。

膠片來自于臺灣大學(xué)李宏毅教授的《機(jī)器學(xué)習(xí)課程》,侵刪!

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容