Review
回顧在線性回歸中函數(shù)最優(yōu)化計算的過程中,需要對梯度進(jìn)行計算,然后一步一步微調(diào)參數(shù)w和b,最后得到一個使loss最小的最優(yōu)解。

每次都是沿著法線的方向?qū)Y(jié)果進(jìn)行微調(diào)修改參數(shù)

Tip 1: Tuning your learning rates
如果學(xué)習(xí)率過大,就會在最低點(diǎn)上面來回動蕩,永遠(yuǎn)都到不了最低點(diǎn);
如果學(xué)習(xí)率過小,就會使收斂過慢,需要訓(xùn)練很久才能到達(dá)最優(yōu)結(jié)果。

可以對學(xué)習(xí)率實時進(jìn)行調(diào)整,一開始很大,然后逐漸減少。這個就是常規(guī)的方法,也稱Vanilla Gradient dedcent

更好的解決方案:Adagrad。
用前一次的學(xué)習(xí)率乘以vanilla參數(shù)然后再除以前面所有梯度的均方根。


對Adagrag進(jìn)行簡化

問題:在Adagrag中,分子和分母的變化方向是一樣的,是否造成矛盾?

直觀的理由是造成一種反差的效果:
- 當(dāng)前面幾步比較慢的時候,后面會根據(jù)前面的梯度下降的值計算出一個比較小的均方根,導(dǎo)致下一步比較大;
-
當(dāng)前面幾步比較快的時候,后面會根據(jù)前面的梯度下降的值計算出一個比較大的均方根,導(dǎo)致下一步比較?。?/p>
最優(yōu)的梯度下降方法應(yīng)該是接近最低點(diǎn)的時候梯度下降速度減慢,而不是一直保持一個線性的值。
Tip 2: Stochastic Gradient Descent
思想:只對一個隨機(jī)的樣品進(jìn)行梯度下降——加快訓(xùn)練速度

傳統(tǒng)的梯度下降:一步要計算20個;隨機(jī)梯度下降:一步計算一個,20步計算20個。

Tip 3: Feature Scaling
特征縮放:使不同的特征擁有一樣的規(guī)模大小

原因:使梯度線偏向于一個圓形,更好的進(jìn)行梯度下降

縮放方法:使數(shù)據(jù)的平均值為0,方差為1

為什么梯度下降方法有效?
梯度下降的目標(biāo):給定一個點(diǎn),找到一個最“陡峭”的方向前進(jìn)一步。如何找到這一個陡峭的方向?

泰勒公式:



圓圈的半徑足夠小,即學(xué)習(xí)率足夠小,每次沿著梯度下降最快的方向走一步,就會找到圓圈內(nèi)最小值


兩個參數(shù)的情況:


雖然Gradient Descent方法有效找到一個“最低點(diǎn)”,但是還是會存在很多的問題,我們會在以后的學(xué)習(xí)中去解決它們。

膠片來自于臺灣大學(xué)李宏毅教授的《機(jī)器學(xué)習(xí)課程》,侵刪!





