1. SGD 梯度下降法
1.1 梯度下降(Gradient Descent)
梯度g指函數(shù)的某處的偏導(dǎo)數(shù),指向函數(shù)上升方向。因此梯度下降法是指用梯度的負數(shù)-g更新參數(shù),從而使下一次計算的結(jié)果向函數(shù)下降方向逼近,從而得到最小值。其中更新時乘的系數(shù)稱為學(xué)習(xí)率。
1.2 批次梯度下降(Batch Gradient Descent)
以所有m個數(shù)據(jù)作為一個批次,每次計算損失loss值和梯度g(偏導(dǎo))時為所有數(shù)據(jù)的累加和,更新每個參數(shù)時也都是以所有數(shù)據(jù)的梯度累加和進行計算更新。
優(yōu)點:下降方向為全局最優(yōu)值 缺點:計算所有數(shù)據(jù)的梯度非常耗時
1.3 隨機梯度下降(Stochastic Gradient Desent, SGD)
雖然m個數(shù)據(jù)為一個批次,但是更新參數(shù)時僅使用隨機一個數(shù)據(jù)的梯度進行更新。
優(yōu)點:很快 缺點:隨機性高,噪聲影響嚴重,不一定向整體最優(yōu)點下降。
1.4 小批次梯度下降 Mini-batch GD(MBGD)
把所有樣本分為n個batch(一般是隨機的),每次計算損失和梯度時用一個batch的數(shù)據(jù)進行計算,并更新參數(shù),從而避免了唯一隨機性和全局計算的耗時性。
優(yōu)點:得到的梯度下降方向是局部最優(yōu)的,整體速度快。
1.6 一般說的 SGD 其實就指的是 Mini-batch GD
參考:知乎專欄-SGD
2. 動量梯度下降 Gradient Dscent with Momentum
梯度下降法可能會停滯到 平原、鞍點和局部最優(yōu)點(在這三個點梯度均為0),因此帶動量的梯度下降法能依靠之前的梯度值,“沖過平原、鞍點和局部最優(yōu)點”,提高泛化性。


3. 自適應(yīng)梯度算法 Adagard(Adaptive gradient)
Adagard 針對不同的變量提供不同的學(xué)習(xí)率。 當一些變量被優(yōu)化到最優(yōu)點,但另外一些變量沒到最優(yōu)點,使用統(tǒng)一的學(xué)習(xí)率就會影響優(yōu)化過程,太大或太小都不合適。太大不容易收斂,太小收斂緩慢。
解決方式:為每一參數(shù)建立歷史累計梯度值,利用歷史累計梯度作為分母,從而使各個參數(shù)在訓(xùn)練后期被給予不同的除數(shù),得到自適應(yīng)參數(shù)值。


參考:知乎專欄
4. RMSprop自適應(yīng)學(xué)習(xí)率算法(root mean square propagation)
Adagard 暴力累加參數(shù)之前的所有梯度平方作為分母進行自適應(yīng)(二階梯度的梯度下降?),而RMSprop進行歷史梯度平方和的加權(quán);
用來控制衰減程度(通常為0.9),每次不再直接累加,而是一個指數(shù)移動平均,即是用二階梯度的移動平均代替當前梯度進行更新參數(shù)。


參考:知乎專欄-RMSprop
5. Adam優(yōu)化器 (Adaptive moment estimation)
Adam 可以看做 RMSprop 與 Momentum 的結(jié)合,使用了一階梯度的指數(shù)移動平均(Momentum)和二階梯度的指數(shù)移動平均(RMSprop)。
優(yōu)點:每一次迭代學(xué)習(xí)率都有一個明確的范圍,使得參數(shù)變化很平穩(wěn).
注意到,在迭代初始階段, 和
有一個向初值的偏移(過多的偏向了 0)。因此,可以對一階和二階動量做偏置校正 (bias correction),

參考:博客-常見的優(yōu)化器,從SGD到Adam優(yōu)化器