久久青青操,亚洲日韩精品一区,99青青青

文末給出算法的具體實(shí)現(xiàn)，心急的話可以直接跳到最后看
寫完了才發(fā)現(xiàn)有大神寫過了，理論也更完備一些

由于參數(shù)矢量的每個(gè)維度都可以以完全不同的方式與全局cost相關(guān)，所以可以補(bǔ)償這些差異的每維度學(xué)習(xí)速率通常是很有用的。

2012年之前的一個(gè)新的方法
僅僅使用一階信息但是有一些二階的性質(zhì)和思路在里面（？？）

ADAGRAD
η：所有維度共享的學(xué)習(xí)率
分母是對(duì)之前學(xué)習(xí)率在每個(gè)維度的平方的累和（每個(gè)維度的梯度是最前所有的梯度在這個(gè)維度上的累和，所以是一直增加的）
由于這種動(dòng)態(tài)速率隨著梯度幅度的倒數(shù)而增長(zhǎng)，所以較大的梯度具有較小的學(xué)習(xí)率，而小梯度具有較大的學(xué)習(xí)率。
因?yàn)樯窠?jīng)網(wǎng)絡(luò)中不同層之間的梯度的差距通常達(dá)到幾個(gè)數(shù)量級(jí)，所以這種方法可以被考慮在內(nèi)
分母中梯度的積累與退火有這類似的效果，降低了學(xué)習(xí)的速率。由于梯度在分母中的積累，學(xué)習(xí)率將逐漸下降最終至0（這個(gè)不好）
因?yàn)闊o視了梯度的大小，這種方法對(duì)于參數(shù)的初始條件和對(duì)應(yīng)的梯度大小可能是敏感的，初始梯度大的話，之后的學(xué)習(xí)速率會(huì)下降。但是可以通過增加全局學(xué)習(xí)率來緩解這種情況。

上述方法僅利用梯度和函數(shù)評(píng)估來優(yōu)化目標(biāo)，二階方法（如牛頓法或準(zhǔn)牛頓法）可以使用黑塞矩陣或近似值。當(dāng)然計(jì)算可能會(huì)因此變得更加昂貴。
計(jì)算黑塞矩陣（多元函數(shù)二階導(dǎo)數(shù)打那個(gè)矩陣）的逆矩陣開銷太大，可以通過對(duì)它做對(duì)角矩陣的倒數(shù)近似（？diagonal approximation）黑塞矩陣的逆矩陣來減少計(jì)算量（僅需再多一次額外的forward and back-propagation）

update
μ是改善小曲率區(qū)域的黑塞矩陣調(diào)節(jié)的小常數(shù)。
引入黑塞矩陣和類ADAGRAD項(xiàng)可以減輕對(duì)指定學(xué)習(xí)率的需要( Schaul發(fā)現(xiàn)）

對(duì)ADAGRAD以下缺點(diǎn)的改進(jìn)：

在一個(gè)window w 內(nèi)對(duì)梯度累和，而不是所有的梯度。
因?yàn)榇娣?w 之前的梯度是低效的，所以可以用對(duì)先前所有梯度均值（使用RMS即均方根值實(shí)現(xiàn)）的一個(gè)指數(shù)衰減作為代替的實(shí)現(xiàn)方法。

改進(jìn)希望?x和x之間的units一致（？量綱一致，不是很清楚），而SGD，Momentum，ADAGRAD中的units并不一致，所以他們的參數(shù)更新都是unitsless的

SGD/Momentum/ADAGRAD:unitsless
但是使用黑塞矩陣的話可以保證units一致（因?yàn)槎A）

Hessian Approximation: correct units
基于[Becker&LeCun 1988]的近似方法
進(jìn)而
最后得出近似黑塞矩陣的逆矩陣的表達(dá)式
其中假設(shè)x附近的曲率是平滑的，而Xt-1可以近似xt
最后的x更新表達(dá)式
由于RMS始終大于0，確保了X更新的方向始終與負(fù)梯度同向。
分子作為一個(gè)加速項(xiàng)，作為動(dòng)量在時(shí)間窗口w上積累先前的梯度。
分母與ADAGRAD相關(guān)，因?yàn)槊烤S度的平方梯度信息有助于平衡每個(gè)維度的進(jìn)度，而是在一個(gè)窗口w上計(jì)算，以確保后期的訓(xùn)練。