91资源在线精品福利,欧美成人AA一区二区,99er精品播放

Task 05 網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)

P5:Local minima 與saddle point

訓(xùn)練的時(shí)候，梯度無(wú)法下降，似乎到了 local minima,但從更高維度的空間看實(shí)際上并未到達(dá)minima：它可能卡在plateau、saddle point、local minima。從二維空間看是local minima，在高緯空間看是saddle point.

即，神經(jīng)網(wǎng)絡(luò)訓(xùn)練不起來，兩個(gè)影響因素：1、局部最優(yōu)解；2、出現(xiàn)鞍點(diǎn)；

為了判斷是哪一種情況，引入泰勒級(jí)數(shù)展開式：

$L(\theta) \approx L(\theta^{‘})+\frac{1}{2}(\theta-\theta^{'})^{T} H (\theta-\theta^{'})\approx L(\theta^{‘})+\frac{1}{2} v^{T}Hv$

分情況討論

若 $\frac{1}{2} v^{T}Hv > 0$ ，則 $L(\theta) < L(\theta^{‘}) \rightarrow$ Local minima 即局部最小值
若 $\frac{1}{2} v^{T}Hv < 0，則L(\theta) >L(\theta^{‘}) \rightarrow$ Local minima 即局部最大值
若存在 $\frac{1}{2} v^{T}Hv >0$ 和 $\frac{1}{2} v^{T}Hv <0 \rightarrow$ Saddle point 即鞍點(diǎn)

P6:Batch與 Momentum

分批處理（Batch），分批處理能夠減少訓(xùn)練的時(shí)間。

Small Batch v.s. Lager Batch

batch size =N (full batch ) See all example

batch size =1 See only one example

分批次訓(xùn)練有時(shí)優(yōu)于整批次訓(xùn)練，它可以快速地找到目標(biāo)。

有GPU的加持（具有平行運(yùn)行的能力，進(jìn)行模型訓(xùn)練速度加持），Batch size 大需要的訓(xùn)練時(shí)間不一定比Batch size 小的長(zhǎng)。（但如果數(shù)據(jù)集過來，batch size 小的時(shí)間還是會(huì)更短一些。

example——MINIST：手寫數(shù)字識(shí)別分類

smaller batch size has better perfomance
'noisy' update is better for training

Gradient Desent + Momentum

在物理世界，一個(gè)球從山頂滾落，到了saddle point 不會(huì)停下來，（由于慣性/動(dòng)力）到了local minima也不一定會(huì)停下來。這種情況是否能夠運(yùn)用到gradient desent

Gradient Desent + Momentum

Starting at $\theta^{0}$
Movement $m^{0}=0$
Compute gradient $g^{0}$
Movement $m^{1}=\lambda m^{0}-\eta g^{0}$
Movement $\theta^{1}=\theta^{0}+m^{1}$
Compute gradient $g^{1}$
Movement $m^{2}=\lambda m^{1}-\eta g^{1}$
Movement $\theta^{2}=\theta^{1}+m^{2}$

$m^{i}$ is wighted sum of all the previous gradient : $g^{0} 、g^{1}、g^{2}$

$m^{0}=0$
$m^{1}=-\eta g^{0}$
$m^{2}=-\lambda \eta g^{0}-\eta g^{1}$

gradient desent + Momentum，到了local minima 或 saddle point 梯度能夠繼續(xù)下降。

P7:自動(dòng)調(diào)整學(xué)習(xí)率

不同的參數(shù)，不同的學(xué)習(xí)率。

當(dāng)我們的loss在下降的時(shí)候，我們的critical point 真的很小么？答案是并不一定。

訓(xùn)練參數(shù)到非常接近c(diǎn)ritical point，用gredient decent一般是做不到的。

Training can be difficult even without critical point

This error surface is convex.

Learning rate can't be one-size-fits-all

不同的參數(shù)需要什么樣的learning rate，learning rate 如何根據(jù)gradient調(diào)整呢？以某一參數(shù)為例：

$\theta_{i}^{t+1}\leftarrow \theta_{i}^{t}-\eta g_{i}^{t}\\ g_{i}^{t}=\frac{\partial L}{\partial \theta_{i}} |_{\theta=\theta^{t}}\\ \theta_{i}^{t+1}\leftarrow \theta_{i}^{t}-\frac{\eta}{\sigma_{i}^{t}}g_{i}^{t}$