LeeML-tasko5

Task 05 網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)

P5:Local minima 與saddle point

訓(xùn)練的時(shí)候,梯度無(wú)法下降,似乎到了 local minima,但從更高維度的空間看實(shí)際上并未到達(dá)minima:它可能卡在plateau、saddle point、local minima。從二維空間看是local minima,在高緯空間看是saddle point.

即,神經(jīng)網(wǎng)絡(luò)訓(xùn)練不起來,兩個(gè)影響因素:1、局部最優(yōu)解;2、出現(xiàn)鞍點(diǎn);

為了判斷是哪一種情況,引入泰勒級(jí)數(shù)展開式:

L(\theta) \approx L(\theta^{‘})+\frac{1}{2}(\theta-\theta^{'})^{T} H (\theta-\theta^{'})\approx L(\theta^{‘})+\frac{1}{2} v^{T}Hv

分情況討論

  1. \frac{1}{2} v^{T}Hv > 0,則L(\theta) < L(\theta^{‘}) \rightarrowLocal minima 即局部最小值

  2. \frac{1}{2} v^{T}Hv < 0,則L(\theta) >L(\theta^{‘}) \rightarrow Local minima 即局部最大值

  3. 若存在\frac{1}{2} v^{T}Hv >0\frac{1}{2} v^{T}Hv <0 \rightarrowSaddle point 即鞍點(diǎn)

P6:Batch與 Momentum

分批處理(Batch),分批處理能夠減少訓(xùn)練的時(shí)間。

  • Small Batch v.s. Lager Batch

batch size =N (full batch ) See all example

batch size =1 See only one example

分批次訓(xùn)練有時(shí)優(yōu)于整批次訓(xùn)練,它可以快速地找到目標(biāo)。

有GPU的加持(具有平行運(yùn)行的能力,進(jìn)行模型訓(xùn)練速度加持),Batch size 大需要的訓(xùn)練時(shí)間不一定比Batch size 小的長(zhǎng)。(但如果數(shù)據(jù)集過來,batch size 小的時(shí)間還是會(huì)更短一些。

example——MINIST:手寫數(shù)字識(shí)別分類

  • smaller batch size has better perfomance

  • 'noisy' update is better for training

Gradient Desent + Momentum

在物理世界,一個(gè)球從山頂滾落,到了saddle point 不會(huì)停下來,(由于慣性/動(dòng)力)到了local minima也不一定會(huì)停下來。這種情況是否能夠運(yùn)用到gradient desent

Gradient Desent + Momentum

  • Starting at\theta^{0}

  • Movementm^{0}=0

  • Compute gradientg^{0}

  • Movement m^{1}=\lambda m^{0}-\eta g^{0}

  • Movement\theta^{1}=\theta^{0}+m^{1}

  • Compute gradientg^{1}

  • Movementm^{2}=\lambda m^{1}-\eta g^{1}

  • Movement \theta^{2}=\theta^{1}+m^{2}

m^{i}is wighted sum of all the previous gradient :g^{0} 、g^{1}、g^{2}

  • m^{0}=0

  • m^{1}=-\eta g^{0}

  • m^{2}=-\lambda \eta g^{0}-\eta g^{1}

gradient desent + Momentum,到了local minima 或 saddle point 梯度能夠繼續(xù)下降。

P7:自動(dòng)調(diào)整學(xué)習(xí)率

不同的參數(shù),不同的學(xué)習(xí)率。

當(dāng)我們的loss在下降的時(shí)候,我們的critical point 真的很小么?答案是并不一定。

訓(xùn)練參數(shù)到非常接近c(diǎn)ritical point,用gredient decent一般是做不到的。

Training can be difficult even without critical point

This error surface is convex.

Learning rate can't be one-size-fits-all

不同的參數(shù)需要什么樣的learning rate,learning rate 如何根據(jù)gradient調(diào)整呢?以某一參數(shù)為例:

\theta_{i}^{t+1}\leftarrow \theta_{i}^{t}-\eta g_{i}^{t}\\ g_{i}^{t}=\frac{\partial L}{\partial \theta_{i}} |_{\theta=\theta^{t}}\\ \theta_{i}^{t+1}\leftarrow \theta_{i}^{t}-\frac{\eta}{\sigma_{i}^{t}}g_{i}^{t}

Compute root mean square

\theta_{i}^{1}\leftarrow \theta_{i}^{0}-\eta g_{i}^{0} \sigma_{i}^{0}=\sqrt{(g_{i}^{0})^{2}}=\left| g_{i}^{0}\right|, 變化量為\eta

\theta_{i}^{2}\leftarrow \theta_{i}^{1}-\eta g_{i}^{1} $$\sigma_{i}^{1}=\sqrt{\frac{1}{2}[g_{i}^{0})^{2}+(g_{i}^{1})^{2}]}

……

\theta_{i}^{t+1}\leftarrow \theta_{i}^{t}-\frac{\eta}{\sigma_{i}^{t}}g_{i}^{t}

\theta_{i}^{t}=\sqrt{\frac{1}{t+1}\sum_{i=0}^{t}{(g_{i}^{t})^{2}}}

Used in adagrad.

RMSProp

Adam:RMSProp+Momentum

Without adaptive learning rate

Learning rate Scheduling

  • Learning Rate Decay

  • Warn up:在很多network里都被視為黑科技。

    at the beginning,the estimate of \theta_{i}^{t} has large variance(在最開始的時(shí)候,需要收集書籍)

summary of optimization

  • (Vanilla) gradient descent

  • Various improvements

P8:損失函數(shù)也可能有影響

Classification v.s. regression

Regression:

x \rightarrow Model \rightarrow y \leftarrow \rightarrow \hat{y}

在進(jìn)行分類的時(shí)候,常見的做法是 用one-hot-vector 表示:

為什么要加softmax ?

Label\hat{y}中的值為0 or1,而 y 可以是任意值,用了softmax,限定y的值在0~1之間。

soft-max是如何運(yùn)作的?

計(jì)算\hat{y} \leftarrow y^{'}

  • Mean square error(MSE)

  • Cross-entropy

P9:Batch Normalization(批次標(biāo)準(zhǔn)化)

changing landscape

Feature Normalization

  • Training

  • Testing

作用:可以使訓(xùn)練的時(shí)候 ,收斂地更快一些。

DL

μ and \sigma denpen on z^{I}

Comupting the moving average of μ and \sigma Of the batches during training。

每訓(xùn)練一批次都會(huì)有對(duì)應(yīng)μ and \sigma

2

Internal covariate shift
Internal covariate shift
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容