假設(shè)我們知道網(wǎng)絡(luò)輸出和實(shí)際輸出之間的區(qū)別,我們?cè)鯓诱{(diào)整網(wǎng)絡(luò)參數(shù)使他們接近
一種代價(jià)函數(shù)形式

Paste_Image.png
一種weight decay代價(jià)函數(shù)形式

Paste_Image.png
參數(shù)如何初始化實(shí)際上是一個(gè)problem,后面會(huì)有相應(yīng)討論,這里簡單的以高斯分布討論。
修正參數(shù)的原理,只要間隔取得小,就能收斂。雖然這是非凸函數(shù),會(huì)收斂到局部最小值,但是事實(shí)證明結(jié)果是好的。

Paste_Image.png
所以這個(gè)梯度的求法就很關(guān)鍵了,這里上BP(反向傳播算法)

Paste_Image.png
重點(diǎn)來了——BP計(jì)算步驟##
1.先前向傳播,this is easy
2.然后計(jì)算最后一層整體的偏差量

Paste_Image.png
3.從后往前逐層計(jì)算前一層的偏差量

Paste_Image.png
4.最后由每一層的偏差量計(jì)算W與b的梯度,此即為更新時(shí)需要用到的值

Paste_Image.png
Some trick
如何保證計(jì)算出的梯度是正確的——梯度檢查

Paste_Image.png