CS231n學(xué)習(xí)筆記2

  • 介紹神經(jīng)網(wǎng)絡(luò)

反向傳播(這一小節(jié)非常重要,非常精彩)

這里可以看下視頻,視頻里面介紹了一種計算圖,如下圖所示,綠色的是計算的輸入,紅色的將左邊看作x,右邊當(dāng)作y之后的導(dǎo)數(shù)值,最右邊當(dāng)然是1,df/dx是一樣的,后面根據(jù)chain rule計算最后一個環(huán)節(jié)的導(dǎo)數(shù),然后乘上前面的即是加多一個環(huán)節(jié)的導(dǎo)數(shù)。這里max的很特殊,對其中一個最后一個環(huán)節(jié)為1,一個為0,然后再乘以前面的。



多個指向其中一個,分別相加



向量化的梯度計算

實(shí)踐操作

下面的格式可以看出,梯度是各個x分別計算出來的,因此我們可以針對每個x分別計算下面的表達(dá)式求和即可算出梯度。


神經(jīng)網(wǎng)絡(luò)

各種激活函數(shù)


  • RNN

卷積層(每次卷積只產(chǎn)生一個值)



兩個卷積核



padding



pooling,只是在每一層上面進(jìn)行



  • 激活函數(shù)

sigmoid函數(shù)的問題:

1.在極大和極小的時候梯度幾乎為0,向后映射求解梯度的時候就會出現(xiàn)梯度消失。
2.sigmoid計算出來的值都是大于0的,作為下一層的輸入,計算出來的導(dǎo)數(shù)要么全正要么全負(fù),導(dǎo)致進(jìn)行的方向只能是兩個大方向,會出現(xiàn)zigzag路徑。所以一般我們希望我們的數(shù)據(jù)均值為0(有正有負(fù))。


tanh要好一點(diǎn)

relu:

計算量小
正的方向不存在飽和問題


leaky relu

ELU

訓(xùn)練技巧

1.系數(shù)初始值都非常小,可以大概預(yù)測出lost是否合理
2.用很小的數(shù)據(jù)集看是否可以overfit然后將準(zhǔn)確率大概提升到1
3.learning rate
4.超參數(shù)優(yōu)化
交叉驗(yàn)證
5.初始化不好


計算框架


最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容