[淺層神經(jīng)網(wǎng)絡(luò)]吳恩達(dá)深度學(xué)習(xí)course1week3思考評注


預(yù)告

1.兩層神經(jīng)網(wǎng)絡(luò)的計算表示和矩陣化表示
2.激活函數(shù)和它的導(dǎo)數(shù),神經(jīng)網(wǎng)絡(luò)的梯度下降以及反向傳播
3.隨機(jī)的初始化


1.兩層神經(jīng)網(wǎng)絡(luò)的計算表示和矩陣化表示

Screen Shot 2017-12-03 at 6.33.50 PM.png
Screen Shot 2017-12-03 at 6.36.30 PM.png
Screen Shot 2017-12-03 at 6.36.57 PM.png
Screen Shot 2017-12-03 at 6.37.47 PM.png
Screen Shot 2017-12-03 at 6.39.39 PM.png
Screen Shot 2017-12-03 at 6.40.51 PM.png
Screen Shot 2017-12-03 at 6.42.24 PM.png
Screen Shot 2017-12-03 at 7.17.12 PM.png
Screen Shot 2017-12-03 at 7.34.04 PM.png
Screen Shot 2017-12-03 at 7.34.32 PM.png

2.激活函數(shù)和它的導(dǎo)數(shù),神經(jīng)網(wǎng)絡(luò)的梯度下降以及反向傳播

我們常用的激活函數(shù):
sigmoid(不是二分類問題不要使用它)
tanh
relu
leakyRelu
為什么要使用非線性的激活函數(shù)?因?yàn)槿绻挥镁€性的函數(shù),也就是說identity函數(shù)來輸出的話,不管訓(xùn)練多少層的神經(jīng)網(wǎng)絡(luò)到最后仍然只是一個線性的模型。很多問題用它絕對不足以描述的。
sigmoid和tanh的缺點(diǎn)是在數(shù)據(jù)十分小或者十分大的時候,導(dǎo)數(shù)太小,太接近于0,所以更新w的學(xué)習(xí)速率太慢,梯度下降太慢。
所以目前Relu是很多時候的最佳選擇。當(dāng)然一個問題在實(shí)驗(yàn)以前是很難確定哪個方案更好的(什么激活函數(shù),多少個Hiddenlayer,多少個節(jié)點(diǎn))。


Screen Shot 2017-12-03 at 8.02.52 PM.png
Screen Shot 2017-12-03 at 8.03.15 PM.png
Screen Shot 2017-12-03 at 8.03.33 PM.png
Screen Shot 2017-12-03 at 7.57.59 PM.png

反向傳播:


Screen Shot 2017-12-04 at 9.04.29 AM.png
Screen Shot 2017-12-04 at 9.08.43 AM.png
Screen Shot 2017-12-04 at 9.10.19 AM.png
Screen Shot 2017-12-04 at 9.06.44 AM.png

Screen Shot 2017-12-04 at 9.11.29 AM.png

3.隨機(jī)初始化

Screen Shot 2017-12-04 at 9.27.59 AM.png

Screen Shot 2017-12-04 at 9.31.20 AM.png
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容