2021李宏毅機器學(xué)習(xí) 1.3 神經(jīng)網(wǎng)絡(luò)LOSS 筆記

新的Loss Function還是一樣的,L(θ),也就是說損失是與全部這些未知參數(shù)有關(guān)系的。然后Loss function的計算,以及如何通過Loss function來優(yōu)化參數(shù),實際上和線性模型是一樣的。

其中▽是求L的梯度,也就是所有參數(shù)的偏導(dǎo)組成的向量辣,高數(shù)學(xué)過的,這樣表示簡潔一點。


實際訓(xùn)練過程中:

一般并不使用全部training data進行一次參數(shù)更新,而是將全部數(shù)據(jù)分成多個batch,每次使用一個batch進行一次參數(shù)更新(update)

全部batch更新一次,可以看作是訓(xùn)練過了1 epoch;所以1 update 和 1 epoch是不一樣的。


(batch size也是一個超參,要自己確定的)



sigmoid函數(shù)的替換:

可以替換成ReLU,但是和sigmoid比起來,想要擬合藍線的函數(shù),就需要兩個才能擬合了,所以同樣的擬合效果,ReLU需要比sigmoid多兩倍的神經(jīng)元。

sigmoid和ReLU統(tǒng)稱為activation function,激活函數(shù),神經(jīng)網(wǎng)絡(luò)里面的概念。至于哪個比較好,之后講~



一層神經(jīng)元的輸出,可以把它看作新的特征輸入,繼續(xù)再來一層神經(jīng)元,至于有多少層,這也是一個超參數(shù)需要自己來定的。

neuron-神經(jīng)元,整體neural network-神經(jīng)網(wǎng)絡(luò),其中每一列叫一個layer,層數(shù)很多就把它叫做deep learning深度學(xué)習(xí)啦。

這就是神經(jīng)網(wǎng)絡(luò)的概念了… 第一次聽這種講法。



提出問題:既然足夠多的激活函數(shù)就可以一次性擬合任何函數(shù)的形狀,為什么不用一層很多神經(jīng)元的神經(jīng)網(wǎng)絡(luò),而是層數(shù)越來越多了呢?后面會講。


過擬合 over fitting問題:訓(xùn)練集效果變好,但測試集的效果變差了。


至于怎么樣選擇模型,下節(jié)課講辣~第一節(jié)課結(jié)束。

model=設(shè)定好超參的一個function,未知的參數(shù)是看你模型訓(xùn)練的夠不夠好,但是模型本身是func決定的。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容