新的Loss Function還是一樣的,L(θ),也就是說損失是與全部這些未知參數(shù)有關(guān)系的。然后Loss function的計算,以及如何通過Loss function來優(yōu)化參數(shù),實際上和線性模型是一樣的。

其中▽是求L的梯度,也就是所有參數(shù)的偏導(dǎo)組成的向量辣,高數(shù)學(xué)過的,這樣表示簡潔一點。

實際訓(xùn)練過程中:
一般并不使用全部training data進行一次參數(shù)更新,而是將全部數(shù)據(jù)分成多個batch,每次使用一個batch進行一次參數(shù)更新(update)
全部batch更新一次,可以看作是訓(xùn)練過了1 epoch;所以1 update 和 1 epoch是不一樣的。

sigmoid函數(shù)的替換:
可以替換成ReLU,但是和sigmoid比起來,想要擬合藍線的函數(shù),就需要兩個才能擬合了,所以同樣的擬合效果,ReLU需要比sigmoid多兩倍的神經(jīng)元。

sigmoid和ReLU統(tǒng)稱為activation function,激活函數(shù),神經(jīng)網(wǎng)絡(luò)里面的概念。至于哪個比較好,之后講~

一層神經(jīng)元的輸出,可以把它看作新的特征輸入,繼續(xù)再來一層神經(jīng)元,至于有多少層,這也是一個超參數(shù)需要自己來定的。

neuron-神經(jīng)元,整體neural network-神經(jīng)網(wǎng)絡(luò),其中每一列叫一個layer,層數(shù)很多就把它叫做deep learning深度學(xué)習(xí)啦。
這就是神經(jīng)網(wǎng)絡(luò)的概念了… 第一次聽這種講法。
提出問題:既然足夠多的激活函數(shù)就可以一次性擬合任何函數(shù)的形狀,為什么不用一層很多神經(jīng)元的神經(jīng)網(wǎng)絡(luò),而是層數(shù)越來越多了呢?后面會講。
過擬合 over fitting問題:訓(xùn)練集效果變好,但測試集的效果變差了。

至于怎么樣選擇模型,下節(jié)課講辣~第一節(jié)課結(jié)束。
model=設(shè)定好超參的一個function,未知的參數(shù)是看你模型訓(xùn)練的夠不夠好,但是模型本身是func決定的。