国偷视频一区二区,大香成人AV,男人的大鸡鸡插女人

新的Loss Function還是一樣的，L(θ)，也就是說損失是與全部這些未知參數(shù)有關(guān)系的。然后Loss function的計算，以及如何通過Loss function來優(yōu)化參數(shù)，實際上和線性模型是一樣的。

其中▽是求L的梯度，也就是所有參數(shù)的偏導(dǎo)組成的向量辣，高數(shù)學(xué)過的，這樣表示簡潔一點。

實際訓(xùn)練過程中：

一般并不使用全部training data進行一次參數(shù)更新，而是將全部數(shù)據(jù)分成多個batch，每次使用一個batch進行一次參數(shù)更新（update）

全部batch更新一次，可以看作是訓(xùn)練過了1 epoch；所以1 update 和 1 epoch是不一樣的。

（batch size也是一個超參，要自己確定的）

sigmoid函數(shù)的替換：

可以替換成ReLU，但是和sigmoid比起來，想要擬合藍線的函數(shù)，就需要兩個才能擬合了，所以同樣的擬合效果，ReLU需要比sigmoid多兩倍的神經(jīng)元。

sigmoid和ReLU統(tǒng)稱為activation function，激活函數(shù)，神經(jīng)網(wǎng)絡(luò)里面的概念。至于哪個比較好，之后講~

一層神經(jīng)元的輸出，可以把它看作新的特征輸入，繼續(xù)再來一層神經(jīng)元，至于有多少層，這也是一個超參數(shù)需要自己來定的。

neuron-神經(jīng)元，整體neural network-神經(jīng)網(wǎng)絡(luò)，其中每一列叫一個layer，層數(shù)很多就把它叫做deep learning深度學(xué)習(xí)啦。

這就是神經(jīng)網(wǎng)絡(luò)的概念了… 第一次聽這種講法。

提出問題：既然足夠多的激活函數(shù)就可以一次性擬合任何函數(shù)的形狀，為什么不用一層很多神經(jīng)元的神經(jīng)網(wǎng)絡(luò)，而是層數(shù)越來越多了呢？后面會講。

過擬合 over fitting問題：訓(xùn)練集效果變好，但測試集的效果變差了。

至于怎么樣選擇模型，下節(jié)課講辣~第一節(jié)課結(jié)束。

model=設(shè)定好超參的一個function，未知的參數(shù)是看你模型訓(xùn)練的夠不夠好，但是模型本身是func決定的。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av