梯度下降
假設(shè)我們有一個(gè)函數(shù) J(w),如下圖所示

? ? ? ?其整體思想是先在函數(shù)J(w)上隨機(jī)選取一個(gè)點(diǎn),然后讓其沿著梯度下降的方向進(jìn)行移動(dòng),直到找到函數(shù)的最小值,即導(dǎo)數(shù)等于0的點(diǎn)。但這樣可能會(huì)找到函數(shù)的局部最小值。如下圖

? ? ? ?同時(shí)小心學(xué)習(xí)率的設(shè)置,當(dāng)
過大時(shí),我們?nèi)菀族e(cuò)過局部最小值,當(dāng)
過小時(shí),又需要較長(zhǎng)時(shí)間才能收斂,只有當(dāng)
設(shè)置的恰到好處時(shí),他才能快速的收斂到局部最小值。但由于不知道f(x)的具體形式,我們難以將
設(shè)置的恰到好處。

神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)
? ? ? 神經(jīng)網(wǎng)絡(luò)由三部分組成,分別是最左邊的輸入層,隱藏層(實(shí)際應(yīng)用中遠(yuǎn)遠(yuǎn)不止一層)和最右邊的輸出層。層與層之間用線連接在一起,每條連接線都有一個(gè)對(duì)應(yīng)的權(quán)重值 w,除了輸入層,一般來說每個(gè)神經(jīng)元還有對(duì)應(yīng)的偏置 b

輸入層和隱藏層
? ? ? ? ? ?
? ? ? ? 除了輸入層的神經(jīng)元,每個(gè)神經(jīng)元都會(huì)有加權(quán)求和得到的輸入值 z 和將 z 通過激活函數(shù)(這里采用Relu()函數(shù))非線性轉(zhuǎn)化后的輸出值 a,他們之間的計(jì)算公式如下
relu函數(shù)的優(yōu)點(diǎn)
1、相比起Sigmoid和tanh,ReLU在SGD中能夠快速收斂。
2.Sigmoid和tanh涉及了很多很expensive的操作(比如指數(shù)),ReLU可以更加簡(jiǎn)單的實(shí)現(xiàn)。
3.有效緩解了梯度消失的問題。
4.在沒有無監(jiān)督預(yù)訓(xùn)練的時(shí)候也能有較好的表現(xiàn)。
5.提供了神經(jīng)網(wǎng)絡(luò)的稀疏表達(dá)能力
深度學(xué)習(xí)中各種激活函數(shù)的優(yōu)缺點(diǎn)
輸出層
輸出層采用softmax函數(shù)
softmax函數(shù)用于多分類結(jié)構(gòu),它將多個(gè)神經(jīng)元的輸出,映射到(0,1)區(qū)間內(nèi),可以看成概率來理解,從而來進(jìn)行多分類!假設(shè)我們有一個(gè)數(shù)組,V,Vi表示V中的第i個(gè)元素,那么這個(gè)元素的softmax值就是:
更形象的如圖所示:

損失函數(shù)采用了交叉熵?fù)p失函數(shù)
softmax函數(shù)和交叉熵?fù)p失函數(shù)
最后采用隨機(jī)梯度下降來實(shí)現(xiàn)
總結(jié)
神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn):
?網(wǎng)絡(luò)實(shí)質(zhì)上實(shí)現(xiàn)了一個(gè)從輸入到輸出的映射功能,而數(shù)學(xué)理論已證明它具有實(shí)現(xiàn)任何復(fù)雜非線性映射的功能。這使得它特別適合于求解內(nèi)部機(jī)制復(fù)雜的問題。
網(wǎng)絡(luò)能通過學(xué)習(xí)帶正確答案的實(shí)例集自動(dòng)提取“合理的”求解規(guī)則,即具有自學(xué)習(xí)能力
網(wǎng)絡(luò)具有一定的推廣、概括能力
神經(jīng)網(wǎng)絡(luò)的缺點(diǎn):
對(duì)初始權(quán)重(學(xué)習(xí)率)非常敏感,極易收斂于局部極小
容易 過度擬合 和 過度訓(xùn)練
如何選擇隱藏層數(shù)和神經(jīng)元個(gè)數(shù)沒有一個(gè)科學(xué)的指導(dǎo)流程,完全是拍腦袋想出來的