深度學習-多層感知機

多層感知機

概念:多層感知機就是含有至少一個隱藏層的由全連接層組成的神經(jīng)網(wǎng)絡(luò),且每個隱藏層的輸出通過激活函數(shù)進行變換。多層感知機的層數(shù)和各隱藏層中隱藏單元個數(shù)都是超參數(shù)。以單隱藏層為例并沿用本節(jié)之前定義的符號,多層感知機按以下方式計算輸出:

激活函數(shù)

激活函數(shù) 公式 導數(shù)公式 優(yōu)點 缺點
ReLU max(x, 0) \text{Relu} '(x) = \begin {cases}1, x>0 \\0, x\leq 0 \end {cases} 不會同時激活所有神經(jīng)元,使得計算高效 x<0,梯度是0,導致神經(jīng)元死亡,權(quán)重無法更新
Sigmod \frac {1}{1+e^ {-x} } {sigmoid} (x) \left(1-\text{sigmoid}(x)\right) 非線性,適合輸出層 兩邊太平滑導致學習率低;輸出不是以0為中心
Tanh \frac {e^x-e^{-x}}{e^x+e^{-x}} tanh'(x)= 1-tanh(x)^2 彌補了sigmod很多缺陷 兩邊太平滑會導致學習率低
激活函數(shù) 原公式圖像 導數(shù)公式圖像
ReLU
relu.png
relu_grad.png
Sigmod
sigmod.png
sigmod_grad.png
Tanh
tanh.png
tanh_grad.png

激活函數(shù)的選擇

1.通用情況下選擇ReLu函數(shù)。注意:ReLu函數(shù)只能在隱藏層使用。如果出現(xiàn)死神經(jīng)元,選擇PReLu函數(shù)。
2.分類問題中,Sigmod函數(shù)及其組合通常效果更好,但應避免梯度消失問題。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容