為什么使用激活函數(shù)?
激活函數(shù)通常有如下一些性質(zhì):
非線性: 當(dāng)激活函數(shù)是非線性的時(shí)候,一個(gè)兩層的神經(jīng)網(wǎng)絡(luò)就可以逼近基本上所有的函數(shù)了。但是,如果激活函數(shù)是恒等激活函數(shù)的時(shí)候(即f(x)=xf(x)=x),就不滿足這個(gè)性質(zhì)了,而且如果MLP使用的是恒等激活函數(shù),那么其實(shí)整個(gè)網(wǎng)絡(luò)跟單層神經(jīng)網(wǎng)絡(luò)是等價(jià)的。
可微性: 當(dāng)優(yōu)化方法是基于梯度的時(shí)候,這個(gè)性質(zhì)是必須的。
單調(diào)性: 當(dāng)激活函數(shù)是單調(diào)的時(shí)候,單層網(wǎng)絡(luò)能夠保證是凸函數(shù)。
f(x)≈xf(x)≈x: 當(dāng)激活函數(shù)滿足這個(gè)性質(zhì)的時(shí)候,如果參數(shù)的初始化是random的很小的值,那么神經(jīng)網(wǎng)絡(luò)的訓(xùn)練將會(huì)很高效;如果不滿足這個(gè)性質(zhì),那么就需要很用心的去設(shè)置初始值。
輸出值的范圍: 當(dāng)激活函數(shù)輸出值是 有限 的時(shí)候,基于梯度的優(yōu)化方法會(huì)更加 穩(wěn)定,因?yàn)樘卣鞯谋硎臼苡邢迿?quán)值的影響更顯著;當(dāng)激活函數(shù)的輸出是 無(wú)限 的時(shí)候,模型的訓(xùn)練會(huì)更加高效,不過(guò)在這種情況小,一般需要更小的learning rate.
神經(jīng)網(wǎng)絡(luò)激勵(lì)函數(shù)的作用是什么?有沒(méi)有形象的解釋?
https://www.zhihu.com/question/22334626
通過(guò)上面的介紹,我們對(duì)激活函數(shù)大體上有了一個(gè)認(rèn)識(shí)。
聯(lián)系之前學(xué)習(xí)過(guò)的機(jī)器學(xué)習(xí)理論,激活函數(shù)和核函數(shù)的作用簡(jiǎn)直是異曲同工!都是在不改變線性模型的條件下,將輸出結(jié)果轉(zhuǎn)變?yōu)榉蔷€性。
常見(jiàn)的激活函數(shù)
sigmod函數(shù)、tanh函數(shù)、修正線性單元ReLU函數(shù)、Leaky ReLU、參數(shù)化ReLU、隨機(jī)化ReLU、指數(shù)化線性單元ELU函數(shù)和PReLU函數(shù)。
具體介紹參考如下文章:
幾種常用激活函數(shù)的簡(jiǎn)介
https://blog.csdn.net/kangyi411/article/details/78969642
來(lái)自獨(dú)秀同學(xué)的深度網(wǎng)絡(luò)數(shù)學(xué)筆記,還不快收藏?
https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650748221&idx=4&sn=77d9c56f39940a2d5bf498d4f57fccff&chksm=871af143b06d785577e0f65f4416a91eef2ef0bc964a43eb9d049404d0e958b481e962d8dfcc&scene=21#wechat_redirect
激活函數(shù)又稱為“”非線性映射函數(shù)“,是深度卷積神經(jīng)網(wǎng)絡(luò)不可或缺的模塊。

直觀上,激活函數(shù)模仿了生物神經(jīng)元特性,接受一組輸入信號(hào)并產(chǎn)生輸出。
小結(jié)
(1)激活函數(shù)對(duì)深度網(wǎng)絡(luò)模型引入非線性;
(2)Sigmoid型函數(shù)是最早的激活函數(shù)之一,但它和tanh(x)型函數(shù)一樣,會(huì)產(chǎn)生梯度飽和現(xiàn)象,故實(shí)際工程中很少使用;

(3)建議使用目前最常用的ReLU函數(shù),但需注意模型參數(shù)初始化和學(xué)習(xí)率的設(shè)定;
(4)其他幾種ReLU函數(shù)實(shí)際性能并無(wú)優(yōu)劣,應(yīng)結(jié)合實(shí)際場(chǎng)景具體討論。