97舔舔操,撸潮无码久久,99噜噜噜在线视频

Sigmoid

torch.nn.Sigmoid

公式

圖形

優(yōu)點(diǎn)：

用于二元分類的激活函數(shù)。

缺點(diǎn)：

梯度消失：當(dāng)輸入 x>5 或 x < -5 時(shí)，變化太緩慢，導(dǎo)數(shù)接近0，根據(jù)后向傳遞的數(shù)學(xué)依據(jù)是微積分求導(dǎo)的鏈?zhǔn)椒▌t，當(dāng)前導(dǎo)數(shù)需要之前各層導(dǎo)數(shù)的乘積，幾個(gè)比較小的數(shù)相乘，導(dǎo)數(shù)結(jié)果很接近0，從而無(wú)法完成深層網(wǎng)絡(luò)的訓(xùn)練。
Sigmoid的輸出不是0均值的：這會(huì)導(dǎo)致后層的神經(jīng)元的輸入是非0均值的信號(hào)，這會(huì)對(duì)梯度產(chǎn)生影響。以 f=sigmoid(wx+b)為例，假設(shè)輸入均為正數(shù)（或負(fù)數(shù)），那么對(duì)w的導(dǎo)數(shù)總是正數(shù)（或負(fù)數(shù)），這樣在反向傳播過(guò)程中要么都往正方向更新，要么都往負(fù)方向更新，導(dǎo)致有一種捆綁效果，使得收斂緩慢。
冪運(yùn)算相對(duì)耗時(shí)。

Tanh

torch.nn.Tanh

公式

圖形

優(yōu)點(diǎn)：

Sigmoid的變種，改善的是tanh函數(shù)將輸出值映射到了-1到1之間，因此它是0均值的了。

缺點(diǎn)：

同樣存在梯度消失和冪運(yùn)算的問(wèn)題。

Softsign

torch.nn.Softsign

公式

圖片

優(yōu)點(diǎn)：

Tanh的變種，解決了冪運(yùn)算問(wèn)題。

缺點(diǎn)：

還存在梯度消失問(wèn)題，但梯度消失的區(qū)間變寬了，適當(dāng)調(diào)整輸入數(shù)據(jù)區(qū)間，還是可以獲得可觀的梯度。

ReLU

torch.nn.ReLU(inplace=False)
ReLU(x)=max(0,x)

圖片

優(yōu)點(diǎn)：

收斂速度比 sigmoid 和 tanh 快；（梯度不會(huì)飽和，解決了梯度消失問(wèn)題）
計(jì)算復(fù)雜度低，不需要進(jìn)行指數(shù)運(yùn)算

缺點(diǎn)：

輸出不是0均值的；
Dead ReLU Problem(神經(jīng)元壞死現(xiàn)象)：某些神經(jīng)元可能永遠(yuǎn)不會(huì)被激活，導(dǎo)致相應(yīng)參數(shù)不會(huì)被更新(在負(fù)數(shù)部分，梯度為0)。產(chǎn)生這種現(xiàn)象的兩個(gè)原因：參數(shù)初始化問(wèn)題；learning rate太高導(dǎo)致在訓(xùn)練過(guò)程中參數(shù)更新太大。解決辦法：采用Xavier初始化方法；以及避免將learning rate設(shè)置太大或使用adagrad等自動(dòng)調(diào)節(jié)learning rate的算法。
ReLu不會(huì)對(duì)數(shù)據(jù)做幅度壓縮，所以數(shù)據(jù)的幅度會(huì)隨著模型層數(shù)的增加不斷擴(kuò)張。

LeakyReLU

torch.nn.LeakyReLU(negative_slope=0.01, inplace=False)

公式

negative_slope 調(diào)整 x<0 部分的斜率

negative_slope=0.01(默認(rèn))

圖片

negative_slope=2.7

圖片

優(yōu)點(diǎn)：

Relu變種，處理了負(fù)值的情況，并解決Relu神經(jīng)元壞死。

缺點(diǎn)：

不會(huì)對(duì)數(shù)據(jù)做幅度壓縮

PReLU

torch.nn.PReLU(num_parameters=1, init=0.25)

公式

其中a 是一個(gè)可學(xué)習(xí)的參數(shù)，當(dāng)不帶參數(shù)調(diào)用時(shí)，即nn.PReLU()，在所有的輸入通道上使用同一個(gè)a，當(dāng)帶參數(shù)調(diào)用時(shí)，即nn.PReLU(nChannels)，在每一個(gè)通道上學(xué)習(xí)一個(gè)單獨(dú)的a。
注意：當(dāng)為了獲得好的performance學(xué)習(xí)一個(gè)a時(shí)，不要使用weight decay。
num_parameters：要學(xué)習(xí)的a的個(gè)數(shù)，默認(rèn)1
init：a的初始值，默認(rèn)0.25
圖形和LeakyReLU 類似
init=0.25(默認(rèn))

圖片

init=2

圖片

ELU

torch.nn.ELU(alpha=1.0, inplace=False)
ELU(x)=max(0,x)+min(0,α?(exp(x)?1))

alpha 調(diào)整 x<0 的部分

alpha=1(默認(rèn))

圖片

alpha=3

圖片

優(yōu)點(diǎn)：

ReLU變種，解決Relu神經(jīng)元壞死，均值為0的輸出、而且處處一階可導(dǎo)

缺點(diǎn)：

冪運(yùn)算問(wèn)題消耗比ReLU大

CELU

torch.nn.CELU(alpha=1.0, inplace=False)
CELU(x)=max(0,x)+min(0,α?(exp(x/α)?1))

`ELU`變種，相對(duì)于`ELU`轉(zhuǎn)折處更平滑

alpha=1 時(shí)和ELUalpha=1 一致
alpha=3

圖片

SELU

torch.nn.SELU(inplace=False)
SELU(x)=scale?(max(0,x)+min(0,α?(exp(x)?1)))
α=1.6732632423543772848170429916717
scale=1.0507009873554804934193349852946