ReLU激活函數(shù)進階:自適應參數(shù)化ReLU

本文在綜述傳統(tǒng)激活函數(shù)和注意力機制的基礎(chǔ)上,解讀了一種注意力機制下的激活函數(shù),即自適應參數(shù)化修正線性單元(Adaptively Parametric Rectifier Linear Unit,APReLU),希望對大家有所幫助。

1. 激活函數(shù)

激活函數(shù)是現(xiàn)代人工神經(jīng)網(wǎng)絡的重要組成部分,其作用是實現(xiàn)人工神經(jīng)網(wǎng)絡的非線性化。我們首先來介紹幾種最常見的激活函數(shù),即Sigmoid激活函數(shù)、Tanh激活函數(shù)和ReLU激活函數(shù),分別如下圖所示。


傳統(tǒng)激活函數(shù)

Sigmoid激活函數(shù)和Tanh激活函數(shù)的梯度取值范圍分別是(0,1)和(-1,1)。當層數(shù)較多時,人工神經(jīng)網(wǎng)絡可能會遭遇梯度消失的問題。ReLU激活函數(shù)的梯度要么是零,要么是一,能夠很好地避免梯度消失和梯度爆炸的問題,因此在近年來得到了廣泛的應用。

然而,ReLU激活函數(shù)依然存在一點瑕疵。如果在人工神經(jīng)網(wǎng)絡的訓練過程中,遇到了特征全部小于零的情況,那么ReLU激活函數(shù)的輸出就全部為零。這個時候就訓練失敗了。為了避免這種情況,有些學者就提出了leaky ReLU激活函數(shù),不將小于零的特征置為零,而是將小于零的特征乘以一個很小的系數(shù),例如0.1和0.01。

在leaky ReLU中,這個系數(shù)的取值是人工設置的。但是人工設置的系數(shù)未必是最佳的,因此何愷明等人提出了Parametric ReLU激活函數(shù)(參數(shù)化ReLU激活函數(shù),PReLU激活函數(shù)),將這個系數(shù)設置為一個可以訓練得到的參數(shù),在人工神經(jīng)網(wǎng)絡的訓練過程中和其他參數(shù)一起采用梯度下降法進行訓練。然而,PReLU激活函數(shù)有一個特點:一旦訓練過程完成,則PReLU激活函數(shù)中的這個系數(shù)就變成了固定的值。換言之,對于所有的測試樣本,PReLU激活函數(shù)中這個系數(shù)的取值是相同的。


傳統(tǒng)激活函數(shù)

到這里我們就大概介紹了幾種常用的激活函數(shù)。這些激活函數(shù)有什么問題呢?我們可以思考一下,如果一個人工神經(jīng)網(wǎng)絡采用上述的某種激活函數(shù),抑或是上述多種激活函數(shù)的組合,那么這個人工神經(jīng)網(wǎng)絡在訓練完成之后,在被應用于測試樣本時,對全部測試樣本所采用的非線性變換是相同的。也就是說,所有的測試樣本,都會經(jīng)歷相同的非線性變換。這其實是一種比較呆板的方式。

如下圖所示,我們?nèi)绻宰筮叺纳Ⅻc圖表示原始特征空間,以右邊的散點圖表示人工神經(jīng)網(wǎng)絡所學習得到的高層特征空間,以散點圖中的小圓點和小方塊代表兩種不同類別的樣本,以F、G和H表示非線性函數(shù)。那么這些樣本是通過相同的非線性函數(shù)實現(xiàn)原始特征空間到高層特征空間的變換的。也就是說,圖片中的“=”意味著,對于這些樣本,它們所經(jīng)歷的非線性變換是完全相同的。


傳統(tǒng)激活函數(shù)在深度學習中的工作原理

那么,我們能不能根據(jù)每個樣本的特點,單獨為每個樣本設置激活函數(shù)的參數(shù)、使每個樣本經(jīng)歷不同的非線性變換呢?本文后續(xù)所要介紹的APReLU激活函數(shù),就做到了這一點。

2. 注意力機制

本文所要介紹的APReLU激活函數(shù)借鑒了經(jīng)典的Squeeze-and-Excitation Network(SENet),而SENet是一種非常經(jīng)典的、注意力機制下的深度學習方法。SENet的基本原理如下圖所示:


SENet基本原理

這里介紹一下SENet所蘊含的思想。對于許多樣本而言,其特征圖中的各個特征通道的重要程度很可能是不同的。例如,樣本A的特征通道1非常重要,特征通道2不重要;樣本B的特征通道1不重要,特征通道2很重要;那么在這個時候,對于樣本A,我們就應該把注意力集中在特征通道1(即賦予特征通道1更高的權(quán)重);反過來,對于樣本B,我們應該把注意力集中在特征通道2(即賦予特征通道2更高的權(quán)重)。

為了實現(xiàn)這個目的,SENet通過一個小型的全連接網(wǎng)絡,學習得到了一組權(quán)重系數(shù),對原先特征圖的各個通道進行加權(quán)。通過這種方式,每個樣本(包括訓練樣本和測試樣本)都有著自己獨特的一組權(quán)重,用于自身各個特征通道的加權(quán)。這其實是一種注意力機制,即注意到重要的特征通道,進而賦予其較高的權(quán)重。

3. 自適應參數(shù)化修正線性單元(APReLU)激活函數(shù)

APReLU激活函數(shù),在本質(zhì)上,就是SENet和PReLU激活函數(shù)的集成。在SENet中,小型全連接網(wǎng)絡所學習得到的權(quán)重,是用于各個特征通道的加權(quán)。APReLU激活函數(shù)也通過一個小型的全連接網(wǎng)絡獲得了權(quán)重,進而將這組權(quán)重作為PReLU激活函數(shù)里的系數(shù),即負數(shù)部分的權(quán)重。APReLU激活函數(shù)的基本原理如下圖所示。


自適應參數(shù)化ReLU

我們可以看到,在APReLU激活函數(shù)中,其非線性變換的函數(shù)形式是和PReLU激活函數(shù)一模一樣的。唯一的差別在于,APReLU激活函數(shù)里對負數(shù)特征的權(quán)重系數(shù),是通過一個小型全連接網(wǎng)絡學習得到的。當人工神經(jīng)網(wǎng)絡采用APReLU激活函數(shù)時,每個樣本都可以有自己獨特的權(quán)重系數(shù),即獨特的非線性變換(如下圖所示)。同時,APReLU激活函數(shù)的輸入特征圖和輸出特征圖有著相同的尺寸,這意味著APReLU可以被輕易地嵌入到現(xiàn)有的深度學習算法之中。


APReLU的深度學習工作原理

綜上所述,APReLU激活函數(shù)使每個樣本都可以有自己獨特的一組非線性變換,提供了一種更靈活的非線性變換方式,具有提高模式識別準確率的潛力。

參考文獻:
Zhao M, Zhong S, Fu X, et al. Deep residual networks with adaptively parametric rectifier linear units for fault diagnosis[J]. IEEE Transactions on Industrial Electronics, 2020, DOI: 10.1109/TIE.2020.2972458.

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容