亚洲成人人妻av,日本久久无毛影院

本文在綜述傳統(tǒng)激活函數(shù)和注意力機制的基礎(chǔ)上，解讀了一種注意力機制下的激活函數(shù)，即自適應參數(shù)化修正線性單元（Adaptively Parametric Rectifier Linear Unit，APReLU），希望對大家有所幫助。

1. 激活函數(shù)

激活函數(shù)是現(xiàn)代人工神經(jīng)網(wǎng)絡的重要組成部分，其作用是實現(xiàn)人工神經(jīng)網(wǎng)絡的非線性化。我們首先來介紹幾種最常見的激活函數(shù)，即Sigmoid激活函數(shù)、Tanh激活函數(shù)和ReLU激活函數(shù)，分別如下圖所示。

傳統(tǒng)激活函數(shù)

Sigmoid激活函數(shù)和Tanh激活函數(shù)的梯度取值范圍分別是(0,1)和(-1,1)。當層數(shù)較多時，人工神經(jīng)網(wǎng)絡可能會遭遇梯度消失的問題。ReLU激活函數(shù)的梯度要么是零，要么是一，能夠很好地避免梯度消失和梯度爆炸的問題，因此在近年來得到了廣泛的應用。

然而，ReLU激活函數(shù)依然存在一點瑕疵。如果在人工神經(jīng)網(wǎng)絡的訓練過程中，遇到了特征全部小于零的情況，那么ReLU激活函數(shù)的輸出就全部為零。這個時候就訓練失敗了。為了避免這種情況，有些學者就提出了leaky ReLU激活函數(shù)，不將小于零的特征置為零，而是將小于零的特征乘以一個很小的系數(shù)，例如0.1和0.01。

在leaky ReLU中，這個系數(shù)的取值是人工設置的。但是人工設置的系數(shù)未必是最佳的，因此何愷明等人提出了Parametric ReLU激活函數(shù)（參數(shù)化ReLU激活函數(shù)，PReLU激活函數(shù)），將這個系數(shù)設置為一個可以訓練得到的參數(shù)，在人工神經(jīng)網(wǎng)絡的訓練過程中和其他參數(shù)一起采用梯度下降法進行訓練。然而，PReLU激活函數(shù)有一個特點：一旦訓練過程完成，則PReLU激活函數(shù)中的這個系數(shù)就變成了固定的值。換言之，對于所有的測試樣本，PReLU激活函數(shù)中這個系數(shù)的取值是相同的。

傳統(tǒng)激活函數(shù)

到這里我們就大概介紹了幾種常用的激活函數(shù)。這些激活函數(shù)有什么問題呢？我們可以思考一下，如果一個人工神經(jīng)網(wǎng)絡采用上述的某種激活函數(shù)，抑或是上述多種激活函數(shù)的組合，那么這個人工神經(jīng)網(wǎng)絡在訓練完成之后，在被應用于測試樣本時，對全部測試樣本所采用的非線性變換是相同的。也就是說，所有的測試樣本，都會經(jīng)歷相同的非線性變換。這其實是一種比較呆板的方式。

如下圖所示，我們?nèi)绻宰筮叺纳Ⅻc圖表示原始特征空間，以右邊的散點圖表示人工神經(jīng)網(wǎng)絡所學習得到的高層特征空間，以散點圖中的小圓點和小方塊代表兩種不同類別的樣本，以F、G和H表示非線性函數(shù)。那么這些樣本是通過相同的非線性函數(shù)實現(xiàn)原始特征空間到高層特征空間的變換的。也就是說，圖片中的“=”意味著，對于這些樣本，它們所經(jīng)歷的非線性變換是完全相同的。

傳統(tǒng)激活函數(shù)在深度學習中的工作原理

那么，我們能不能根據(jù)每個樣本的特點，單獨為每個樣本設置激活函數(shù)的參數(shù)、使每個樣本經(jīng)歷不同的非線性變換呢？本文后續(xù)所要介紹的APReLU激活函數(shù)，就做到了這一點。

2. 注意力機制

本文所要介紹的APReLU激活函數(shù)借鑒了經(jīng)典的Squeeze-and-Excitation Network（SENet），而SENet是一種非常經(jīng)典的、注意力機制下的深度學習方法。SENet的基本原理如下圖所示：

SENet基本原理

這里介紹一下SENet所蘊含的思想。對于許多樣本而言，其特征圖中的各個特征通道的重要程度很可能是不同的。例如，樣本A的特征通道1非常重要，特征通道2不重要；樣本B的特征通道1不重要，特征通道2很重要；那么在這個時候，對于樣本A，我們就應該把注意力集中在特征通道1（即賦予特征通道1更高的權(quán)重）；反過來，對于樣本B，我們應該把注意力集中在特征通道2（即賦予特征通道2更高的權(quán)重）。

為了實現(xiàn)這個目的，SENet通過一個小型的全連接網(wǎng)絡，學習得到了一組權(quán)重系數(shù)，對原先特征圖的各個通道進行加權(quán)。通過這種方式，每個樣本（包括訓練樣本和測試樣本）都有著自己獨特的一組權(quán)重，用于自身各個特征通道的加權(quán)。這其實是一種注意力機制，即注意到重要的特征通道，進而賦予其較高的權(quán)重。

3. 自適應參數(shù)化修正線性單元（APReLU）激活函數(shù)

APReLU激活函數(shù)，在本質(zhì)上，就是SENet和PReLU激活函數(shù)的集成。在SENet中，小型全連接網(wǎng)絡所學習得到的權(quán)重，是用于各個特征通道的加權(quán)。APReLU激活函數(shù)也通過一個小型的全連接網(wǎng)絡獲得了權(quán)重，進而將這組權(quán)重作為PReLU激活函數(shù)里的系數(shù)，即負數(shù)部分的權(quán)重。APReLU激活函數(shù)的基本原理如下圖所示。

自適應參數(shù)化ReLU

我們可以看到，在APReLU激活函數(shù)中，其非線性變換的函數(shù)形式是和PReLU激活函數(shù)一模一樣的。唯一的差別在于，APReLU激活函數(shù)里對負數(shù)特征的權(quán)重系數(shù)，是通過一個小型全連接網(wǎng)絡學習得到的。當人工神經(jīng)網(wǎng)絡采用APReLU激活函數(shù)時，每個樣本都可以有自己獨特的權(quán)重系數(shù)，即獨特的非線性變換（如下圖所示）。同時，APReLU激活函數(shù)的輸入特征圖和輸出特征圖有著相同的尺寸，這意味著APReLU可以被輕易地嵌入到現(xiàn)有的深度學習算法之中。

APReLU的深度學習工作原理

綜上所述，APReLU激活函數(shù)使每個樣本都可以有自己獨特的一組非線性變換，提供了一種更靈活的非線性變換方式，具有提高模式識別準確率的潛力。

參考文獻：
Zhao M, Zhong S, Fu X, et al. Deep residual networks with adaptively parametric rectifier linear units for fault diagnosis[J]. IEEE Transactions on Industrial Electronics, 2020, DOI: 10.1109/TIE.2020.2972458.

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

ReLU激活函數(shù)進階：自適應參數(shù)化ReLU

ReLU激活函數(shù)進階：自適應參數(shù)化ReLU

1. 激活函數(shù)

2. 注意力機制

3. 自適應參數(shù)化修正線性單元（APReLU）激活函數(shù)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

ReLU激活函數(shù)進階：自適應參數(shù)化ReLU

1. 激活函數(shù)

2. 注意力機制

3. 自適應參數(shù)化修正線性單元（APReLU）激活函數(shù)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av