GLU-CNN

1、CNN+GLU

論文:Language Modeling with Gated Convolutional Networks



對(duì)于同一層輸入,進(jìn)行卷積操作A和B,其中A得到?jīng)]有非線性函數(shù)的卷積層輸出,B是經(jīng)過sigmod非線性激活函數(shù)的卷積層輸出。AXB就是這一層的輸出。其實(shí)就是門控機(jī)制替換了原先的激活函數(shù)。為了提升對(duì)文本的建模能力;為了加速收斂。



其中W和V是不同的卷積核。公式的后半部分,即有激活函數(shù)的卷積就是所謂的門控機(jī)制(Gated Linear Units,GLU),其控制了X*W+b中哪些信息可以傳入下一層。

2、用GLU的目的是什么?

1、門單元有利于對(duì)文本進(jìn)行深度網(wǎng)絡(luò)建模。


把GTU中的Sigmoid gate去掉的話,就是一個(gè)Tanh激活函數(shù)。因此,可以通過比較Tanh和GTU的實(shí)驗(yàn)效果,來對(duì)比Gate mechanism對(duì)模型性能的影響。

通過圖1中的左圖可以發(fā)現(xiàn),使用GTU的效果遠(yuǎn)遠(yuǎn)優(yōu)于Tanh激活函數(shù)(困惑度下降更快),可見,gate units有利于對(duì)文本進(jìn)行深度網(wǎng)絡(luò)建模。
2、GLU能減輕梯度彌散,加速收斂。
Tanh激活函數(shù)和GTU都存在梯度消失的問題,因?yàn)榧词故荊TU,當(dāng)units的激活處于飽和區(qū)時(shí),輸入單元激活單元:tanh(XW+b)和gate單元:O(X V + c)都會(huì)削弱梯度值。相反,GLU和Relu不存在這樣的問題。GLU和Relu都擁有線性通道,可以使梯度很容易通過激活的units,反向傳播且不會(huì)減小。因此,采用GLU或Relu做為激活,訓(xùn)練時(shí)收斂速度更快。

非線性操作少,梯度公式中衰減項(xiàng)越少,越能減少梯度彌散,使模型收斂和訓(xùn)練變得更加簡(jiǎn)單。

3、為什么CNN訓(xùn)練比LSTM簡(jiǎn)單?

CNN有n/k個(gè)OP,而LSTM有n個(gè)OP。CNN非線性操作少,能減少梯度彌散,使模型收斂和訓(xùn)練變得更加簡(jiǎn)單。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容