女人久久免费视频,亚洲黄页网站

1、CNN+GLU

論文：Language Modeling with Gated Convolutional Networks

對(duì)于同一層輸入，進(jìn)行卷積操作A和B，其中A得到?jīng)]有非線性函數(shù)的卷積層輸出，B是經(jīng)過sigmod非線性激活函數(shù)的卷積層輸出。AXB就是這一層的輸出。其實(shí)就是門控機(jī)制替換了原先的激活函數(shù)。為了提升對(duì)文本的建模能力；為了加速收斂。

其中W和V是不同的卷積核。公式的后半部分，即有激活函數(shù)的卷積就是所謂的門控機(jī)制（Gated Linear Units，GLU），其控制了X*W+b中哪些信息可以傳入下一層。

2、用GLU的目的是什么？

1、門單元有利于對(duì)文本進(jìn)行深度網(wǎng)絡(luò)建模。

把GTU中的Sigmoid gate去掉的話，就是一個(gè)Tanh激活函數(shù)。因此，可以通過比較Tanh和GTU的實(shí)驗(yàn)效果，來對(duì)比Gate mechanism對(duì)模型性能的影響。

通過圖1中的左圖可以發(fā)現(xiàn)，使用GTU的效果遠(yuǎn)遠(yuǎn)優(yōu)于Tanh激活函數(shù)（困惑度下降更快），可見，gate units有利于對(duì)文本進(jìn)行深度網(wǎng)絡(luò)建模。
2、GLU能減輕梯度彌散，加速收斂。
Tanh激活函數(shù)和GTU都存在梯度消失的問題，因?yàn)榧词故荊TU，當(dāng)units的激活處于飽和區(qū)時(shí)，輸入單元激活單元：tanh(XW+b)和gate單元：O(X V + c)都會(huì)削弱梯度值。相反，GLU和Relu不存在這樣的問題。GLU和Relu都擁有線性通道，可以使梯度很容易通過激活的units，反向傳播且不會(huì)減小。因此，采用GLU或Relu做為激活，訓(xùn)練時(shí)收斂速度更快。

非線性操作少，梯度公式中衰減項(xiàng)越少，越能減少梯度彌散，使模型收斂和訓(xùn)練變得更加簡(jiǎn)單。

3、為什么CNN訓(xùn)練比LSTM簡(jiǎn)單？

CNN有n/k個(gè)OP，而LSTM有n個(gè)OP。CNN非線性操作少，能減少梯度彌散，使模型收斂和訓(xùn)練變得更加簡(jiǎn)單。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

GLU-CNN

GLU-CNN

1、CNN+GLU

2、用GLU的目的是什么？

3、為什么CNN訓(xùn)練比LSTM簡(jiǎn)單？

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

GLU-CNN

1、CNN+GLU

2、用GLU的目的是什么？

3、為什么CNN訓(xùn)練比LSTM簡(jiǎn)單？

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

2、用GLU的目的是什么？

3、為什么CNN訓(xùn)練比LSTM簡(jiǎn)單？