Convolutional Self-Attention Network

文章認(rèn)為普通的attention存在以下兩個(gè)問題：

對(duì)整個(gè)序列使用加權(quán)和來計(jì)算注意力信息，會(huì)使相鄰token的注意力被削弱。
舉個(gè)栗子：

Amy eat a banana, and Bob eat an apple.

對(duì)這個(gè)句子中apple求注意力，那么前后兩個(gè)eat使用普通attention計(jì)算得到的的注意力是相同的。但是實(shí)際上靠的越近的詞，其注意力應(yīng)該更大才對(duì)。
multi head attention計(jì)算各head注意力的時(shí)候是獨(dú)立的，忽略了head與head之間的聯(lián)系。
針對(duì)上述問題，文章提出了convolutional self-attention network。

背景知識(shí)

模型

Vanilla SAN VS 1D-Convolutional SAN VS 2D-Convolutional SAN

上圖展示了普通self-attention和convolutional self-attention的區(qū)別：普通self-attention對(duì)整個(gè)輸入序列計(jì)算加權(quán)和，而convolutional self-attention只在目標(biāo)位置的前后固定長(zhǎng)度內(nèi)計(jì)算加權(quán)和。同時(shí)2D-convolutional self-attention加入了不同head之間的關(guān)聯(lián)。

1D Convolutional Self-Attention

$\begin{aligned} y _ { i } ^ { h } & = \sum _ { j = i - m } ^ { i + m } \alpha _ { i j } ^ { h } \left( x _ { j } W _ { V } ^ { h } \right) \\ \alpha _ { i j } ^ { h } &= \frac { \exp e _ { i j } ^ { h } } { \sum _ { t = i - m } ^ { i + m } \exp e _ { i t } ^ { h } } \\ e _ { i j } ^ { h } & = \lambda \left( x _ { i } W _ { Q } ^ { h } \right) \left( x _ { j } W _ { K } ^ { h } \right) ^ { T } \end{aligned}$
其中 $\left\{ W _ { Q } ^ { h } , W _ { h } ^ { K } \right\} \in \mathbb { R } ^ { d \times \frac { d } { H } }$ ， $H$ 為head的數(shù)目。 $\lambda = \sqrt { H / d }$ 表示縮放因子。
本文實(shí)驗(yàn)中，窗口的長(zhǎng)度設(shè)置為11，即 $m=5$ 。

2D Convolutional Self-Attention

$\begin{aligned} y _ { i } ^ { h } & = \sum _ { s = h - n } ^ { h + n } \sum _ { j = i - m } ^ { i + m } \alpha _ { i j } ^ { h s } \left( x _ { j } W _ { V } ^ { s } \right)\\ \alpha _ { i j } ^ { h s } & = \frac { \exp e _ { i j } ^ { h s } } { \sum _ { k = h - n } ^ { h + n } \sum _ { t = i - m } ^ { i + m } \exp e _ { i , t } ^ { h k } } \\ e _ { i j } ^ { h s } & = \lambda \left( x _ { i } W _ { Q } ^ { h } \right) \left( x _ { j } W _ { K } ^ { s } \right) ^ { T } \end{aligned}$
本文實(shí)驗(yàn)中，窗口的長(zhǎng)度設(shè)置為 $11\times3$ ，即 $m=5, n=1$ 。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成，瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明：文章內(nèi)容（如有圖片或視頻亦包括在內(nèi)）由作者上傳并發(fā)布，文章內(nèi)容僅代表作者本人觀點(diǎn)，簡(jiǎn)書系信息發(fā)布平臺(tái)，僅提供信息存儲(chǔ)服務(wù)。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

Convolutional Self-Attention Network

Convolutional Self-Attention Network

背景知識(shí)

模型

1D Convolutional Self-Attention

2D Convolutional Self-Attention

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

Convolutional Self-Attention Network

背景知識(shí)

模型

1D Convolutional Self-Attention

2D Convolutional Self-Attention

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av