Convolutional Self-Attention Network

文章認(rèn)為普通的attention存在以下兩個(gè)問題:

  • 對(duì)整個(gè)序列使用加權(quán)和來計(jì)算注意力信息,會(huì)使相鄰token的注意力被削弱。
    舉個(gè)栗子:

    Amy eat a banana, and Bob eat an apple.

    對(duì)這個(gè)句子中apple求注意力,那么前后兩個(gè)eat使用普通attention計(jì)算得到的的注意力是相同的。但是實(shí)際上靠的越近的詞,其注意力應(yīng)該更大才對(duì)。

  • multi head attention計(jì)算各head注意力的時(shí)候是獨(dú)立的,忽略了head與head之間的聯(lián)系。
    針對(duì)上述問題,文章提出了convolutional self-attention network。

背景知識(shí)

模型

Vanilla SAN VS 1D-Convolutional SAN VS 2D-Convolutional SAN

上圖展示了普通self-attention和convolutional self-attention的區(qū)別:普通self-attention對(duì)整個(gè)輸入序列計(jì)算加權(quán)和,而convolutional self-attention只在目標(biāo)位置的前后固定長(zhǎng)度內(nèi)計(jì)算加權(quán)和。同時(shí)2D-convolutional self-attention加入了不同head之間的關(guān)聯(lián)。

1D Convolutional Self-Attention

\begin{aligned} y _ { i } ^ { h } & = \sum _ { j = i - m } ^ { i + m } \alpha _ { i j } ^ { h } \left( x _ { j } W _ { V } ^ { h } \right) \\ \alpha _ { i j } ^ { h } &= \frac { \exp e _ { i j } ^ { h } } { \sum _ { t = i - m } ^ { i + m } \exp e _ { i t } ^ { h } } \\ e _ { i j } ^ { h } & = \lambda \left( x _ { i } W _ { Q } ^ { h } \right) \left( x _ { j } W _ { K } ^ { h } \right) ^ { T } \end{aligned}
其中\left\{ W _ { Q } ^ { h } , W _ { h } ^ { K } \right\} \in \mathbb { R } ^ { d \times \frac { d } { H } },H為head的數(shù)目。\lambda = \sqrt { H / d }表示縮放因子。
本文實(shí)驗(yàn)中,窗口的長(zhǎng)度設(shè)置為11,即m=5

2D Convolutional Self-Attention

\begin{aligned} y _ { i } ^ { h } & = \sum _ { s = h - n } ^ { h + n } \sum _ { j = i - m } ^ { i + m } \alpha _ { i j } ^ { h s } \left( x _ { j } W _ { V } ^ { s } \right)\\ \alpha _ { i j } ^ { h s } & = \frac { \exp e _ { i j } ^ { h s } } { \sum _ { k = h - n } ^ { h + n } \sum _ { t = i - m } ^ { i + m } \exp e _ { i , t } ^ { h k } } \\ e _ { i j } ^ { h s } & = \lambda \left( x _ { i } W _ { Q } ^ { h } \right) \left( x _ { j } W _ { K } ^ { s } \right) ^ { T } \end{aligned}
本文實(shí)驗(yàn)中,窗口的長(zhǎng)度設(shè)置為11\times3,即m=5, n=1。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容