文章認(rèn)為普通的attention存在以下兩個(gè)問題:
-
對(duì)整個(gè)序列使用加權(quán)和來計(jì)算注意力信息,會(huì)使相鄰token的注意力被削弱。
舉個(gè)栗子:Amy eat a banana, and Bob eat an apple.
對(duì)這個(gè)句子中apple求注意力,那么前后兩個(gè)eat使用普通attention計(jì)算得到的的注意力是相同的。但是實(shí)際上靠的越近的詞,其注意力應(yīng)該更大才對(duì)。
multi head attention計(jì)算各head注意力的時(shí)候是獨(dú)立的,忽略了head與head之間的聯(lián)系。
針對(duì)上述問題,文章提出了convolutional self-attention network。
背景知識(shí)
模型

Vanilla SAN VS 1D-Convolutional SAN VS 2D-Convolutional SAN
上圖展示了普通self-attention和convolutional self-attention的區(qū)別:普通self-attention對(duì)整個(gè)輸入序列計(jì)算加權(quán)和,而convolutional self-attention只在目標(biāo)位置的前后固定長(zhǎng)度內(nèi)計(jì)算加權(quán)和。同時(shí)2D-convolutional self-attention加入了不同head之間的關(guān)聯(lián)。
1D Convolutional Self-Attention
其中,
為head的數(shù)目。
表示縮放因子。
本文實(shí)驗(yàn)中,窗口的長(zhǎng)度設(shè)置為11,即。
2D Convolutional Self-Attention
本文實(shí)驗(yàn)中,窗口的長(zhǎng)度設(shè)置為,即
。