Towards Better Modeling Hierarchical Structure for Self-Attention with Ordered Neurons

2019 EMNLP
Tencent AI Lab

Introduction

結(jié)合了SAN和遞歸神經(jīng)網(wǎng)絡(luò)(RNN)優(yōu)勢(shì)的混合模型在機(jī)器翻譯任務(wù)上的性能優(yōu)于兩種單獨(dú)的體系結(jié)構(gòu)。
我們可以將傳統(tǒng)RNNs替換為 Ordered Neurons LSTM(ON-LSTM)。ON-LSTM通過引入面向語法的歸納偏置,更擅長(zhǎng)于對(duì)層次結(jié)構(gòu)進(jìn)行建模,這使RNN可以通過控制神經(jīng)元的更新頻率來執(zhí)行樹狀合成。

Approch

我們將SAN編碼器堆疊在RNN編碼器之上,以形成級(jí)聯(lián)編碼器。
在級(jí)聯(lián)編碼器中,底層RNN編碼器中增強(qiáng)了層次結(jié)構(gòu)建模,因此SAN編碼器能夠提取具有更豐富層次信息的表示形式。公式為:


其中,ENCRNNs(·) 是一個(gè)K層的RNNs,ENCSANs(·) 是一個(gè)L層的 SANs encoder,它用RNNs的輸出作為自身的輸入。

Ordered Neurons

Ordered Neurons(有序神經(jīng)元)可以使LSTM模型能夠執(zhí)行樹狀組合而不會(huì)破壞其順序形式。Ordered Neurons 可以通過控制神經(jīng)元的更新頻率來動(dòng)態(tài)分配神經(jīng)元,以表示不同的時(shí)間尺度依賴性。預(yù)期的神經(jīng)元背后的假設(shè)是,某些神經(jīng)元總是比其他神經(jīng)元更頻繁(或更少)更新,并且這種現(xiàn)象是作為模型架構(gòu)的一部分預(yù)先確定的。其公式為:


Master forget gate \widetilde{f}_t 和 master input gate \widetilde{i}_t 分別控制擦出和寫入的行為,\widetilde{w}_t 表明了重疊部分。

Ideal master gate 采用二進(jìn)制格式,例如(0,0,1,1,1)。它將單元狀態(tài)分為兩個(gè)連續(xù)的部分:0-part和1-part。 對(duì)應(yīng)0-part和1-part的神經(jīng)元的更新頻率分別對(duì)應(yīng)more和less。因此0-part的神經(jīng)元中的信息只會(huì)保持幾個(gè)時(shí)間步長(zhǎng),而1-part的神經(jīng)元中的信息會(huì)保持更多的時(shí)間。 由于這種二進(jìn)制門不可微,因此目標(biāo)轉(zhuǎn)向?qū)ふ曳至腰c(diǎn)d(ideal master gate中第一個(gè)1的索引)。

A New Activation Function

softmax提供了概率分布,例如(0.1, 0.2, 0.4, 0.2, 0.1),表示每個(gè)位置成為分割點(diǎn)d的概率。CUMSUM是累計(jì)分布函數(shù),第k個(gè)概率是d落在前k個(gè)位置內(nèi)的概率。上面例子的輸出為(0.1,0.3,0.7,0.9,1.0)。不同的值表示不同的更新頻率。 它也等于ideal master gate中每個(gè)位置的值為1的概率。
CU(·)是ideal master gate的期望。
因此,master gates 被定義為:


is the current input and is the hidden state of previous step.

Short-Cut Connection

Add the output of the ON-LSTM encoder to the output of SANs encoder:


Where ∈ is the output of ON - LSTM encoder, and ∈ is output of SANs encoder.

Experiments

該模型可用于 Machine Translation,Targeted Linguistic Evaluation 和 Logical Inference,均取得了更好的效果。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 文章作者:Tyan博客:noahsnail.com | CSDN | 簡(jiǎn)書 聲明:作者翻譯論文僅為學(xué)習(xí),如有侵權(quán)請(qǐng)...
    SnailTyan閱讀 2,098評(píng)論 0 2
  • 一、 RNN 的關(guān)鍵點(diǎn)之一就是他們可以用來連接先前的信息到當(dāng)前的任務(wù)上,例如使用過去的視頻段來推測(cè)對(duì)當(dāng)前段的理解。...
    MiracleJQ閱讀 9,389評(píng)論 0 19
  • 9. 循環(huán)神經(jīng)網(wǎng)絡(luò) 場(chǎng)景描述 循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network)是一種主流的深度學(xué)習(xí)...
    _龍雀閱讀 2,969評(píng)論 0 3
  • 循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN) 人們的每次思考并不都是從零開始的。比如說你在閱讀這篇文章時(shí),你基于對(duì)前面的文字的理解來理解...
    云時(shí)之間閱讀 4,262評(píng)論 0 21
  • 店長(zhǎng)每天的工作都是如何安排,首先我們要有一個(gè)整體的思路,不僅在銷售上要積極去做,也要有一覽大局的意識(shí),其次,...
    濰坊泰華DDM店劉云閱讀 213評(píng)論 0 0

友情鏈接更多精彩內(nèi)容