2019 EMNLP
Tencent AI Lab
Introduction
結(jié)合了SAN和遞歸神經(jīng)網(wǎng)絡(luò)(RNN)優(yōu)勢(shì)的混合模型在機(jī)器翻譯任務(wù)上的性能優(yōu)于兩種單獨(dú)的體系結(jié)構(gòu)。
我們可以將傳統(tǒng)RNNs替換為 Ordered Neurons LSTM(ON-LSTM)。ON-LSTM通過引入面向語法的歸納偏置,更擅長(zhǎng)于對(duì)層次結(jié)構(gòu)進(jìn)行建模,這使RNN可以通過控制神經(jīng)元的更新頻率來執(zhí)行樹狀合成。
Approch
我們將SAN編碼器堆疊在RNN編碼器之上,以形成級(jí)聯(lián)編碼器。
在級(jí)聯(lián)編碼器中,底層RNN編碼器中增強(qiáng)了層次結(jié)構(gòu)建模,因此SAN編碼器能夠提取具有更豐富層次信息的表示形式。公式為:

其中,ENCRNNs(·) 是一個(gè)K層的RNNs,ENCSANs(·) 是一個(gè)L層的 SANs encoder,它用RNNs的輸出作為自身的輸入。
Ordered Neurons
Ordered Neurons(有序神經(jīng)元)可以使LSTM模型能夠執(zhí)行樹狀組合而不會(huì)破壞其順序形式。Ordered Neurons 可以通過控制神經(jīng)元的更新頻率來動(dòng)態(tài)分配神經(jīng)元,以表示不同的時(shí)間尺度依賴性。預(yù)期的神經(jīng)元背后的假設(shè)是,某些神經(jīng)元總是比其他神經(jīng)元更頻繁(或更少)更新,并且這種現(xiàn)象是作為模型架構(gòu)的一部分預(yù)先確定的。其公式為:

Master forget gate 和 master input gate
分別控制擦出和寫入的行為,
表明了重疊部分。
Ideal master gate 采用二進(jìn)制格式,例如(0,0,1,1,1)。它將單元狀態(tài)分為兩個(gè)連續(xù)的部分:0-part和1-part。 對(duì)應(yīng)0-part和1-part的神經(jīng)元的更新頻率分別對(duì)應(yīng)more和less。因此0-part的神經(jīng)元中的信息只會(huì)保持幾個(gè)時(shí)間步長(zhǎng),而1-part的神經(jīng)元中的信息會(huì)保持更多的時(shí)間。 由于這種二進(jìn)制門不可微,因此目標(biāo)轉(zhuǎn)向?qū)ふ曳至腰c(diǎn)d(ideal master gate中第一個(gè)1的索引)。
A New Activation Function

softmax提供了概率分布,例如(0.1, 0.2, 0.4, 0.2, 0.1),表示每個(gè)位置成為分割點(diǎn)d的概率。CUMSUM是累計(jì)分布函數(shù),第k個(gè)概率是d落在前k個(gè)位置內(nèi)的概率。上面例子的輸出為(0.1,0.3,0.7,0.9,1.0)。不同的值表示不同的更新頻率。 它也等于ideal master gate中每個(gè)位置的值為1的概率。
CU(·)是ideal master gate的期望。
因此,master gates 被定義為:

is the current input and is the hidden state of previous step.
Short-Cut Connection
Add the output of the ON-LSTM encoder to the output of SANs encoder:

Where ∈ is the output of ON - LSTM encoder, and ∈ is output of SANs encoder.
Experiments
該模型可用于 Machine Translation,Targeted Linguistic Evaluation 和 Logical Inference,均取得了更好的效果。