ICLR 2019 最佳論文《Ordered Neurons: Integrating Tree Structures Into Recurrent Neural Networks》

最近ICLR2019接受論文已經(jīng)公布,最佳論文也跟著亮相了,這篇是兩篇最佳論文中的其中一篇,另外一篇是《The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks》。本文題目是《Ordered Neurons: Integrating Tree Structures Into Recurrent Neural Networks》,對(duì)神經(jīng)元進(jìn)行有序排列,主要對(duì)RNN進(jìn)行改進(jìn),應(yīng)用于NLP任務(wù)中 。

本文的主要貢獻(xiàn)有三個(gè):1、設(shè)計(jì)了一個(gè)新的被作者稱為ON-LSTM的模型,該模型偏向于進(jìn)行樹(shù)狀組成問(wèn)題的操作;2、模型在4個(gè)任務(wù)中表現(xiàn)很好:language modeling 語(yǔ)言建模、unsupervised constituency parsing 成分句法分析、targeted? syntactic evaluation 目標(biāo)句法評(píng)估、logical inference 邏輯推斷;3、在unsupervised constituency parsing中,inductive bias加上人類語(yǔ)言專家定義的規(guī)則的模型,比之前的模型表現(xiàn)都要好,作者還發(fā)現(xiàn),在需要長(zhǎng)期記憶的任務(wù)中,ON-LSTM比standard LSTM的效果要好,并且在長(zhǎng)的序列中泛化效果很好。

理論上,RNN和LSTM對(duì)上下文有關(guān)文法和上下文無(wú)關(guān)文法的數(shù)據(jù)都可以建模,但是近期的研究結(jié)果發(fā)現(xiàn)在LSTM中加入結(jié)構(gòu)信息會(huì)更有利(推測(cè)理論上LSTM的參數(shù)能擬合的很好,但是實(shí)際上收斂的時(shí)候沒(méi)有特別好的方法快速收斂,而結(jié)構(gòu)化信息會(huì)給模型參數(shù)更多限制)

自然語(yǔ)言處理中有上游任務(wù)和下游任務(wù)(這塊讀者可以自行去搜索相關(guān)內(nèi)容),本文的成果可作為上游任務(wù)的基礎(chǔ)。輸入數(shù)據(jù)需要序列數(shù)據(jù)和它們對(duì)應(yīng)的句法樹(shù)。像這樣,從一棵語(yǔ)法分析樹(shù)轉(zhuǎn)化為一個(gè)RNN:

圖1:語(yǔ)法樹(shù)轉(zhuǎn)化為RNN

有了RNN之后還不行,圖中深色的部分就是需要每次輸入新值時(shí)需要被完全更新的,而淺色的部分是迭代時(shí)不完全被更新的部分,也就是說(shuō)(c)中的S的time scale 要更長(zhǎng)一些。至于怎么去決定這個(gè)等級(jí)的分配,文中對(duì)標(biāo)準(zhǔn)的LSTM進(jìn)行了改進(jìn)(沒(méi)錯(cuò),又是對(duì)標(biāo)準(zhǔn)架構(gòu)的改進(jìn),文中也提到了2016ICLR的一篇hierarchy multi-scale RNN),作者稱之為ON-LSTM。

標(biāo)準(zhǔn)的LSTM是這樣的:

圖2:標(biāo)準(zhǔn)LSTM單元更新規(guī)則

這里面有forget units,input units,output units,cell單元和隱狀態(tài)h。作者提出在標(biāo)準(zhǔn)的LSTM中,每個(gè)神經(jīng)元之間是獨(dú)立工作的,這樣很難對(duì)神經(jīng)元進(jìn)行等級(jí)劃分,于是對(duì)它進(jìn)行了一些改進(jìn)。作者引進(jìn)了一個(gè)公式:

圖3:\hat{g} 函數(shù)

這里的cumsum就是cumulative sum,累和。定義一個(gè)binary gate:g=(0,...,0,1,...,1),在ON-LSTM中,cell的狀態(tài)會(huì)通過(guò)二值門(mén)變成0或1,模型將會(huì)對(duì)這兩種值進(jìn)行不同的更新規(guī)則,從而分級(jí)。用隨機(jī)變量d表示g中第一個(gè)1的索引值,那么d就代表了這兩種狀態(tài)的分界線。

圖4:p(d)函數(shù)

作者通過(guò)評(píng)估在第k個(gè)是分裂點(diǎn)之前的任何值的分離概率來(lái)計(jì)算g為1的第k個(gè)值的概率,即有:

圖4:p(g_k=1)

理想中,g是離散隨機(jī)變量,但是計(jì)算離散變量的梯度是不容易的,所以在實(shí)際中,作者計(jì)算p(g\leq k)來(lái)進(jìn)行放寬,這個(gè)p(g\leq k)由對(duì)softmax求累和來(lái)得到,因?yàn)?img class="math-inline" src="https://math.jianshu.com/math?formula=g_k" alt="g_k" mathimg="1">是二值變量,所以這等同于求E[g_{k}],所以\hat{g}=E[g_k]

基于cumax(),下面作者介紹了master forget gate 和master input gate:

圖5:master forget gate和master input gate

cumax的值是從1到0單調(diào)遞減的,也即是在一小段內(nèi),\tilde{f_t} 的值趨于0,忘掉之前的東西,而\tilde{i_t} 的值趨于1,新輸入的內(nèi)容越來(lái)越重要。然后就是ON-LSTM的更新規(guī)則了:

圖6:ON-LSTM的單元更新規(guī)則
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容