摘要:越來越火的NLP到底經(jīng)歷了什么?
2014年-序列到序列模型
2014年,Sutskever等人提出序列到序列學(xué)習(xí),一種通過神經(jīng)網(wǎng)絡(luò)將一個(gè)序列映射到另一個(gè)序列的通用框架。在該框架中,編碼器神經(jīng)網(wǎng)絡(luò)逐個(gè)符號地處理句子并將其壓縮成矢量表示; 然后,解碼器神經(jīng)網(wǎng)絡(luò)基于編碼器狀態(tài)逐個(gè)符號地預(yù)測輸出符號,在每個(gè)步驟中將先前預(yù)測的符號作為輸入,如下面的圖8所示。

機(jī)器翻譯成了這個(gè)框架的殺手級應(yīng)用。2016年,谷歌宣布開始用NMT模型替換其基于單片短語的MT模型(Wu et al.,2016)。根據(jù)Jeff Dean的說法,這意味著用500線性神經(jīng)網(wǎng)絡(luò)模型替換500,000行基于短語的MT代碼。
由于其靈活性,該框架現(xiàn)在是自然語言生成任務(wù)的首選框架,不同的模型承擔(dān)編碼器和解碼器的角色。重要的是,解碼器模型不僅可以以序列為條件,而且可以以任意表示為條件。這使得例如基于圖像生成標(biāo)題(Vinyals等人,2015)(如下面的圖9中可見),基于表格的文本(Lebret等人,2016),以及基于源代碼更改的描述(Loyola等,2017),以及許多其他應(yīng)用程序。

序列到序列學(xué)習(xí)甚至可以應(yīng)用于NLP中常見的結(jié)構(gòu)化預(yù)測任務(wù),其中NLP輸出具有特定結(jié)構(gòu)。簡單地說,輸出是線性化的,如下面圖10中的consituency解析所示。神經(jīng)網(wǎng)絡(luò)已經(jīng)證明了在給予consituency解析的足夠數(shù)量的訓(xùn)練數(shù)據(jù)(Vinyals等,2015)和命名實(shí)體識(shí)別(Gillick等,2016)等的情況下,能夠直接學(xué)習(xí)產(chǎn)生這種線性化輸出的能力。

用于序列和解碼器的編碼器通?;赗NN,但是也可以使用其他模型類型,最新的架構(gòu)主要來自作為序列到序列架構(gòu)的培養(yǎng)皿MT的工作。最近的模型是卷積編碼器(Kalchbrenner等,2016; Gehring等,2017),變換器(Vaswani等,2017),將在下一個(gè)部分討論,以及LSTM和變壓器的組合(Chen等,2018)。
2015-注意力
注意力(Bahdanau等,2015)NMT)的核心創(chuàng)新之一,也是使NMT模型優(yōu)于基于經(jīng)典短語的MT系統(tǒng)的關(guān)鍵思想。序列到序列學(xué)習(xí)的主要瓶頸是它需要將源序列的整個(gè)內(nèi)容壓縮成固定大小的矢量。注意力通過允許解碼器回顧源序列隱藏狀態(tài)來減輕這種情況,然后將其作為加權(quán)平均值提供給解碼器的附加輸入,如下面的圖11所示。

注意力有不同的形式(Luong等,2015)在這里查看簡要概述。 注意力廣泛適用并且可能對任何需要根據(jù)輸入的某些部分做出決策的任務(wù)有用。它已被應(yīng)用于consituency解析(Vinyals等,2015),閱讀理解(Hermann等,2015)和一次性學(xué)習(xí)(Vinyals等,2016)等。甚至輸入不需要是序列,但可以包括其他表示,如圖像字幕的情況(Xu et al.,2015),可以在下面的圖12中看到。注意力的一個(gè)有用的副作用是,通過根據(jù)注意力量檢查輸入的哪些部分與特定輸出相關(guān)。

注意力也不僅限于查看輸入序列;自-注意力可用于查看句子或文檔中的周圍單詞以獲得更多上下文敏感的單詞表示。多層自-注意力是Transformer架構(gòu)的核心(Vaswani等,2017),這是目前最先進(jìn)的NMT模型。
2015-基于記憶的網(wǎng)絡(luò)
注意力可以看作是模糊記憶的一種形式,其中記憶由模型的過去隱藏狀態(tài)組成,模型選擇從記憶中所檢索的內(nèi)容。有關(guān)注意事項(xiàng)及其與記憶關(guān)聯(lián)的更詳細(xì)概述,請查看此文章。許多具有更明確記憶的模型已經(jīng)被提出,它們有不同的變體,例如神經(jīng)網(wǎng)絡(luò)圖靈機(jī)(Graves et al,2014),記憶網(wǎng)絡(luò)(Weston et al.,2015)[70]和端到端的記憶網(wǎng)絡(luò)(Sukhbaatar et al.,2015),動(dòng)態(tài)記憶網(wǎng)絡(luò)( Kumar等,2015),可微神經(jīng)計(jì)算機(jī)(Graves等,2016)和遞歸實(shí)體網(wǎng)絡(luò)(Henaff等,2017)。
通?;谂c當(dāng)前狀態(tài)的相似性來訪問內(nèi)存,類似于注意力,并且通常可以寫入和讀取存儲(chǔ)器,模型在實(shí)現(xiàn)和利用內(nèi)存方面有所不同。例如,端到端記憶網(wǎng)絡(luò)多次處理輸入并更新內(nèi)存以啟用多個(gè)推理步驟。神經(jīng)圖靈機(jī)還具有基于位置的尋址,允許它們學(xué)習(xí)簡單的計(jì)算機(jī)程序,如排序?;谟洃浀哪P屯ǔ?yīng)用于其中保留較長時(shí)間跨度信息的有用任務(wù),例如語言建模和閱讀理解。存儲(chǔ)器的概念非常通用:知識(shí)庫或表可以用作存儲(chǔ)器,而存儲(chǔ)器也可以基于整個(gè)輸入或其特定部分來填充。
2018年 - 預(yù)訓(xùn)練語言模型
預(yù)訓(xùn)練的詞嵌入與上下文無關(guān),而且僅用于初始化模型中的第一層。最近幾個(gè)月,一系列監(jiān)督任務(wù)被用于預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)(Conneau等,2017; McCann等,2017; Subramanian等,2018)。相比之下,語言模型只需要未標(biāo)記的文本; 因此,訓(xùn)練可以擴(kuò)展到數(shù)十億個(gè)tokens,新領(lǐng)域和新語言。 2015年首次提出了預(yù)訓(xùn)練語言模型(Dai&Le,2015); 直到最近,它們才被證明對各種各樣的任務(wù)都有益。 語言模型嵌入可以用作目標(biāo)模型中的特征(Peters等,2018),或者可以對目標(biāo)任務(wù)數(shù)據(jù)微調(diào)語言模型(Ramachandran等,2017; Howard&Ruder,2018)。添加語言模型嵌入比許多任務(wù)的最新技術(shù)有了很大的改進(jìn),如下面的圖13所示。

預(yù)訓(xùn)練語言模型可以用更少的數(shù)據(jù)進(jìn)行學(xué)習(xí),由于語言模型僅需要未標(biāo)記的數(shù)據(jù),因此對于標(biāo)記數(shù)據(jù)稀缺的低資源語言尤其有用。有關(guān)預(yù)訓(xùn)練語言模型的更多信息,請參閱本文。
其他里程碑
基于字符的表示:在字符上使用CNN或LSTM來獲得基于字符的詞表示是相當(dāng)普遍的,特別是對于形態(tài)學(xué)豐富的語言和形態(tài)信息很重要或具有許多未知單詞的任務(wù)。據(jù)我所知,基于字符的表示首先用于序列標(biāo)記(Lample等,2016; Plank等,2016)?;谧址谋硎緶p少了必須以增加計(jì)算成本處理固定詞匯表的需要,并且能夠?qū)崿F(xiàn)諸如完全基于字符的NMT之類的應(yīng)用(Ling等人,2016; Lee等人,2017)。
對抗性學(xué)習(xí):對抗性方法已經(jīng)在風(fēng)暴中占據(jù)了ML的領(lǐng)域,并且在NLP中也以不同的形式使用。對抗性示例越來越廣泛地被廣泛使用,不僅作為探測模型和理解其失敗案例的工具,而且還使它們更加具有魯棒性(Jia&Liang,2017)。對抗性訓(xùn)練:域?qū)剐該p失(Ganin等,2016; Kim等,2017)是可以同樣使模型更加健壯的有用的正規(guī)化形式。生成對抗網(wǎng)絡(luò)(GAN)對于自然語言生成來說還不是太有效(Semeniuta等,2018),但是例如在匹配分布時(shí)是有用的(Conneau等,2018)。
強(qiáng)化學(xué)習(xí):強(qiáng)化學(xué)習(xí)已經(jīng)被證明對于具有時(shí)間依賴性的任務(wù)是有用的,例如在訓(xùn)練期間選擇數(shù)據(jù)(Fang等,2017; Wu等,2018)和建模對話(Liu等,2018)。RL對于直接優(yōu)化諸如ROUGE或BLEU之類的非可微結(jié)束度量而不是優(yōu)化替代損失(例如摘要中的交叉熵(Paulus等,2018; Celikyilmaz等,2018)和機(jī)器翻譯也是有效的。(Ranzato等人,2016),反向強(qiáng)化學(xué)習(xí)在犒賞太復(fù)雜而無法指定的環(huán)境中可能是有用的,例如視覺敘事(Wang et al。,2018)。
本文作者:【方向】
本文為云棲社區(qū)原創(chuàng)內(nèi)容,未經(jīng)允許不得轉(zhuǎn)載。
作者:阿里云云棲社區(qū)
鏈接:http://www.itdecent.cn/p/738e0281e6ba
來源:簡書
簡書著作權(quán)歸作者所有,任何形式的轉(zhuǎn)載都請聯(lián)系作者獲得授權(quán)并注明出處。