Sebastian Ruder 大神又出新啦,是對今年EMNLP大會的500篇論文的總結(jié)和分析,搬運(yùn)搬運(yùn)。原博客在這里。該文將大會的論文分成了下面7個(gè)大類,我也將會一一搬運(yùn)。
- Inductive bias
- Cross-lingual learning
- Word embeddings
- Latent variable models
- Language models
- Datasets
- Miscellaneous

1 Inductive Bias(學(xué)習(xí)偏倚)
??學(xué)習(xí)偏倚指的是我們的模型包含的基本假設(shè),具有這樣基本假設(shè)的模型才具有泛化能力(區(qū)別于直接純背數(shù)據(jù)的模型,什么假設(shè)都不用,但是泛化能力是0)。最典型的學(xué)習(xí)偏倚就是圖像的旋轉(zhuǎn)不變性(Translation Invariance),所謂不變性指的是在經(jīng)歷變換之后仍然能夠被識別出來還是原來那個(gè)東西(還是原來的類別)。而捕獲這種不變性最好的模型結(jié)構(gòu)就是Yann Lecunn在1989年提出的卷積神經(jīng)網(wǎng)絡(luò)啦,這個(gè)大家都太熟啦。
??說這么多,想說明一個(gè)道理:現(xiàn)在很多論文在研究的問題都是在增加學(xué)習(xí)偏倚,設(shè)計(jì)相應(yīng)的模型。而現(xiàn)在一個(gè)很重要的研究方向就是探究自然語言中有沒有像圖像這樣的不變性?
Lesson 1: If there is symmetry in the input space, exploit it.
??除此之外,作者還提醒我們重構(gòu)損失這一通用的學(xué)習(xí)偏倚是具有非常大的價(jià)值的,能夠?yàn)槲覀兊挠?xùn)練提供額外的信號,在很多論文中都得到了廣泛的應(yīng)用。
Lesson 2: When you know the generative process, you should exploit it.
??下面重點(diǎn)介紹幾篇這個(gè)方向上發(fā)表在EMNLP-2018的論文:
在自然語言處理上想要獲取具有不變性的表示(Representation With Invariance)最常見的做法是生成對抗樣本(Adversarial Example)。在這個(gè)方向上,Alzantot et al.利用一個(gè)黑盒優(yōu)化算法生成語法和語義上的對抗樣本。具體來說,這篇論文利用組合優(yōu)化策略和語言模型生成能夠最大程度上違背自然語言推理的樣本。
另外一個(gè)重要的學(xué)習(xí)偏倚就是正則化啦(Regularization)。Barrett et al.創(chuàng)造性的提出了利用人類的注意力的特點(diǎn)對神經(jīng)網(wǎng)絡(luò)的注意力機(jī)制做相應(yīng)的正則化處理。論文中提到的人的注意力的數(shù)據(jù)是一個(gè)記錄人的眼球關(guān)注點(diǎn)的數(shù)據(jù)集,這個(gè)數(shù)據(jù)集最好的一點(diǎn)在于:它是和自然語言處理的任何數(shù)據(jù)集都是相互獨(dú)立的,可以作為一個(gè)額外的知識加入到訓(xùn)練中。
關(guān)于序列對齊的學(xué)習(xí)偏倚。許多自然語言處理的任務(wù),例如entailment 和semantic similarity都需要文本的對齊(其實(shí)就是找到對應(yīng)的句子 ,什么對齊),但是我們現(xiàn)在的對齊一般都是基于單詞級別的,或者句子級別的,Liu et al.提出利用結(jié)構(gòu)化的對齊嵌入一個(gè)結(jié)構(gòu)化的偏倚(structural bias),簡單說就是直接比較候選序列的各個(gè)span。
-樹狀結(jié)構(gòu)偏倚。樹狀結(jié)構(gòu)偏倚是這么多年nlp社區(qū)里一直非常關(guān)注的熱點(diǎn)方向,因?yàn)閺奈覀冎庇^的感受來講,自然語言就是具有樹結(jié)構(gòu)的。因此這個(gè)問題也一直讓大神Chris Manning 念念不忘。 Shi et al.在今年的論文中逆行,發(fā)現(xiàn)樹結(jié)構(gòu)是有價(jià)值的,但是好像和我們的語法是沒有關(guān)系的。有此一說是因?yàn)?,我們之前一直認(rèn)為樹樁結(jié)構(gòu)在某些時(shí)候表現(xiàn)不錯(cuò)正是因?yàn)樗軌蚝芎玫牟蹲降秸Z法信息?,F(xiàn)在好啦,這篇論文里發(fā)現(xiàn)甭管啥破樹都有價(jià)值,簡單的破樹反而比我們費(fèi)勁整出來的語法樹的效果還要好。而且他們還證明了樹狀結(jié)構(gòu)的重要性,論文中指出利用他們家的樹樁結(jié)構(gòu)能夠哦發(fā)現(xiàn)我們認(rèn)為的關(guān)鍵詞恰恰對最終的結(jié)果有著最大貢獻(xiàn),這個(gè)恰恰彌補(bǔ)了我們的RNN的就近性(recency bias)的缺點(diǎn)。多方面的情感分析的泛化學(xué)習(xí)偏倚。我們在解決多方面的情感分析問題時(shí)(就是對某個(gè)實(shí)物的不同方面進(jìn)行評價(jià),比如評價(jià)一個(gè)餐館時(shí),可以從位置啦,衛(wèi)生條件啦,飯菜種類啦等等角度進(jìn)行分析),常見的做法是針對每一個(gè)方面都計(jì)算出一個(gè)向量(representation),然后用這個(gè)向量分別去做分類。現(xiàn)在新的學(xué)習(xí)偏倚認(rèn)為這些方面性的信息是語言的基本屬性,是可以重復(fù)利用的,具體的利用方法就是把這些訓(xùn)練出來的向量直接當(dāng)做是卷積神經(jīng)網(wǎng)絡(luò)的filter進(jìn)入下一步的神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。并且這種方法甚至是可以應(yīng)用在其他的任務(wù)上。(思考:這里難道是找到了情感分析的預(yù)訓(xùn)練的方法?)
2. Cross-Lingual representation learning
講道理哇,這個(gè)領(lǐng)域我是沒想過居然有這么大的研究熱度,不過想想也是挺合理的。世界上一共有大概6500種語言,而我們現(xiàn)在大部分的研究都集中在語料庫比較豐富的幾個(gè)語言,包括英語,中文啦,西班牙語啦,德語啦等等。但是我們需要知道,有很多小語種,別說正經(jīng)的語料庫啦,連正經(jīng)的書面資料都需要人去整理。而cross lingual 這個(gè)方向就是希望能夠通過建立語料庫豐富的語言(比如英語)和語料庫極度匱乏的語言之間的聯(lián)系。具體怎么做呢,我們想象一下,其實(shí)不管什么語言都是在表達(dá)現(xiàn)實(shí)世界中的一個(gè)物體或者概念。換句話說,不同的語言其實(shí)是在描述同一種東西,只不過換了件花花皮囊而已。
??作者從Asifa's的keynote進(jìn)行分析,我們目前的研究方式大多集中在單詞-單詞的對應(yīng)(和原始的依照詞頻破解密文有點(diǎn)像),到現(xiàn)在是完全沒有考慮過復(fù)合短語的情況,可以說是還處于起步階段吧。在這里我們同樣會介紹一些論文。
- Kementchedjhieva et al.論文中指出把多語言的向量映射到第三方隱向量空間的效果要好于互相映射(就是英語的單詞對應(yīng)到小語種的單詞)
- Doval et al. 同樣在論文中指出要把多語言的向量求個(gè)平均值,然后在微調(diào)一下,可以看出這個(gè)思路和上一個(gè)很像啦,都是映射到了第三方的向量空間中。
- Chen and Cardie在論文中呢更是把多語言這個(gè)多字落實(shí)到了實(shí)處,真的是整了好多個(gè)語言,然后配對計(jì)算向量。
- Hartmann et al.分析了我們在ACL2018發(fā)表的論文,就是那篇從不同的word embeddings中選擇合適的來使用的論文。發(fā)現(xiàn)沒效果,他們指出由于不同的word embeddings就代表著不同的學(xué)習(xí)偏倚,那么頻繁的更換底層的學(xué)習(xí)偏倚造成了后續(xù)的神經(jīng)網(wǎng)絡(luò)的優(yōu)化和收斂的困難。并且他們把這個(gè)結(jié)論泛化到了多語言訓(xùn)練出來的向量中,發(fā)現(xiàn)不同的語言是有不同的學(xué)習(xí)偏倚的(語言的結(jié)構(gòu)不一樣)。論文中指出,無論什么樣的語言,唯一的不變性其實(shí)就是相近單詞的緊鄰性,所以基于這個(gè)學(xué)習(xí)偏倚搞出來的詞向量才具有可選擇性和可移植性。
- 同樣是為了解決這個(gè)問題,Hoshen and Wolf提出對詞向量分布的二階矩進(jìn)行對其,再進(jìn)行微調(diào)。(哈哈哈,并不知道這是什么操作)
- Xu et al. 提出通過優(yōu)化源語言和目標(biāo)語言單詞分布的Sinkhorn的距離來獲取多語言embeddings。
- Lample et al.作為本次會議的最佳論文之一,創(chuàng)造性的提出了無監(jiān)督的基于短語的機(jī)器翻譯模型,這個(gè)模型在語料庫匱乏的語言上表現(xiàn)的非常非常好,比有監(jiān)督的模型還要好。
- Artetxe et al. 的論文也是類似的思想,無監(jiān)督、基于短語,不過為啥沒也拿最佳呢??哈哈。扎心
3 Word embeddings
詞向量!這個(gè)東西還有人在研究我是真的驚呆啦!!大神博客里也沒有過多的介紹
??大神很認(rèn)真的指出,現(xiàn)在還是有人在很認(rèn)真的搞詞向量的,不過熱度已經(jīng)比前幾年少多啦。
- Zhuang et al.提出了一個(gè)新的損失函數(shù),然后并且提出使用二階共現(xiàn)關(guān)系矩陣來學(xué)習(xí)。
- Zhao et al. 提出把單詞看做是字母的組合,這樣的話就能夠很好的學(xué)習(xí)一些我們從來沒有見過的單詞的詞向量啦(完全不考慮預(yù)警信息真的合適嗎???還是說把語境詞也拆成了字母的組合)
- Bosc and Vincent通過重構(gòu)字典的解釋來訓(xùn)練詞向量
- Zhao et al.直接訓(xùn)練中性的(沒有性別歧視的)詞向量,而不是傳統(tǒng)的先訓(xùn)練出來再去歧視。這種方法甚至還直接給性別分配了一個(gè)詞向量的維度。
4.Latent Variable models隱變量模型
隱變量模型常常應(yīng)用在主題識別上,之前很多時(shí)候用的都是MCMC的那套東西進(jìn)行學(xué)習(xí)和推理,所以沒太趕得上上深度學(xué)習(xí)的熱度。不過這個(gè)東西確實(shí)是能夠很好的表達(dá)結(jié)構(gòu)化的學(xué)習(xí)偏倚的。
??廢話少說,直接上論文啦。
- Kim et al. 提供了一個(gè)超級棒的隱變量模型在深度學(xué)習(xí)上的應(yīng)用的教程。在教程里,Graham Neubig 強(qiáng)調(diào)隱變量模型存在著巨大的價(jià)值,因?yàn)樗軌虿东@語言的結(jié)構(gòu)化的特征。更具體的說,他以多元變分encoder-decoder和樹狀結(jié)構(gòu)自動編碼器為例,這兩種半監(jiān)督的模型都通過隱變量來利用無標(biāo)簽的數(shù)據(jù)。
- 在我(大神)的論文中,我們指出多語言的embeddings學(xué)習(xí)可以看作是隱變量的模型我們可以利用這種想法設(shè)計(jì)出一個(gè)使用EM算法的的模型,并且能夠更好的完成單詞的對齊任務(wù)。
- Dou et al. 同樣也提出在做summary 任務(wù)的時(shí)候句子也可以看做是具有隱變量的,在該論文中有激活隱變量的句子直接被提取出來用來做推理。
- 還有 Xu and Durrett 提出在變分自編碼器(Variational Auto-encoder )中使用一個(gè)和之前不同的分布,從而避免KL散度的失效問題。
- Niculae et al.提出動態(tài)的構(gòu)建隱結(jié)構(gòu)的方法。
5.Language model
語言模型我是再熟悉不過啦,簡單講就是充分利用單詞和語境的關(guān)系的一類模型,現(xiàn)在也多指用語境去預(yù)測下一個(gè)詞。
??作者指出語言模型在自然語言處理中的作用越來越大,也有越來越多的論文中設(shè)計(jì)了各種各樣的語言模型的結(jié)構(gòu)。
- Peters et al.指出LSTM,CNN和自注意力的模型都學(xué)習(xí)到了高質(zhì)量的表示(representation)。論文中還指出網(wǎng)絡(luò)中不同深度的表示捕獲了不同級別的語義信息。詞義上的信息是捕獲在word embeddings層的,局部語法是捕獲在底層的,長距離語義是捕獲在高層的。
- Tran et al. 的盧文中指出LSTM比自注意力機(jī)制能夠更好的泛化層級結(jié)構(gòu)。這篇論文指出了自注意力機(jī)制可能存在的局限性。
- Tang et al. 發(fā)現(xiàn)自注意力機(jī)制的抹稀泥和CNN在長距離的語義捕獲上都沒有想象中的比RNN要好。但是呢,注意力機(jī)制在詞義消歧方面表現(xiàn)非常優(yōu)異。
- 很多其他的論文也研究了語言模型的不同方面。Amrami and Goldberg指出語言模型能夠在無監(jiān)督的詞義推理上取得非常好的效果。更重要的是,他們發(fā)現(xiàn)了一個(gè)神奇的現(xiàn)象,就是在左邊語境和右邊語境中增加一個(gè)"and"將會取得更好的效果。Krishna et al.盧文中指出ELMO在情感分析的數(shù)據(jù)上比使用邏輯規(guī)則的方法有著更好的表現(xiàn)。Giulianelli et al. 利用診斷分類器來對語言中數(shù)字進(jìn)行預(yù)測。Wilcox et al.提出rnn的語言模型能夠解決filler-gap dependencies的問題,并且學(xué)習(xí)到“孤島限制條件”。
6. Datasets
這一部分介紹了新推出的數(shù)據(jù)集,不多介紹,就是列舉一下。
- Grounded common sense inference: SWAG contains 113k multiple choice questions about a rich spectrum of grounded situations.
- Coreference resolution: PreCo contains 38k documents and 12.5M words, which are mostly from the vocabulary of English-speaking preschoolers.
- Document grounded dialogue: The dataset by Zhou et al. contains 4112 conversations with an average of 21.43 turns per conversation.
- Automatic story generation from videos: VideoStory contains 20k social media videos amounting to 396 hours of video with 123k sentences, temporally aligned to the video.
- Sequential open-domain question answering: QBLink contains 18k question sequences, with each sequence consisting of three naturally occurring human-authored questions.
- Multimodal reading comprehension: RecipeQA consists of 20k instructional recipes with multiple modalities such as titles, descriptions and aligned set of images and 36k automatically generated question-answer pairs.
- Word similarity: CARD-660 consists of 660 manually selected rare words with manually selected paired words and expert annotations.
- Cloze style question answering: CLOTH consists of 7,131 passages and 99,433 questions used in middle-school and high-school language exams.
- Multi-hop question answering: HotpotQA contains 113k Wikipedia-based question-answer pairs.
- Open book question answering: OpenBookQA consists of 6,000 questions and 1,326 elementary level science facts.
- Semantic parsing and text-to-SQL: Spider contains 10,181 questions and 5,693 unique complex SQL queries on 200 databases with multiple tables covering 138 different domains.
- Few-shot relation classification: FewRel consists of 70k sentences on 100 relations derived from Wikipedia.
- Natural language inference: MedNLI consists of 14k sentence pairs in the clinical domain.
- Multilingual natural language inference: XNLI extends the MultiNLI dataset to 15 languages.
- Task-oriented dialogue modeling: MultiWOZ, which won the best resource paper award, is a Wizard-of-Oz style dataset consisting of 10k human-human written conversations spanning over multiple domains and topics.
??既然這里提到數(shù)據(jù)集了,那么就提一下有些論文還研究了當(dāng)前的一些數(shù)據(jù)集和評價(jià)標(biāo)準(zhǔn)的局限性:
- Text simplification: Sulem et al.指出BLEU得分在分割句子方面并不能算比較好的評價(jià)標(biāo)準(zhǔn),而分割句子又是非常非常常見的操作。
- Text-to-SQL: Yavuz et al. 指出他在WikiSQL的數(shù)據(jù)集上已經(jīng)達(dá)到了100%的準(zhǔn)確率,這個(gè)數(shù)據(jù)集已經(jīng)涼啦。
- Reading comprehension: Kaushik and Lipton指出目前的閱讀理解的方法里,如果只用文段,或者只用文章的最后一句作為輸入,預(yù)測效果將會更好。
7.Miscellaneous奇葩項(xiàng)
下面介紹的這些論文的研究方向都可以說是劍走偏鋒,非主流,不過還是很值得關(guān)注的。
- Stanovsky and Hopkins提出一種檢測word representation 到底好不好的方法。他們利用ODD-MAN-OUT這個(gè)游戲,游戲的規(guī)則是這樣的,我們每次提供五個(gè)單詞給模型,讓模型從里面跳出來最奇怪的一個(gè)。
- Shen et al.也研究的是個(gè)游戲,他們研究的是個(gè)簡化版本的Codenames。在他們的游戲中, 發(fā)言人 會被給予3個(gè)名詞,然后發(fā)言人需要挑一個(gè)形容詞來形容他們,然后由 聽眾 確定發(fā)言人形容的是哪兩個(gè)詞。
- Wood-Doughty et al.探究文本中的因果推理方法,并且將因果推理劃歸成了分類問題。
- 還有研究性別歧視的。。。這我就不講啦。。。
8. 總結(jié)
??每次看大神的博客總是會獲益匪淺,這一次也是對學(xué)習(xí)偏倚有了更加深刻的認(rèn)識:好的學(xué)習(xí)偏倚就是為了捕獲語言中的不變性而做的假設(shè),而好的模型就是為了實(shí)現(xiàn)學(xué)習(xí)偏倚的假設(shè)而設(shè)計(jì)的網(wǎng)絡(luò)結(jié)構(gòu)。另,最近被黑中介、黑導(dǎo)師整的賊煩啊。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。