NLP的技術(shù)熱點方向:
綜述
調(diào)研綜合工業(yè)界,學術(shù)界當前優(yōu)秀學術(shù)成果,并參考當前ACL,NLP,EMNLP等會議優(yōu)秀論文(主要借鑒2017年的),以及本人理解。從目前,NLP的兩大頂級會議(EMNLP,ACL)來看,基于seq2seq model的優(yōu)秀結(jié)構(gòu),Machine translation 持續(xù)穩(wěn)定發(fā)力(但是,在就BLEUscore的分數(shù)來說,仍然很難做到全語言對的普遍大的提升)。 另一方面,基于神經(jīng)網(wǎng)絡(luò)的語言模型這幾年出現(xiàn)了較多有趣的應(yīng)用(創(chuàng)作詩歌,小說等項目)。由于編解碼結(jié)構(gòu)(encoder-decoder)的良好表現(xiàn),深度的跨領(lǐng)域?qū)W習逐漸成為熱點,近幾年使用增強學習的方法在對話系統(tǒng),圖片描述等方面都取得了發(fā)展(見附錄)。另外,NLP的各大領(lǐng)域優(yōu)秀文章大部分都采用向量化的方式進行語言的研究,并有持續(xù)發(fā)展的趨勢。同時,端到端的模型成為當前搭建nlp到各領(lǐng)域(圖片描述以及自領(lǐng)域的聯(lián)合問題的一個橋梁。
熱點
- 熱點一
- 圖像的深度理解 (nlp 和 cv的交叉問題,表示學習,視覺推理,建立視覺的知識圖譜)
- 這里,指的是對于圖片表述意義的理解。當前在圖片描述作為nlp和cv結(jié)合的一個點(騰訊在mscoco上的cider已經(jīng)達到了第一)。對于這一點,目前采用端到端模型的較多(詳見介紹:https://zhuanlan.zhihu.com/p/28654835 附錄)。另外,近幾年對于圖片深層含義的挖掘,逐漸成為熱門。知識圖譜和表示學習逐步發(fā)展到了對圖像和語言的聯(lián)合建立上,雖然是一個大工程但是對于圖像的深層含義表述,是非常重要的。ACL2017的最佳資源也給與了視覺推理語言集(見http://yoavartzi.com/pub/slya-acl.2017.pdf)。
- 熱點二
- 基于神經(jīng)網(wǎng)絡(luò)的語言模型的發(fā)展(語言生成,寫作,基于GAN的語言模型)
由于,語言的向量化表示(word embedding),神經(jīng)網(wǎng)絡(luò)語言模型(基于LSTM等)的出現(xiàn),語言模型本身可以更好的結(jié)合其他場景進行聯(lián)合訓練。比如看圖寫詩(見微軟的少女詩人小冰),以語言模型作為文本創(chuàng)作的這一話題,從之前使用統(tǒng)計學(markov model) 轉(zhuǎn)移到了neural-based。這一轉(zhuǎn)變降低了語言建模的難度,加速了這一領(lǐng)域的發(fā)展,今年的ACL的best demo 便是一個能夠自動生成詩歌的系統(tǒng)。(Hafez)。 另外,GAN在圖像生成上的表現(xiàn),使得最近有人試圖將他遷移到語言生成這快來,進一步調(diào)查發(fā)現(xiàn),語言這塊GAN仍然屬于一個hard work。 - 熱點三
- 端到端模型的變化和改進(增強學習,全cnn結(jié)構(gòu))
在端到端模型中,近幾年有在使用增強學習辦法改進end2end。這種機制一定程度減少了exposure bias,另外采用reward機制也能一定程度上規(guī)避單一的MLE的不靈活。就論文來講,分數(shù)上都有所的提升(不大)。最近的,就是2017年5月(見https://arxiv.org/abs/1705.04304)提出對于文本摘要使用強化學習,提升了rouge。如2016年對話系統(tǒng)上使用rl,解決了部分對話容易陷入死循環(huán)的問題(https://arxiv.org/pdf/1606.01541.pdf)。
另外,使用全cnn結(jié)構(gòu)的end2end模型也比較火熱,主要是使用cnn可以大幅降低訓練時間,rnn的訓練時間較長。最新發(fā)表在arixv上的一篇文章(來自facebook AI),使用全cnn結(jié)構(gòu)來訓練翻譯模型,并且有小幅的bleu score 提升。
to be continue...
附錄
- GITHUB 很好的開源項目 (最近更新于2017.11.14) 更新NLP,CV,SPEECH最新的state-of-art的結(jié)果,附帶論文和代碼
https://github.com/RedditSota/state-of-the-art-result-for-machine-learning-problems - ACL best paper:https://www.jiqizhixin.com/articles/2017-08-03-8
- EMNLP best paper:https://mp.weixin.qq.com/s/Y8CqEOhdI7C4eAliDugMcQ
- ACL 2017 最佳資源 資源:http://lic.nlp.cornell.edu/nlvr/
- hafez https://github.com/shixing/poem -- 代碼
- tencet 的sca-cnn model
論文:https://arxiv.org/pdf/1611.05594.pdf
代碼:https://github.com/zjuchenlong/sca-cnn