1,Going beyond zero-shot MT: combining phonological, morphological and semantic factors
本文將多語種詞匯的多種特征融入到NMT編碼器的embedding信息中,特征包括語言語義標注信息、詞性信息、Lemma、Stem,近似的發(fā)音編碼、Babel Synset同義詞信息、toptic信息。文中詳細分析了多語種語料特征,相比拉丁語系(ro\it\es\gr),日耳曼語系(en\de\nl)共享更多的詞匯。本文NMT系統(tǒng)采用Nematus工具,在訓練語料源句子加上<2trg>標簽,源語言詞匯的表征是其所有特征的合并。從結(jié)果來看,所有特征融合在smalldata上可以提升0.7個bleu。
2,The Samsung and University of Edinburgh’s submission to IWSLT17
本文系統(tǒng)只參加了雙語翻譯任務(wù),en-de,使用Nematus工具。IWSLT提供了大量的平行訓練語料,本文使用句子對齊和語言識別來清洗和過濾語料。句子對齊:使用NMT系統(tǒng)自動翻譯原文本,使用翻譯結(jié)果和目標文本的bleu值左右預測對齊概率的一個特征。具體是訓練一個PSMT系統(tǒng)來清除不合適的短語,然后把德語翻譯成英語,最后使用句子對齊工具來處理每一個平行句對。本文選擇3K句子進行人工打分,然后訓練模型根據(jù)句子對齊分數(shù)預測人工分數(shù),然后使用回歸模型應(yīng)用與整個語料,挑選出得分比較高的句子。反向翻譯語料是使用NMT翻譯單語語料來構(gòu)成平行語料。最終用來訓練的語料包括允許、過濾的平行語料、過采樣的域內(nèi)數(shù)據(jù)和反向翻譯的數(shù)據(jù)。通過調(diào)參和finetuning之后,效果總體提升5個bleu。
3,F(xiàn)BK’s Multilingual Neural Machine Translation System for IWSLT 2017
本文參與multilingual和zero-shot任務(wù),系統(tǒng)使用many2many訓練方法。本文使用OpenNMT工具,encoder和decoder各4層網(wǎng)絡(luò)。本文做了以下對比試驗,multilingual model和Single Pair model,multilingual model和zero-shot,zero-shot和pivoting。從實驗結(jié)果來看,單個multilingual model效果好于Single Pair model,Zero-shot model proved效果要好于Single Pair model pivoting。
4,KIT’s Multilingual Neural Machine Translation systems for IWSLT 2017
本文將NMT網(wǎng)絡(luò)結(jié)構(gòu)分成五個主要的組成單元:embedding layers, encoders, decoders, attention and output layers。本文研究了對于multilingual任務(wù),哪些單元可以共享。數(shù)據(jù)處理:句子長度超過50,句對長度差異較大的句子被清除,特殊的日期、數(shù)字和符號進行歸一化,使用Smartcasing,BPE詞典大小為40K。embedding layers和output layers不共享,smal data上,share-rnn效果好于share-all0.7個bleu,large data上兩者效果一致。