1. 什么是MT
機(jī)器翻譯(MT)是自動(dòng)翻譯。這是使用計(jì)算機(jī)軟件將文本從一種自然語(yǔ)言(如英語(yǔ))翻譯成另一種語(yǔ)言(如西班牙語(yǔ))的過(guò)程。要處理任何人工或自動(dòng)翻譯,必須在目標(biāo)語(yǔ)言(即翻譯)中完全恢復(fù)原始(源)語(yǔ)言中文本的含義。雖然從表面上看這似乎很簡(jiǎn)單,但它要復(fù)雜得多。翻譯不僅僅是逐字替換。譯者必須解釋和分析文本中的所有元素,并知道每個(gè)單詞如何影響另一個(gè)單詞。這需要在源語(yǔ)言和目標(biāo)語(yǔ)言中具有語(yǔ)法,語(yǔ)法(句子結(jié)構(gòu)),語(yǔ)義(含義)等方面的廣泛專(zhuān)業(yè)知識(shí),以及對(duì)每個(gè)本地區(qū)域的熟悉程度。人工和機(jī)器翻譯各有各的挑戰(zhàn)。例如,沒(méi)有兩個(gè)單獨(dú)的翻譯者可以在同一語(yǔ)言對(duì)中生成相同文本的相同翻譯,并且可能需要幾輪修訂才能滿足客戶滿意度。但更大的挑戰(zhàn)在于機(jī)器翻譯如何產(chǎn)生可發(fā)布的高質(zhì)量翻譯。
2. 為什么要用MT
2. MT發(fā)展歷程

2.1 RBMT
基于規(guī)則的機(jī)器翻譯(RBMT)最早的基于規(guī)則的機(jī)器翻譯思想出現(xiàn)于 70 年代??茖W(xué)家研究了翻譯員的工作,試圖讓當(dāng)時(shí)還極其緩慢的計(jì)算機(jī)也能重復(fù)這些行為。
這些系統(tǒng)包含:
雙語(yǔ)詞典(比如,俄語(yǔ)->英語(yǔ))
每種語(yǔ)言一套語(yǔ)言學(xué)規(guī)則(比如,以 -heit、-keit、-ung 等特定后綴結(jié)尾的名詞都是陰性詞)
這就是這種系統(tǒng)的全部。如有需要,該系統(tǒng)還能得到一些補(bǔ)充,比如增加姓名列表、拼寫(xiě)糾錯(cuò)器和音譯功能。
[圖片上傳失敗...(image-38b485-1561785879495)]

PROMPT 和 Systran 是 RBMT 系統(tǒng)中最有名的案例。如果你想感受下那個(gè)黃金時(shí)代的柔和氣息,去試試 Aliexpress 吧。但即使它們也有一些細(xì)微差別和亞種。
2.1.1 DIRECT MACHINE TRANSLATION
直接機(jī)器翻譯這是機(jī)器翻譯中最直接的類(lèi)型。它會(huì)將文本分成詞,然后翻譯這些詞,再稍微校正一下形態(tài),最后協(xié)調(diào)句法得到結(jié)果;或多或少聽(tīng)起來(lái)還行。當(dāng)太陽(yáng)落山后,訓(xùn)練有素的語(yǔ)言學(xué)家還在為每個(gè)詞編寫(xiě)規(guī)則。其輸出會(huì)返回某種類(lèi)型的翻譯結(jié)果。通常情況下,結(jié)果很糟糕。就好像是這些語(yǔ)言學(xué)家白白浪費(fèi)了自己的時(shí)間?,F(xiàn)代系統(tǒng)完全不會(huì)使用這種方法,現(xiàn)代語(yǔ)言學(xué)家對(duì)此感激不盡。

2.1.2 基于遷移的機(jī)器翻譯
基于遷移的機(jī)器翻譯與直接翻譯相比,我們翻譯時(shí)要做準(zhǔn)備——首先確定句子的語(yǔ)法結(jié)構(gòu),就像上學(xué)時(shí)老師教的那樣。然后我們?cè)俨僮髡麄€(gè)結(jié)構(gòu),而不是一個(gè)個(gè)的詞。這有助于在翻譯中得到相當(dāng)好的詞序轉(zhuǎn)換。理論上是這樣。但在實(shí)踐中,這仍然會(huì)得到逐詞翻譯的結(jié)果并會(huì)讓語(yǔ)言學(xué)家身疲力竭。一方面,它帶來(lái)的是簡(jiǎn)化過(guò)的一般性語(yǔ)法規(guī)則。但另一方面,由于詞結(jié)構(gòu)的數(shù)量比單個(gè)的詞要多得多,所以這又會(huì)變得更加復(fù)雜。

2.1.3 語(yǔ)際機(jī)器翻譯
語(yǔ)際機(jī)器翻譯在這種方法中,源文本會(huì)被轉(zhuǎn)換成中間表征,并且會(huì)被統(tǒng)一用于全世界的所有語(yǔ)言(中間語(yǔ)言)。這正是笛卡爾所夢(mèng)想的那種中間語(yǔ)言:一種元語(yǔ)言,遵循普適的規(guī)則并且可以將翻譯變成一種簡(jiǎn)單的「來(lái)回切換」任務(wù)。接下來(lái),中間語(yǔ)言可以轉(zhuǎn)換成任何目標(biāo)語(yǔ)言,而這就是奇點(diǎn)!正是由于存在這種轉(zhuǎn)換,所以語(yǔ)際機(jī)器翻譯常常會(huì)和基于遷移的系統(tǒng)混淆。語(yǔ)際機(jī)器翻譯的不同之處是語(yǔ)言學(xué)規(guī)則是針對(duì)每種單獨(dú)的語(yǔ)言和中間語(yǔ)言的,而不是針對(duì)語(yǔ)言對(duì)。這意味著我們可以向語(yǔ)際系統(tǒng)加入第三種語(yǔ)言并且在它們?nèi)咧g彼此翻譯。而我們無(wú)法在基于遷移的系統(tǒng)中做到這一點(diǎn)。

看起來(lái)很完美,但實(shí)際并不。創(chuàng)建這樣一種通用的中間語(yǔ)言極其困難——很多科學(xué)家都在這上面投入了一生。他們還沒(méi)有取得成功,但多虧了他們,我們現(xiàn)在有了形態(tài)層面、句法層面、甚至語(yǔ)義層面的表征。但只有語(yǔ)義-文本理論(Meaning-text theory)耗費(fèi)了巨資!中間語(yǔ)言的思想還會(huì)再回來(lái)的。讓我們?cè)俚鹊瓤础?/p>

2.1.4 總結(jié)
如你所見(jiàn),所有的 RBMT 都很蠢笨和可怕,所以它們很少得到使用,除了一些特定的案例(比如天氣報(bào)告翻譯等)。
RBMT 最常被提及的優(yōu)點(diǎn)有形態(tài)準(zhǔn)確性(不會(huì)混淆詞)、結(jié)果的可再現(xiàn)性(所有翻譯器的結(jié)果都一樣)和調(diào)節(jié)到特定學(xué)科領(lǐng)域的能力(比如為了教授經(jīng)濟(jì)學(xué)家或特定于程序員的術(shù)語(yǔ))。
就算有人真的成功創(chuàng)造出了一個(gè)完美的 RBMT,語(yǔ)言學(xué)家也用所有的拼寫(xiě)規(guī)則強(qiáng)化了它,但還是會(huì)存在某些例外情況:英語(yǔ)中的不規(guī)則動(dòng)詞、德語(yǔ)中的可分前綴、俄語(yǔ)中的后綴以及人們的表達(dá)方式存在差異的情況。
任何試圖涵蓋所有細(xì)微差別的行為都會(huì)耗費(fèi)數(shù)以百萬(wàn)小時(shí)計(jì)的工作時(shí)間。還不要忘記多義詞。
同一個(gè)詞在不同的語(yǔ)境中可能會(huì)具有不同的含義,這會(huì)得到不同的翻譯結(jié)果。你試試能從這句話中理解到幾種含義:I saw a man on a hill with a telescope?
語(yǔ)言不會(huì)按照什么固定的規(guī)則而發(fā)展——語(yǔ)言學(xué)家倒是喜歡這個(gè)事實(shí)。過(guò)去三百年中的侵略活動(dòng)對(duì)語(yǔ)言的影響非常大。你怎么能向機(jī)器解釋這一點(diǎn)?四十年的冷戰(zhàn)沒(méi)能幫助找到任何明確的解決方案。RBMT 已死。
2.2 基于實(shí)例的機(jī)器翻譯(EBMT)
日本對(duì)機(jī)器翻譯競(jìng)賽尤其感興趣。原因不是冷戰(zhàn),而另有其它:這個(gè)國(guó)家理解英語(yǔ)的人非常少。這在即將到來(lái)的全球化方面是一個(gè)很?chē)?yán)重的問(wèn)題。所以日本人非常積極地想要找到一種可行的機(jī)器翻譯方法。基于規(guī)則的英日翻譯極其復(fù)雜。這兩種語(yǔ)言的語(yǔ)言結(jié)構(gòu)完全不一樣,幾乎所有詞都需要重新排列,而且還需要添加新詞。
1984 年,京都大學(xué)的長(zhǎng)尾真提出了一個(gè)思想:使用現(xiàn)成的短語(yǔ)而不是重復(fù)進(jìn)行翻譯。
假設(shè)我們想翻譯一個(gè)簡(jiǎn)單的句子——「I'm going to the cinema.」而且我們之前已經(jīng)翻譯了一個(gè)類(lèi)似的句子——「I'm going to the theater.」而且我們也能在詞典中找到「cinema」這個(gè)詞。那么我們只需找到這兩個(gè)句子的不同之處、翻譯缺失的詞、不要搞錯(cuò)了即可。我們擁有的實(shí)例越多,翻譯結(jié)果就會(huì)越好。我正是采用這種方式構(gòu)建了下面的我不熟悉的外語(yǔ)短語(yǔ)!

EBMT 讓全世界的科學(xué)家看到了方向:事實(shí)證明,你可以直接向機(jī)器輸入已有的翻譯,而不必花費(fèi)多年時(shí)間構(gòu)建規(guī)則和例外。革命還沒(méi)有發(fā)生,但顯然已經(jīng)邁出了第一步。革命性的統(tǒng)計(jì)機(jī)器翻譯發(fā)明將在那之后短短五年內(nèi)誕生。
2.3 基于統(tǒng)計(jì)的機(jī)器翻譯(SMT)
1990 年初,IBM 研究中心首次展示了一個(gè)對(duì)規(guī)則和語(yǔ)言學(xué)一無(wú)所知的機(jī)器翻譯系統(tǒng)。它分析了兩種語(yǔ)言的相似文本并且試圖理解其中的模式。

這是一個(gè)簡(jiǎn)潔而又優(yōu)美的思想。兩種語(yǔ)言中的同一句子被分成單詞,然后再進(jìn)行匹配。這種操作重復(fù)了近 5 億次,記錄下了很多模式,比如「Das Haus」被翻譯成「house」或「building」或「construction」等詞的次數(shù)。如果大多數(shù)時(shí)候源詞都被翻譯成「house」,那么機(jī)器就會(huì)使用這一結(jié)果。注意我們沒(méi)有使用任何規(guī)則,也沒(méi)有使用任何詞典——所有的結(jié)論都是由機(jī)器完成的,其指導(dǎo)方針是統(tǒng)計(jì)結(jié)果和這樣的邏輯——「如果人們這樣翻譯,我也這樣翻譯」。統(tǒng)計(jì)翻譯由此誕生。

這個(gè)方法比之前的所有方法都更加有效和準(zhǔn)確。而且無(wú)需語(yǔ)言學(xué)家。我們使用的文本越多,我們得到的翻譯結(jié)果就越好。

谷歌的統(tǒng)計(jì)翻譯內(nèi)部情況示例。它不僅給出了概率,而且還顯示了反向翻譯結(jié)果統(tǒng)計(jì)仍然還有一個(gè)遺留問(wèn)題:機(jī)器該怎樣將「Das Haus」與「building」對(duì)應(yīng)起來(lái)呢——我們又怎么知道翻譯結(jié)果是正確的?答案是我們沒(méi)法知道。一開(kāi)始,機(jī)器會(huì)假設(shè)「Das Haus」一詞與來(lái)自翻譯句子的任意詞都有同等的關(guān)聯(lián)。接下來(lái),當(dāng)「Das Haus」出現(xiàn)在其它句子中時(shí),與「house」關(guān)聯(lián)的數(shù)量會(huì)增多。這就是詞對(duì)齊算法,這是大學(xué)級(jí)機(jī)器翻譯的典型任務(wù)之一。機(jī)器需要成百萬(wàn)上千萬(wàn)的雙語(yǔ)句子才能收集到每個(gè)詞的相關(guān)統(tǒng)計(jì)結(jié)果。我們?nèi)绾蔚玫竭@些數(shù)據(jù)?好吧,我們決定取用歐洲議會(huì)和聯(lián)合國(guó)安理會(huì)會(huì)議的摘錄,這些都是以所有成員國(guó)的語(yǔ)言提供的,而且可供下載:UN Corpora:https://catalog.ldc.upenn.edu/LDC2013T06Europarl Corpora:http://www.statmt.org/europarl
2.3.1 基于詞的 SMT
一開(kāi)始的時(shí)候,最早期的統(tǒng)計(jì)翻譯系統(tǒng)的工作方式是將句子分成詞,因?yàn)檫@種方法很直觀而且符合邏輯。
IBM 的第一個(gè)統(tǒng)計(jì)翻譯模型被稱(chēng)為 Model 1:逐詞對(duì)應(yīng)

Model 1 使用了一種經(jīng)典方法來(lái)將句子分成詞和記錄統(tǒng)計(jì)信息。這個(gè)過(guò)程不考慮詞序。唯一要用的技巧是將一個(gè)詞翻譯成多個(gè)詞。比如「Der Staubsauger」可能會(huì)變成「Vacuum Cleaner」,但并不意味著反過(guò)來(lái)也可以。
這里有一些基于 Python 的簡(jiǎn)單實(shí)現(xiàn):https://github.com/shawa/IBM-Model-1
2.3.2 Model 2:考慮句子中的詞序
Model 2:考慮句子中的詞序

缺乏語(yǔ)言詞序知識(shí)是 Model 1 的一個(gè)問(wèn)題,而且這個(gè)問(wèn)題在某些情況下很重要。
Model 2 解決了這個(gè)問(wèn)題:它記憶了輸出句子中詞通常出現(xiàn)的位置,并且會(huì)通過(guò)一個(gè)中間步驟將詞排列成更自然的形式。結(jié)果變得更好了,但仍然不盡人意。
2.3.3 Model 3:額外增添
翻譯結(jié)果中常常會(huì)出現(xiàn)新詞,比如德語(yǔ)的冠詞或英語(yǔ)否定句中的「do」。比如「Ich will keine Persimonen」→「I do not want Persimmons.」為了解決這個(gè)問(wèn)題,Model 3 又增加了兩個(gè)步驟:如果機(jī)器認(rèn)為有加入新詞的必要性,則插入 NULL 標(biāo)記為每個(gè)標(biāo)記詞的對(duì)齊選擇合適的小品詞或詞

2.3.4 Model 4:詞對(duì)齊
Model 2 考慮了詞對(duì)齊,但對(duì)詞序重排一無(wú)所知。比如,形容詞常會(huì)與名詞交換位置,所以不管詞序記憶得多好,都不會(huì)讓輸出結(jié)果更好。因此,Model 4 考慮了所謂的「相對(duì)順序」——如果兩個(gè)詞總是交換位置,模型就能學(xué)到。
2.3.5 Model 5:修正錯(cuò)誤
這里沒(méi)什么新鮮的。Model 5 所要學(xué)習(xí)的參數(shù)更多了,而且修正了詞位置沖突的問(wèn)題。盡管基于詞的系統(tǒng)本身是革命性的,但它們?nèi)匀粺o(wú)法處理格、性和同義詞。每一個(gè)詞都只有單一一種翻譯方式。現(xiàn)在我們已經(jīng)不再使用這種系統(tǒng)了,因?yàn)樗鼈円呀?jīng)被更為先進(jìn)的基于短語(yǔ)的方法替代。
2.3.6 基于短語(yǔ)的 SMT
這種方法基于所有基于詞的翻譯原則:統(tǒng)計(jì)、重新排序和詞法分析。但是,在學(xué)習(xí)時(shí),它不僅會(huì)將文本分成詞,還會(huì)分成短語(yǔ)。確切地說(shuō),這些是 n-gram,即 n 個(gè)詞連在一起構(gòu)成的連續(xù)序列。因此,這個(gè)機(jī)器能學(xué)習(xí)翻譯穩(wěn)定的詞組合,這能顯著提升準(zhǔn)確度。

其中的訣竅在于,這里的短語(yǔ)并不總是簡(jiǎn)單的句法結(jié)構(gòu),而且如果有人明白語(yǔ)言學(xué)并干預(yù)了其中的句子結(jié)構(gòu),那么翻譯的質(zhì)量就會(huì)大幅下降。
計(jì)算語(yǔ)言學(xué)先驅(qū) Frederick Jelinek 曾經(jīng)開(kāi)玩笑地說(shuō):「每次我炒掉一個(gè)語(yǔ)言學(xué)家,語(yǔ)音識(shí)別器的表現(xiàn)就會(huì)上升一點(diǎn)。」
除了提升準(zhǔn)確度,基于短語(yǔ)的翻譯在選擇所要學(xué)習(xí)的雙語(yǔ)文本上提供了更多選擇。對(duì)于基于詞的翻譯,源文本之間的準(zhǔn)確匹配是至關(guān)重要的,這就排除了讓任何文學(xué)翻譯或自由翻譯?;诙陶Z(yǔ)的翻譯則可以從中學(xué)習(xí)。為了提升翻譯質(zhì)量,研究者甚至開(kāi)始解析不同語(yǔ)言的新聞網(wǎng)站
[圖片上傳失敗...(image-7dddb9-1561786360267)]

自 2006 年以來(lái),每個(gè)人都開(kāi)始使用這種方法。谷歌翻譯、Yandex、必應(yīng)等一些著名的在線翻譯工具將基于短語(yǔ)的方法用到了 2016 年。你們可能都還記得谷歌要么得到毫無(wú)差錯(cuò)的翻譯句子,要么得到毫無(wú)意義的結(jié)果的時(shí)候吧?這種毫無(wú)意義就來(lái)自基于短語(yǔ)的功能。
老一輩基于規(guī)則的方法總是會(huì)得到可預(yù)測(cè)的但也很糟糕的結(jié)果。統(tǒng)計(jì)方法則總是會(huì)得到出人意料和讓人困惑的結(jié)果。谷歌翻譯會(huì)毫不猶豫地將「three hundred」變成「300」。這就是所謂的統(tǒng)計(jì)異常(statistical anomaly)?;诙陶Z(yǔ)的翻譯已經(jīng)變得非常流行,當(dāng)你聽(tīng)到人們說(shuō)「統(tǒng)計(jì)機(jī)器翻譯」時(shí),多半就是指它。在 2016 年之前,所有的研究都稱(chēng)贊基于短語(yǔ)的翻譯是表現(xiàn)最好的。那時(shí)候,甚至沒(méi)人認(rèn)為谷歌已經(jīng)在燃起戰(zhàn)火,準(zhǔn)備改變整個(gè)機(jī)器翻譯圖景了。
2.3.7 基于句法的 SMT
基于句法的 SMT這種方法應(yīng)當(dāng)被簡(jiǎn)要提及一下
。在神經(jīng)網(wǎng)絡(luò)出現(xiàn)的很多年前,基于句法的翻譯被認(rèn)為是「翻譯的未來(lái)」,但這一思想并未迎來(lái)騰飛。
基于句法的翻譯的支持者相信它有可能與基于規(guī)則的方法融合。它需要對(duì)句子進(jìn)行相當(dāng)準(zhǔn)確的句法分析——以確定主語(yǔ)、謂語(yǔ)和句子的其它部分,然后再構(gòu)建一個(gè)句子樹(shù)。機(jī)器可以使用它來(lái)學(xué)習(xí)轉(zhuǎn)換語(yǔ)言之間的句法單元并根據(jù)詞或短語(yǔ)來(lái)翻譯其余部分。那應(yīng)該可以一勞永逸地解決詞對(duì)齊問(wèn)題。

來(lái)自 Yamada and Knight [2001] 的示例(http://www.aclweb.org/anthology/P01-1067)以及這個(gè)很棒的幻燈片(http://homepages.inf.ed.ac.uk/pkoehn/publications/esslli-slides-day5.pdf)
問(wèn)題是句法分析的效果很差,盡管事實(shí)上我們認(rèn)為這在之前已經(jīng)得到了解決(因?yàn)槲覀冇泻芏嗾Z(yǔ)言的現(xiàn)成可用的庫(kù))。我曾經(jīng)試過(guò)使用句法樹(shù)來(lái)解決比單純地解析主語(yǔ)和謂語(yǔ)更復(fù)雜的任務(wù)。但我每次都放棄了,然后使用了另一種方法。如果你成功過(guò)至少一次,請(qǐng)讓我知道。
2.4 NMT
神經(jīng)機(jī)器翻譯(NMT)2014 年,一篇關(guān)于將神經(jīng)網(wǎng)絡(luò)用于機(jī)器翻譯的出色論文發(fā)布:https://arxiv.org/abs/1406.1078。
互聯(lián)網(wǎng)并沒(méi)關(guān)注這項(xiàng)研究,但谷歌除外——他們挽起袖子就干了起來(lái)。兩年之后的 2016 年 9 月,谷歌發(fā)布了改變機(jī)器翻譯領(lǐng)域的公告,參閱《重磅 | 谷歌翻譯整合神經(jīng)網(wǎng)絡(luò):機(jī)器翻譯實(shí)現(xiàn)顛覆性突破》。
這一思想接近照片之間的風(fēng)格遷移。知道 Prisma 這樣的應(yīng)用嗎?它能用某幅著名藝術(shù)作品的風(fēng)格來(lái)渲染圖片。但這不是魔法。是神經(jīng)網(wǎng)絡(luò)學(xué)會(huì)了識(shí)別藝術(shù)家的畫(huà)作。接下來(lái),包含網(wǎng)絡(luò)決策的最后一層被移除了。所得到的風(fēng)格化圖像只是網(wǎng)絡(luò)所得到的中間圖像。這是網(wǎng)絡(luò)自己的幻想,而我們覺(jué)得這很美。

如果我們可以遷移照片的風(fēng)格,那我們能不能將另一種語(yǔ)言施加到源文本上呢?我們可以將文本看作是帶有某種「藝術(shù)家風(fēng)格」,我們希望在遷移這個(gè)風(fēng)格的同時(shí)又保證這些文本的本質(zhì)不變。想象一下,假如我要描述我的狗——平均個(gè)頭、尖鼻子、短尾巴、老是叫喚。如果我把這些狗的特征給你并且描述是準(zhǔn)確的,你就可以畫(huà)出它,即使你從沒(méi)見(jiàn)過(guò)它。

現(xiàn)在,再想象源文本是特定特征的集合?;旧隙?,這意味著你可以編碼它,然后再讓其它神經(jīng)網(wǎng)絡(luò)將其解碼回文本——但是另一種語(yǔ)言的文本。解碼器只知道自己的語(yǔ)言。它對(duì)這些特征的來(lái)源一無(wú)所知,但它可以用西班牙語(yǔ)等語(yǔ)言將其表達(dá)出來(lái)。再繼續(xù)前面的比喻,不管你是怎么畫(huà)這條狗的(用蠟筆、水彩或你的手指),你都可以把它畫(huà)出來(lái)。再說(shuō)明一次:一個(gè)神經(jīng)網(wǎng)絡(luò)只能將句子編碼成特定的特征集合,另一個(gè)神經(jīng)網(wǎng)絡(luò)只能將其解碼成文本。這兩者彼此都不知情,而且都只各自了解自己的語(yǔ)言。想起什么沒(méi)有?「中間語(yǔ)言」回來(lái)了

問(wèn)題是,我們?nèi)绾握业竭@些特征?對(duì)于狗來(lái)說(shuō),特征當(dāng)然很明顯,但文本的特征是怎樣的?三十年前科學(xué)家就已經(jīng)在嘗試創(chuàng)建通用語(yǔ)言代碼了,但最終以失敗告終。盡管如此,我們現(xiàn)在有深度學(xué)習(xí)了。尋找特征是它的基本任務(wù)!深度學(xué)習(xí)和經(jīng)典神經(jīng)網(wǎng)絡(luò)之間的主要區(qū)別是搜索這些特定特征的能力,而無(wú)需對(duì)這些特征的本質(zhì)有任何了解。如果神經(jīng)網(wǎng)絡(luò)足夠大,而且有數(shù)千塊顯卡可用,那就能很好地找到文本中的這些特征。理論上講,我們可以將這些神經(jīng)網(wǎng)絡(luò)得到的特征交給語(yǔ)言學(xué)家,這樣他們就可以為自己打開(kāi)一片新視野了。但問(wèn)題是編碼和解碼應(yīng)該使用哪種類(lèi)型的神經(jīng)網(wǎng)絡(luò)呢?卷積神經(jīng)網(wǎng)絡(luò)(CNN)完美適用于圖像,因?yàn)樗鼈兛梢圆僮鳘?dú)立的像素塊。但文本中沒(méi)有獨(dú)立的塊——每個(gè)詞都取決于自己的語(yǔ)境。文本、語(yǔ)音、音樂(lè)都是連續(xù)的。所以循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)是處理它們的最佳選擇,因?yàn)樗鼈兡苡涀≈暗慕Y(jié)果——在這里即是之前的詞?,F(xiàn)在很多應(yīng)用都已經(jīng)使用了 RNN,包括 Siri 的語(yǔ)音識(shí)別(解析聲音序列,其中后一個(gè)聲音取決于前一個(gè)聲音)、鍵盤(pán)提示(記住之前的經(jīng)歷,猜測(cè)下一個(gè)詞)、音樂(lè)生成和聊天機(jī)器人。
[圖片上傳失敗...(image-468735-1561786476434)]

致像我一樣的技術(shù)宅:事實(shí)上,神經(jīng)翻譯器的架構(gòu)非常多樣。一開(kāi)始是用的常規(guī) RNN,后來(lái)升級(jí)成了雙向 RNN,其中翻譯器不僅要考慮源詞之前的詞,還有考慮其后的詞。這要高效得多。然后它又使用了帶有 LSTM 單元的多層 RNN,可以實(shí)現(xiàn)翻譯語(yǔ)境的長(zhǎng)期存儲(chǔ)。
短短兩年時(shí)間,神經(jīng)網(wǎng)絡(luò)在翻譯上的表現(xiàn)就超越了過(guò)去 20 年來(lái)的一切。神經(jīng)翻譯的詞序錯(cuò)誤少了 50%、詞匯錯(cuò)誤減少了 17%、語(yǔ)法錯(cuò)誤減少了 19%。神經(jīng)網(wǎng)絡(luò)甚至學(xué)會(huì)了協(xié)調(diào)不同語(yǔ)言的性和格。而且并沒(méi)有人教它們這樣做。這一領(lǐng)域最值得提及的進(jìn)展是從沒(méi)使用過(guò)直接翻譯。
統(tǒng)計(jì)機(jī)器翻譯方法總是可以使用英語(yǔ)作為關(guān)鍵源。因此,如果你要將俄語(yǔ)翻譯成德語(yǔ),機(jī)器會(huì)首先將俄語(yǔ)翻譯成英語(yǔ),然后再將英語(yǔ)翻譯成德語(yǔ),這會(huì)造成雙倍損失。神經(jīng)翻譯無(wú)需這樣做——只需要一個(gè)解碼器就行了。沒(méi)有共同詞典的語(yǔ)言之間也能實(shí)現(xiàn)直接翻譯,這是有史以來(lái)的第一次。
[圖片上傳失敗...(image-4b4a00-1561786488505)]

2.4 谷歌翻譯
谷歌翻譯(自 2016 年以來(lái))2016 年,谷歌為 9 種語(yǔ)言啟用了神經(jīng)翻譯。他們開(kāi)發(fā)出了名為谷歌神經(jīng)機(jī)器翻譯(GNMT)的系統(tǒng)。它由 8 個(gè)編碼器和 8 個(gè)解碼器 RNN 層構(gòu)成,另外還有來(lái)自解碼器網(wǎng)絡(luò)的注意連接。他們不僅會(huì)切分句子,而且還會(huì)切分詞。這正是他們解決 NMT 一大主要難題的方法——即罕見(jiàn)詞問(wèn)題。但出現(xiàn)了它們?cè)~匯庫(kù)中沒(méi)有的詞時(shí),NMT 是無(wú)能為力的。比如說(shuō)「Vas3k」。我估計(jì)沒(méi)人讓神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)翻譯我的昵稱(chēng)。在遇到罕見(jiàn)詞時(shí),GNMT 會(huì)嘗試將詞分解成詞片段,然后根據(jù)這些片段得到翻譯結(jié)果。很聰明的做法。

提示:瀏覽器中用于網(wǎng)站翻譯的谷歌翻譯仍然用的是老舊的基于短語(yǔ)的算法。不知為何谷歌沒(méi)有升級(jí),而且其翻譯結(jié)果和在線版本谷歌翻譯相比差距其實(shí)相當(dāng)大。在線版本的谷歌翻譯使用了眾包機(jī)制。人們可以選擇他們認(rèn)為最正確的版本,而且如果很多用戶都認(rèn)同,那么谷歌就會(huì)一直按這種方式翻譯這個(gè)短語(yǔ)并將其標(biāo)注為一個(gè)特例。對(duì)于「Let』s go to the cinema」或「I』m waiting for you」等日常使用的短句而言,這種做法效果很好。谷歌的英語(yǔ)會(huì)話水平比我還好,不開(kāi)森~微軟必應(yīng)的工作方式和谷歌翻譯差不多。
2.4 Yandex Translate
Yandex Translate(自 2017 年以來(lái))Yandex 于 2017 年推出了自己的神經(jīng)翻譯系統(tǒng)。該公司宣稱(chēng)其主要特色是混合性(hybridity)。Yandex 將神經(jīng)方法和統(tǒng)計(jì)方法組合到了一起來(lái)執(zhí)行翻譯,然后再使用其最喜歡的 CatBoost 算法從中選出最好的一個(gè)。問(wèn)題是神經(jīng)翻譯在翻譯短句時(shí)常常出錯(cuò),因?yàn)樗枰褂蒙舷挛膩?lái)選擇正確的詞。如果一個(gè)詞在訓(xùn)練數(shù)據(jù)中出現(xiàn)的次數(shù)非常少,那就很難得到正確的結(jié)果。在這種情況下,簡(jiǎn)單的統(tǒng)計(jì)翻譯能輕松快捷地找到正確的詞。

在句子末尾加上句號(hào)后,Yandex 的翻譯結(jié)果更好了,因?yàn)檫@時(shí)候它啟用了神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯。Yandex 沒(méi)有分享具體的技術(shù)細(xì)節(jié)。它用營(yíng)銷(xiāo)新聞稿搪塞了我們。好吧??雌饋?lái)谷歌使用了 SMT 來(lái)執(zhí)行詞和短句的翻譯。他們沒(méi)有在任何文章中提及這一點(diǎn),但如果你查看短表達(dá)和長(zhǎng)表達(dá)之間的差別,你就能相當(dāng)明顯地注意到。此外,SMT 也被用來(lái)展示詞的統(tǒng)計(jì)情況。結(jié)論和未來(lái)每個(gè)人都仍然為「巴別魚(yú)」(即時(shí)語(yǔ)音翻譯)的構(gòu)想感到興奮。谷歌已經(jīng)帶著 Pixel Buds 耳機(jī)向這個(gè)方向邁出了一步,但事實(shí)上這仍然達(dá)不到我們夢(mèng)想的效果。即時(shí)語(yǔ)音翻譯與通常的翻譯不同。系統(tǒng)需要知道何時(shí)開(kāi)始翻譯以及何時(shí)閉嘴聆聽(tīng)。我還沒(méi)見(jiàn)到過(guò)任何能夠解決這一問(wèn)題的方法。也許,Skype 還行吧……而且有待推進(jìn)的領(lǐng)域不止這一個(gè):所有的學(xué)習(xí)都受限于并列文本塊的集合。最深度的神經(jīng)網(wǎng)絡(luò)仍然是在并列文本中學(xué)習(xí)。如果不向神經(jīng)網(wǎng)絡(luò)提供資源,它就無(wú)法學(xué)習(xí)。而人類(lèi)可以通過(guò)閱讀書(shū)籍和文章來(lái)擴(kuò)增自己的詞匯庫(kù),即使不會(huì)將其翻譯成自己的母語(yǔ)。如果人類(lèi)能做到,神經(jīng)網(wǎng)絡(luò)就也能做到。理論上是這樣。
3. MT過(guò)程
4. MT商業(yè)化
https://www.g2crowd.com/categories/machine-translation
計(jì)算機(jī)輔助翻譯(CAT)工具是幫助將內(nèi)容從一種語(yǔ)言翻譯成另一種語(yǔ)言的軟件應(yīng)用程序。翻譯工具,也稱(chēng)為CAT(計(jì)算機(jī)輔助翻譯),可提高翻譯人員的工作效率和一致性。它們通常在單個(gè)集成工作臺(tái)中包含多種組件技術(shù),例如文檔編輯器,術(shù)語(yǔ)管理和翻譯記憶庫(kù)。這些工具隨著計(jì)算和網(wǎng)絡(luò)行業(yè)的發(fā)展而變化,首先是作為在單個(gè)計(jì)算機(jī)上使用的獨(dú)立軟件,然后是在公司網(wǎng)絡(luò)上使用的客戶端 - 服務(wù)器工具,最近是基于云的工具通過(guò)互聯(lián)網(wǎng)。
自20世紀(jì)50年代以來(lái),翻譯技術(shù)的興趣不斷增長(zhǎng),當(dāng)時(shí)翻譯需求開(kāi)始呈指數(shù)級(jí)增長(zhǎng),而譯員的生產(chǎn)力保持不變。這在公司的工作流程中造成了昂貴且耗時(shí)的瓶頸,這是一個(gè)等待解決的問(wèn)題。自六十年代中期以來(lái),公司一直在尋找一種方法來(lái)使用計(jì)算機(jī)來(lái)幫助翻譯人員,特別是通過(guò)調(diào)整并行雙語(yǔ)文本來(lái)重復(fù)使用以前的翻譯。提供此功能的首批商業(yè)產(chǎn)品之一是在美國(guó)創(chuàng)建的翻譯支持系統(tǒng),但該技術(shù)僅在20世紀(jì)90年代早期由德國(guó)公司TRADOS GmbH發(fā)布Trados MultiTerm和Translator's Workbench時(shí)立足。1994年,Trados發(fā)布了一個(gè)帶有MS Word界面的Windows版本,并在1997年微軟決定不僅將其產(chǎn)品用于內(nèi)部本地化需求,而且還獲得該公司20%的份額時(shí)獲得了重大推動(dòng)。盡管來(lái)自IBM翻譯經(jīng)理2,STAR Transit和DéjàVu的競(jìng)爭(zhēng),在十年末,Trados成為CAT軟件的明顯市場(chǎng)領(lǐng)導(dǎo)者,直到2005年被競(jìng)爭(zhēng)對(duì)手SDL收購(gòu)。更多關(guān)于Trados和SDL的歷史在這里。近年來(lái)已經(jīng)看到一些新的翻譯工具進(jìn)入市場(chǎng)并進(jìn)行了一些兼并和收購(gòu)。2009年,谷歌通過(guò)發(fā)布谷歌翻譯工具包加入了競(jìng)爭(zhēng)。其他現(xiàn)代CAT工具是memoQ和Wordbee。
5. NMT流行的算法
?。。。≈匾?,待補(bǔ)充?。。?!
參考文檔
http://zhigu.news.cn/2018-03/16/c_129830957.htm(歷史部分基本上上從這上面復(fù)制過(guò)來(lái)的)