1. 什么是MT

機(jī)器翻譯（MT）是自動(dòng)翻譯。這是使用計(jì)算機(jī)軟件將文本從一種自然語(yǔ)言（如英語(yǔ)）翻譯成另一種語(yǔ)言（如西班牙語(yǔ)）的過(guò)程。要處理任何人工或自動(dòng)翻譯，必須在目標(biāo)語(yǔ)言（即翻譯）中完全恢復(fù)原始（源）語(yǔ)言中文本的含義。雖然從表面上看這似乎很簡(jiǎn)單，但它要復(fù)雜得多。翻譯不僅僅是逐字替換。譯者必須解釋和分析文本中的所有元素，并知道每個(gè)單詞如何影響另一個(gè)單詞。這需要在源語(yǔ)言和目標(biāo)語(yǔ)言中具有語(yǔ)法，語(yǔ)法（句子結(jié)構(gòu)），語(yǔ)義（含義）等方面的廣泛專(zhuān)業(yè)知識(shí)，以及對(duì)每個(gè)本地區(qū)域的熟悉程度。人工和機(jī)器翻譯各有各的挑戰(zhàn)。例如，沒(méi)有兩個(gè)單獨(dú)的翻譯者可以在同一語(yǔ)言對(duì)中生成相同文本的相同翻譯，并且可能需要幾輪修訂才能滿足客戶滿意度。但更大的挑戰(zhàn)在于機(jī)器翻譯如何產(chǎn)生可發(fā)布的高質(zhì)量翻譯。

2. 為什么要用MT

2. MT發(fā)展歷程

image.png

2.1 RBMT

基于規(guī)則的機(jī)器翻譯（RBMT）最早的基于規(guī)則的機(jī)器翻譯思想出現(xiàn)于 70 年代?？茖W(xué)家研究了翻譯員的工作，試圖讓當(dāng)時(shí)還極其緩慢的計(jì)算機(jī)也能重復(fù)這些行為。
這些系統(tǒng)包含：
雙語(yǔ)詞典（比如，俄語(yǔ)->英語(yǔ)）
每種語(yǔ)言一套語(yǔ)言學(xué)規(guī)則（比如，以 -heit、-keit、-ung 等特定后綴結(jié)尾的名詞都是陰性詞）
這就是這種系統(tǒng)的全部。如有需要，該系統(tǒng)還能得到一些補(bǔ)充，比如增加姓名列表、拼寫(xiě)糾錯(cuò)器和音譯功能。
[圖片上傳失敗...(image-38b485-1561785879495)]

image.jpeg

PROMPT 和 Systran 是 RBMT 系統(tǒng)中最有名的案例。如果你想感受下那個(gè)黃金時(shí)代的柔和氣息，去試試 Aliexpress 吧。但即使它們也有一些細(xì)微差別和亞種。

2.1.1 DIRECT MACHINE TRANSLATION

直接機(jī)器翻譯這是機(jī)器翻譯中最直接的類(lèi)型。它會(huì)將文本分成詞，然后翻譯這些詞，再稍微校正一下形態(tài)，最后協(xié)調(diào)句法得到結(jié)果；或多或少聽(tīng)起來(lái)還行。當(dāng)太陽(yáng)落山后，訓(xùn)練有素的語(yǔ)言學(xué)家還在為每個(gè)詞編寫(xiě)規(guī)則。其輸出會(huì)返回某種類(lèi)型的翻譯結(jié)果。通常情況下，結(jié)果很糟糕。就好像是這些語(yǔ)言學(xué)家白白浪費(fèi)了自己的時(shí)間?，F(xiàn)代系統(tǒng)完全不會(huì)使用這種方法，現(xiàn)代語(yǔ)言學(xué)家對(duì)此感激不盡。

image.jpeg

2.1.2 基于遷移的機(jī)器翻譯

基于遷移的機(jī)器翻譯與直接翻譯相比，我們翻譯時(shí)要做準(zhǔn)備——首先確定句子的語(yǔ)法結(jié)構(gòu)，就像上學(xué)時(shí)老師教的那樣。然后我們?cè)俨僮髡麄€(gè)結(jié)構(gòu)，而不是一個(gè)個(gè)的詞。這有助于在翻譯中得到相當(dāng)好的詞序轉(zhuǎn)換。理論上是這樣。但在實(shí)踐中，這仍然會(huì)得到逐詞翻譯的結(jié)果并會(huì)讓語(yǔ)言學(xué)家身疲力竭。一方面，它帶來(lái)的是簡(jiǎn)化過(guò)的一般性語(yǔ)法規(guī)則。但另一方面，由于詞結(jié)構(gòu)的數(shù)量比單個(gè)的詞要多得多，所以這又會(huì)變得更加復(fù)雜。

image.jpeg

2.1.3 語(yǔ)際機(jī)器翻譯

語(yǔ)際機(jī)器翻譯在這種方法中，源文本會(huì)被轉(zhuǎn)換成中間表征，并且會(huì)被統(tǒng)一用于全世界的所有語(yǔ)言（中間語(yǔ)言）。這正是笛卡爾所夢(mèng)想的那種中間語(yǔ)言：一種元語(yǔ)言，遵循普適的規(guī)則并且可以將翻譯變成一種簡(jiǎn)單的「來(lái)回切換」任務(wù)。接下來(lái)，中間語(yǔ)言可以轉(zhuǎn)換成任何目標(biāo)語(yǔ)言，而這就是奇點(diǎn)！正是由于存在這種轉(zhuǎn)換，所以語(yǔ)際機(jī)器翻譯常常會(huì)和基于遷移的系統(tǒng)混淆。語(yǔ)際機(jī)器翻譯的不同之處是語(yǔ)言學(xué)規(guī)則是針對(duì)每種單獨(dú)的語(yǔ)言和中間語(yǔ)言的，而不是針對(duì)語(yǔ)言對(duì)。這意味著我們可以向語(yǔ)際系統(tǒng)加入第三種語(yǔ)言并且在它們?nèi)咧g彼此翻譯。而我們無(wú)法在基于遷移的系統(tǒng)中做到這一點(diǎn)。

image.jpeg

看起來(lái)很完美，但實(shí)際并不。創(chuàng)建這樣一種通用的中間語(yǔ)言極其困難——很多科學(xué)家都在這上面投入了一生。他們還沒(méi)有取得成功，但多虧了他們，我們現(xiàn)在有了形態(tài)層面、句法層面、甚至語(yǔ)義層面的表征。但只有語(yǔ)義-文本理論（Meaning-text theory）耗費(fèi)了巨資！中間語(yǔ)言的思想還會(huì)再回來(lái)的。讓我們?cè)俚鹊瓤础?/p>

image.jpeg

2.1.4 總結(jié)

如你所見(jiàn)，所有的 RBMT 都很蠢笨和可怕，所以它們很少得到使用，除了一些特定的案例（比如天氣報(bào)告翻譯等）。
RBMT 最常被提及的優(yōu)點(diǎn)有形態(tài)準(zhǔn)確性（不會(huì)混淆詞）、結(jié)果的可再現(xiàn)性（所有翻譯器的結(jié)果都一樣）和調(diào)節(jié)到特定學(xué)科領(lǐng)域的能力（比如為了教授經(jīng)濟(jì)學(xué)家或特定于程序員的術(shù)語(yǔ)）。
就算有人真的成功創(chuàng)造出了一個(gè)完美的 RBMT，語(yǔ)言學(xué)家也用所有的拼寫(xiě)規(guī)則強(qiáng)化了它，但還是會(huì)存在某些例外情況：英語(yǔ)中的不規(guī)則動(dòng)詞、德語(yǔ)中的可分前綴、俄語(yǔ)中的后綴以及人們的表達(dá)方式存在差異的情況。
任何試圖涵蓋所有細(xì)微差別的行為都會(huì)耗費(fèi)數(shù)以百萬(wàn)小時(shí)計(jì)的工作時(shí)間。還不要忘記多義詞。
同一個(gè)詞在不同的語(yǔ)境中可能會(huì)具有不同的含義，這會(huì)得到不同的翻譯結(jié)果。你試試能從這句話中理解到幾種含義：I saw a man on a hill with a telescope?
語(yǔ)言不會(huì)按照什么固定的規(guī)則而發(fā)展——語(yǔ)言學(xué)家倒是喜歡這個(gè)事實(shí)。過(guò)去三百年中的侵略活動(dòng)對(duì)語(yǔ)言的影響非常大。你怎么能向機(jī)器解釋這一點(diǎn)？四十年的冷戰(zhàn)沒(méi)能幫助找到任何明確的解決方案。RBMT 已死。

2.2 基于實(shí)例的機(jī)器翻譯（EBMT）

日本對(duì)機(jī)器翻譯競(jìng)賽尤其感興趣。原因不是冷戰(zhàn)，而另有其它：這個(gè)國(guó)家理解英語(yǔ)的人非常少。這在即將到來(lái)的全球化方面是一個(gè)很?chē)?yán)重的問(wèn)題。所以日本人非常積極地想要找到一種可行的機(jī)器翻譯方法。基于規(guī)則的英日翻譯極其復(fù)雜。這兩種語(yǔ)言的語(yǔ)言結(jié)構(gòu)完全不一樣，幾乎所有詞都需要重新排列，而且還需要添加新詞。
1984 年，京都大學(xué)的長(zhǎng)尾真提出了一個(gè)思想：使用現(xiàn)成的短語(yǔ)而不是重復(fù)進(jìn)行翻譯。
假設(shè)我們想翻譯一個(gè)簡(jiǎn)單的句子——「I'm going to the cinema.」而且我們之前已經(jīng)翻譯了一個(gè)類(lèi)似的句子——「I'm going to the theater.」而且我們也能在詞典中找到「cinema」這個(gè)詞。那么我們只需找到這兩個(gè)句子的不同之處、翻譯缺失的詞、不要搞錯(cuò)了即可。我們擁有的實(shí)例越多，翻譯結(jié)果就會(huì)越好。我正是采用這種方式構(gòu)建了下面的我不熟悉的外語(yǔ)短語(yǔ)！

image.jpeg

EBMT 讓全世界的科學(xué)家看到了方向：事實(shí)證明，你可以直接向機(jī)器輸入已有的翻譯，而不必花費(fèi)多年時(shí)間構(gòu)建規(guī)則和例外。革命還沒(méi)有發(fā)生，但顯然已經(jīng)邁出了第一步。革命性的統(tǒng)計(jì)機(jī)器翻譯發(fā)明將在那之后短短五年內(nèi)誕生。

2.3 基于統(tǒng)計(jì)的機(jī)器翻譯（SMT）

1990 年初，IBM 研究中心首次展示了一個(gè)對(duì)規(guī)則和語(yǔ)言學(xué)一無(wú)所知的機(jī)器翻譯系統(tǒng)。它分析了兩種語(yǔ)言的相似文本并且試圖理解其中的模式。

image.jpeg

這是一個(gè)簡(jiǎn)潔而又優(yōu)美的思想。兩種語(yǔ)言中的同一句子被分成單詞，然后再進(jìn)行匹配。這種操作重復(fù)了近 5 億次，記錄下了很多模式，比如「Das Haus」被翻譯成「house」或「building」或「construction」等詞的次數(shù)。如果大多數(shù)時(shí)候源詞都被翻譯成「house」，那么機(jī)器就會(huì)使用這一結(jié)果。注意我們沒(méi)有使用任何規(guī)則，也沒(méi)有使用任何詞典——所有的結(jié)論都是由機(jī)器完成的，其指導(dǎo)方針是統(tǒng)計(jì)結(jié)果和這樣的邏輯——「如果人們這樣翻譯，我也這樣翻譯」。統(tǒng)計(jì)翻譯由此誕生。

image.jpeg

這個(gè)方法比之前的所有方法都更加有效和準(zhǔn)確。而且無(wú)需語(yǔ)言學(xué)家。我們使用的文本越多，我們得到的翻譯結(jié)果就越好。

image.jpeg

谷歌的統(tǒng)計(jì)翻譯內(nèi)部情況示例。它不僅給出了概率，而且還顯示了反向翻譯結(jié)果統(tǒng)計(jì)仍然還有一個(gè)遺留問(wèn)題：機(jī)器該怎樣將「Das Haus」與「building」對(duì)應(yīng)起來(lái)呢——我們又怎么知道翻譯結(jié)果是正確的？答案是我們沒(méi)法知道。一開(kāi)始，機(jī)器會(huì)假設(shè)「Das Haus」一詞與來(lái)自翻譯句子的任意詞都有同等的關(guān)聯(lián)。接下來(lái)，當(dāng)「Das Haus」出現(xiàn)在其它句子中時(shí)，與「house」關(guān)聯(lián)的數(shù)量會(huì)增多。這就是詞對(duì)齊算法，這是大學(xué)級(jí)機(jī)器翻譯的典型任務(wù)之一。機(jī)器需要成百萬(wàn)上千萬(wàn)的雙語(yǔ)句子才能收集到每個(gè)詞的相關(guān)統(tǒng)計(jì)結(jié)果。我們?nèi)绾蔚玫竭@些數(shù)據(jù)？好吧，我們決定取用歐洲議會(huì)和聯(lián)合國(guó)安理會(huì)會(huì)議的摘錄，這些都是以所有成員國(guó)的語(yǔ)言提供的，而且可供下載：UN Corpora：https://catalog.ldc.upenn.edu/LDC2013T06Europarl Corpora：http://www.statmt.org/europarl

2.3.1 基于詞的 SMT

一開(kāi)始的時(shí)候，最早期的統(tǒng)計(jì)翻譯系統(tǒng)的工作方式是將句子分成詞，因?yàn)檫@種方法很直觀而且符合邏輯。
IBM 的第一個(gè)統(tǒng)計(jì)翻譯模型被稱(chēng)為 Model 1：逐詞對(duì)應(yīng)

image.jpeg

Model 1 使用了一種經(jīng)典方法來(lái)將句子分成詞和記錄統(tǒng)計(jì)信息。這個(gè)過(guò)程不考慮詞序。唯一要用的技巧是將一個(gè)詞翻譯成多個(gè)詞。比如「Der Staubsauger」可能會(huì)變成「Vacuum Cleaner」，但并不意味著反過(guò)來(lái)也可以。
這里有一些基于 Python 的簡(jiǎn)單實(shí)現(xiàn)：https://github.com/shawa/IBM-Model-1

2.3.2 Model 2：考慮句子中的詞序

Model 2：考慮句子中的詞序

image.jpeg

缺乏語(yǔ)言詞序知識(shí)是 Model 1 的一個(gè)問(wèn)題，而且這個(gè)問(wèn)題在某些情況下很重要。

Model 2 解決了這個(gè)問(wèn)題：它記憶了輸出句子中詞通常出現(xiàn)的位置，并且會(huì)通過(guò)一個(gè)中間步驟將詞排列成更自然的形式。結(jié)果變得更好了，但仍然不盡人意。

2.3.3 Model 3：額外增添

翻譯結(jié)果中常常會(huì)出現(xiàn)新詞，比如德語(yǔ)的冠詞或英語(yǔ)否定句中的「do」。比如「Ich will keine Persimonen」→「I do not want Persimmons.」為了解決這個(gè)問(wèn)題，Model 3 又增加了兩個(gè)步驟：如果機(jī)器認(rèn)為有加入新詞的必要性，則插入 NULL 標(biāo)記為每個(gè)標(biāo)記詞的對(duì)齊選擇合適的小品詞或詞

image.jpeg

2.3.4 Model 4：詞對(duì)齊

Model 2 考慮了詞對(duì)齊，但對(duì)詞序重排一無(wú)所知。比如，形容詞常會(huì)與名詞交換位置，所以不管詞序記憶得多好，都不會(huì)讓輸出結(jié)果更好。因此，Model 4 考慮了所謂的「相對(duì)順序」——如果兩個(gè)詞總是交換位置，模型就能學(xué)到。

2.3.5 Model 5：修正錯(cuò)誤

這里沒(méi)什么新鮮的。Model 5 所要學(xué)習(xí)的參數(shù)更多了，而且修正了詞位置沖突的問(wèn)題。盡管基于詞的系統(tǒng)本身是革命性的，但它們?nèi)匀粺o(wú)法處理格、性和同義詞。每一個(gè)詞都只有單一一種翻譯方式。現(xiàn)在我們已經(jīng)不再使用這種系統(tǒng)了，因?yàn)樗鼈円呀?jīng)被更為先進(jìn)的基于短語(yǔ)的方法替代。

2.3.6 基于短語(yǔ)的 SMT

這種方法基于所有基于詞的翻譯原則：統(tǒng)計(jì)、重新排序和詞法分析。但是，在學(xué)習(xí)時(shí)，它不僅會(huì)將文本分成詞，還會(huì)分成短語(yǔ)。確切地說(shuō)，這些是 n-gram，即 n 個(gè)詞連在一起構(gòu)成的連續(xù)序列。因此，這個(gè)機(jī)器能學(xué)習(xí)翻譯穩(wěn)定的詞組合，這能顯著提升準(zhǔn)確度。

image.jpeg

其中的訣竅在于，這里的短語(yǔ)并不總是簡(jiǎn)單的句法結(jié)構(gòu)，而且如果有人明白語(yǔ)言學(xué)并干預(yù)了其中的句子結(jié)構(gòu)，那么翻譯的質(zhì)量就會(huì)大幅下降。
計(jì)算語(yǔ)言學(xué)先驅(qū) Frederick Jelinek 曾經(jīng)開(kāi)玩笑地說(shuō)：「每次我炒掉一個(gè)語(yǔ)言學(xué)家，語(yǔ)音識(shí)別器的表現(xiàn)就會(huì)上升一點(diǎn)。」
除了提升準(zhǔn)確度，基于短語(yǔ)的翻譯在選擇所要學(xué)習(xí)的雙語(yǔ)文本上提供了更多選擇。對(duì)于基于詞的翻譯，源文本之間的準(zhǔn)確匹配是至關(guān)重要的，這就排除了讓任何文學(xué)翻譯或自由翻譯?；诙陶Z(yǔ)的翻譯則可以從中學(xué)習(xí)。為了提升翻譯質(zhì)量，研究者甚至開(kāi)始解析不同語(yǔ)言的新聞網(wǎng)站
[圖片上傳失敗...(image-7dddb9-1561786360267)]

image.jpeg

自 2006 年以來(lái)，每個(gè)人都開(kāi)始使用這種方法。谷歌翻譯、Yandex、必應(yīng)等一些著名的在線翻譯工具將基于短語(yǔ)的方法用到了 2016 年。你們可能都還記得谷歌要么得到毫無(wú)差錯(cuò)的翻譯句子，要么得到毫無(wú)意義的結(jié)果的時(shí)候吧？這種毫無(wú)意義就來(lái)自基于短語(yǔ)的功能。
老一輩基于規(guī)則的方法總是會(huì)得到可預(yù)測(cè)的但也很糟糕的結(jié)果。統(tǒng)計(jì)方法則總是會(huì)得到出人意料和讓人困惑的結(jié)果。谷歌翻譯會(huì)毫不猶豫地將「three hundred」變成「300」。這就是所謂的統(tǒng)計(jì)異常（statistical anomaly）?；诙陶Z(yǔ)的翻譯已經(jīng)變得非常流行，當(dāng)你聽(tīng)到人們說(shuō)「統(tǒng)計(jì)機(jī)器翻譯」時(shí)，多半就是指它。在 2016 年之前，所有的研究都稱(chēng)贊基于短語(yǔ)的翻譯是表現(xiàn)最好的。那時(shí)候，甚至沒(méi)人認(rèn)為谷歌已經(jīng)在燃起戰(zhàn)火，準(zhǔn)備改變整個(gè)機(jī)器翻譯圖景了。

2.3.7 基于句法的 SMT

基于句法的 SMT這種方法應(yīng)當(dāng)被簡(jiǎn)要提及一下
。在神經(jīng)網(wǎng)絡(luò)出現(xiàn)的很多年前，基于句法的翻譯被認(rèn)為是「翻譯的未來(lái)」，但這一思想并未迎來(lái)騰飛。
基于句法的翻譯的支持者相信它有可能與基于規(guī)則的方法融合。它需要對(duì)句子進(jìn)行相當(dāng)準(zhǔn)確的句法分析——以確定主語(yǔ)、謂語(yǔ)和句子的其它部分，然后再構(gòu)建一個(gè)句子樹(shù)。機(jī)器可以使用它來(lái)學(xué)習(xí)轉(zhuǎn)換語(yǔ)言之間的句法單元并根據(jù)詞或短語(yǔ)來(lái)翻譯其余部分。那應(yīng)該可以一勞永逸地解決詞對(duì)齊問(wèn)題。

image.jpeg

來(lái)自 Yamada and Knight [2001] 的示例（http://www.aclweb.org/anthology/P01-1067）以及這個(gè)很棒的幻燈片（http://homepages.inf.ed.ac.uk/pkoehn/publications/esslli-slides-day5.pdf）
問(wèn)題是句法分析的效果很差，盡管事實(shí)上我們認(rèn)為這在之前已經(jīng)得到了解決（因?yàn)槲覀冇泻芏嗾Z(yǔ)言的現(xiàn)成可用的庫(kù)）。我曾經(jīng)試過(guò)使用句法樹(shù)來(lái)解決比單純地解析主語(yǔ)和謂語(yǔ)更復(fù)雜的任務(wù)。但我每次都放棄了，然后使用了另一種方法。如果你成功過(guò)至少一次，請(qǐng)讓我知道。

2.4 NMT

神經(jīng)機(jī)器翻譯（NMT）2014 年，一篇關(guān)于將神經(jīng)網(wǎng)絡(luò)用于機(jī)器翻譯的出色論文發(fā)布：https://arxiv.org/abs/1406.1078。
互聯(lián)網(wǎng)并沒(méi)關(guān)注這項(xiàng)研究，但谷歌除外——他們挽起袖子就干了起來(lái)。兩年之后的 2016 年 9 月，谷歌發(fā)布了改變機(jī)器翻譯領(lǐng)域的公告，參閱《重磅 | 谷歌翻譯整合神經(jīng)網(wǎng)絡(luò)：機(jī)器翻譯實(shí)現(xiàn)顛覆性突破》。
這一思想接近照片之間的風(fēng)格遷移。知道 Prisma 這樣的應(yīng)用嗎？它能用某幅著名藝術(shù)作品的風(fēng)格來(lái)渲染圖片。但這不是魔法。是神經(jīng)網(wǎng)絡(luò)學(xué)會(huì)了識(shí)別藝術(shù)家的畫(huà)作。接下來(lái)，包含網(wǎng)絡(luò)決策的最后一層被移除了。所得到的風(fēng)格化圖像只是網(wǎng)絡(luò)所得到的中間圖像。這是網(wǎng)絡(luò)自己的幻想，而我們覺(jué)得這很美。

image.jpeg

如果我們可以遷移照片的風(fēng)格，那我們能不能將另一種語(yǔ)言施加到源文本上呢？我們可以將文本看作是帶有某種「藝術(shù)家風(fēng)格」，我們希望在遷移這個(gè)風(fēng)格的同時(shí)又保證這些文本的本質(zhì)不變。想象一下，假如我要描述我的狗——平均個(gè)頭、尖鼻子、短尾巴、老是叫喚。如果我把這些狗的特征給你并且描述是準(zhǔn)確的，你就可以畫(huà)出它，即使你從沒(méi)見(jiàn)過(guò)它。

image.jpeg

現(xiàn)在，再想象源文本是特定特征的集合?；旧隙?，這意味著你可以編碼它，然后再讓其它神經(jīng)網(wǎng)絡(luò)將其解碼回文本——但是另一種語(yǔ)言的文本。解碼器只知道自己的語(yǔ)言。它對(duì)這些特征的來(lái)源一無(wú)所知，但它可以用西班牙語(yǔ)等語(yǔ)言將其表達(dá)出來(lái)。再繼續(xù)前面的比喻，不管你是怎么畫(huà)這條狗的（用蠟筆、水彩或你的手指），你都可以把它畫(huà)出來(lái)。再說(shuō)明一次：一個(gè)神經(jīng)網(wǎng)絡(luò)只能將句子編碼成特定的特征集合，另一個(gè)神經(jīng)網(wǎng)絡(luò)只能將其解碼成文本。這兩者彼此都不知情，而且都只各自了解自己的語(yǔ)言。想起什么沒(méi)有？「中間語(yǔ)言」回來(lái)了

image.jpeg

問(wèn)題是，我們?nèi)绾握业竭@些特征？對(duì)于狗來(lái)說(shuō)，特征當(dāng)然很明顯，但文本的特征是怎樣的？三十年前科學(xué)家就已經(jīng)在嘗試創(chuàng)建通用語(yǔ)言代碼了，但最終以失敗告終。盡管如此，我們現(xiàn)在有深度學(xué)習(xí)了。尋找特征是它的基本任務(wù)！深度學(xué)習(xí)和經(jīng)典神經(jīng)網(wǎng)絡(luò)之間的主要區(qū)別是搜索這些特定特征的能力，而無(wú)需對(duì)這些特征的本質(zhì)有任何了解。如果神經(jīng)網(wǎng)絡(luò)足夠大，而且有數(shù)千塊顯卡可用，那就能很好地找到文本中的這些特征。理論上講，我們可以將這些神經(jīng)網(wǎng)絡(luò)得到的特征交給語(yǔ)言學(xué)家，這樣他們就可以為自己打開(kāi)一片新視野了。但問(wèn)題是編碼和解碼應(yīng)該使用哪種類(lèi)型的神經(jīng)網(wǎng)絡(luò)呢？卷積神經(jīng)網(wǎng)絡(luò)（CNN）完美適用于圖像，因?yàn)樗鼈兛梢圆僮鳘?dú)立的像素塊。但文本中沒(méi)有獨(dú)立的塊——每個(gè)詞都取決于自己的語(yǔ)境。文本、語(yǔ)音、音樂(lè)都是連續(xù)的。所以循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）是處理它們的最佳選擇，因?yàn)樗鼈兡苡涀≈暗慕Y(jié)果——在這里即是之前的詞?，F(xiàn)在很多應(yīng)用都已經(jīng)使用了 RNN，包括 Siri 的語(yǔ)音識(shí)別（解析聲音序列，其中后一個(gè)聲音取決于前一個(gè)聲音）、鍵盤(pán)提示（記住之前的經(jīng)歷，猜測(cè)下一個(gè)詞）、音樂(lè)生成和聊天機(jī)器人。

[圖片上傳失敗...(image-468735-1561786476434)]

image.jpeg

致像我一樣的技術(shù)宅：事實(shí)上，神經(jīng)翻譯器的架構(gòu)非常多樣。一開(kāi)始是用的常規(guī) RNN，后來(lái)升級(jí)成了雙向 RNN，其中翻譯器不僅要考慮源詞之前的詞，還有考慮其后的詞。這要高效得多。然后它又使用了帶有 LSTM 單元的多層 RNN，可以實(shí)現(xiàn)翻譯語(yǔ)境的長(zhǎng)期存儲(chǔ)。

短短兩年時(shí)間，神經(jīng)網(wǎng)絡(luò)在翻譯上的表現(xiàn)就超越了過(guò)去 20 年來(lái)的一切。神經(jīng)翻譯的詞序錯(cuò)誤少了 50%、詞匯錯(cuò)誤減少了 17%、語(yǔ)法錯(cuò)誤減少了 19%。神經(jīng)網(wǎng)絡(luò)甚至學(xué)會(huì)了協(xié)調(diào)不同語(yǔ)言的性和格。而且并沒(méi)有人教它們這樣做。這一領(lǐng)域最值得提及的進(jìn)展是從沒(méi)使用過(guò)直接翻譯。

統(tǒng)計(jì)機(jī)器翻譯方法總是可以使用英語(yǔ)作為關(guān)鍵源。因此，如果你要將俄語(yǔ)翻譯成德語(yǔ)，機(jī)器會(huì)首先將俄語(yǔ)翻譯成英語(yǔ)，然后再將英語(yǔ)翻譯成德語(yǔ)，這會(huì)造成雙倍損失。神經(jīng)翻譯無(wú)需這樣做——只需要一個(gè)解碼器就行了。沒(méi)有共同詞典的語(yǔ)言之間也能實(shí)現(xiàn)直接翻譯，這是有史以來(lái)的第一次。
[圖片上傳失敗...(image-4b4a00-1561786488505)]

image.jpeg

2.4 谷歌翻譯

谷歌翻譯（自 2016 年以來(lái)）2016 年，谷歌為 9 種語(yǔ)言啟用了神經(jīng)翻譯。他們開(kāi)發(fā)出了名為谷歌神經(jīng)機(jī)器翻譯（GNMT）的系統(tǒng)。它由 8 個(gè)編碼器和 8 個(gè)解碼器 RNN 層構(gòu)成，另外還有來(lái)自解碼器網(wǎng)絡(luò)的注意連接。他們不僅會(huì)切分句子，而且還會(huì)切分詞。這正是他們解決 NMT 一大主要難題的方法——即罕見(jiàn)詞問(wèn)題。但出現(xiàn)了它們?cè)~匯庫(kù)中沒(méi)有的詞時(shí)，NMT 是無(wú)能為力的。比如說(shuō)「Vas3k」。我估計(jì)沒(méi)人讓神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)翻譯我的昵稱(chēng)。在遇到罕見(jiàn)詞時(shí)，GNMT 會(huì)嘗試將詞分解成詞片段，然后根據(jù)這些片段得到翻譯結(jié)果。很聰明的做法。

image.jpeg

提示：瀏覽器中用于網(wǎng)站翻譯的谷歌翻譯仍然用的是老舊的基于短語(yǔ)的算法。不知為何谷歌沒(méi)有升級(jí)，而且其翻譯結(jié)果和在線版本谷歌翻譯相比差距其實(shí)相當(dāng)大。在線版本的谷歌翻譯使用了眾包機(jī)制。人們可以選擇他們認(rèn)為最正確的版本，而且如果很多用戶都認(rèn)同，那么谷歌就會(huì)一直按這種方式翻譯這個(gè)短語(yǔ)并將其標(biāo)注為一個(gè)特例。對(duì)于「Let』s go to the cinema」或「I』m waiting for you」等日常使用的短句而言，這種做法效果很好。谷歌的英語(yǔ)會(huì)話水平比我還好，不開(kāi)森～微軟必應(yīng)的工作方式和谷歌翻譯差不多。

2.4 Yandex Translate

Yandex Translate（自 2017 年以來(lái)）Yandex 于 2017 年推出了自己的神經(jīng)翻譯系統(tǒng)。該公司宣稱(chēng)其主要特色是混合性（hybridity）。Yandex 將神經(jīng)方法和統(tǒng)計(jì)方法組合到了一起來(lái)執(zhí)行翻譯，然后再使用其最喜歡的 CatBoost 算法從中選出最好的一個(gè)。問(wèn)題是神經(jīng)翻譯在翻譯短句時(shí)常常出錯(cuò)，因?yàn)樗枰褂蒙舷挛膩?lái)選擇正確的詞。如果一個(gè)詞在訓(xùn)練數(shù)據(jù)中出現(xiàn)的次數(shù)非常少，那就很難得到正確的結(jié)果。在這種情況下，簡(jiǎn)單的統(tǒng)計(jì)翻譯能輕松快捷地找到正確的詞。

image.jpeg

在句子末尾加上句號(hào)后，Yandex 的翻譯結(jié)果更好了，因?yàn)檫@時(shí)候它啟用了神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯。Yandex 沒(méi)有分享具體的技術(shù)細(xì)節(jié)。它用營(yíng)銷(xiāo)新聞稿搪塞了我們。好吧?？雌饋?lái)谷歌使用了 SMT 來(lái)執(zhí)行詞和短句的翻譯。他們沒(méi)有在任何文章中提及這一點(diǎn)，但如果你查看短表達(dá)和長(zhǎng)表達(dá)之間的差別，你就能相當(dāng)明顯地注意到。此外，SMT 也被用來(lái)展示詞的統(tǒng)計(jì)情況。結(jié)論和未來(lái)每個(gè)人都仍然為「巴別魚(yú)」（即時(shí)語(yǔ)音翻譯）的構(gòu)想感到興奮。谷歌已經(jīng)帶著 Pixel Buds 耳機(jī)向這個(gè)方向邁出了一步，但事實(shí)上這仍然達(dá)不到我們夢(mèng)想的效果。即時(shí)語(yǔ)音翻譯與通常的翻譯不同。系統(tǒng)需要知道何時(shí)開(kāi)始翻譯以及何時(shí)閉嘴聆聽(tīng)。我還沒(méi)見(jiàn)到過(guò)任何能夠解決這一問(wèn)題的方法。也許，Skype 還行吧……而且有待推進(jìn)的領(lǐng)域不止這一個(gè)：所有的學(xué)習(xí)都受限于并列文本塊的集合。最深度的神經(jīng)網(wǎng)絡(luò)仍然是在并列文本中學(xué)習(xí)。如果不向神經(jīng)網(wǎng)絡(luò)提供資源，它就無(wú)法學(xué)習(xí)。而人類(lèi)可以通過(guò)閱讀書(shū)籍和文章來(lái)擴(kuò)增自己的詞匯庫(kù)，即使不會(huì)將其翻譯成自己的母語(yǔ)。如果人類(lèi)能做到，神經(jīng)網(wǎng)絡(luò)就也能做到。理論上是這樣。

3. MT過(guò)程

4. MT商業(yè)化

https://www.g2crowd.com/categories/machine-translation

計(jì)算機(jī)輔助翻譯（CAT）工具是幫助將內(nèi)容從一種語(yǔ)言翻譯成另一種語(yǔ)言的軟件應(yīng)用程序。翻譯工具，也稱(chēng)為CAT（計(jì)算機(jī)輔助翻譯），可提高翻譯人員的工作效率和一致性。它們通常在單個(gè)集成工作臺(tái)中包含多種組件技術(shù)，例如文檔編輯器，術(shù)語(yǔ)管理和翻譯記憶庫(kù)。這些工具隨著計(jì)算和網(wǎng)絡(luò)行業(yè)的發(fā)展而變化，首先是作為在單個(gè)計(jì)算機(jī)上使用的獨(dú)立軟件，然后是在公司網(wǎng)絡(luò)上使用的客戶端 - 服務(wù)器工具，最近是基于云的工具通過(guò)互聯(lián)網(wǎng)。

自20世紀(jì)50年代以來(lái)，翻譯技術(shù)的興趣不斷增長(zhǎng)，當(dāng)時(shí)翻譯需求開(kāi)始呈指數(shù)級(jí)增長(zhǎng)，而譯員的生產(chǎn)力保持不變。這在公司的工作流程中造成了昂貴且耗時(shí)的瓶頸，這是一個(gè)等待解決的問(wèn)題。自六十年代中期以來(lái)，公司一直在尋找一種方法來(lái)使用計(jì)算機(jī)來(lái)幫助翻譯人員，特別是通過(guò)調(diào)整并行雙語(yǔ)文本來(lái)重復(fù)使用以前的翻譯。提供此功能的首批商業(yè)產(chǎn)品之一是在美國(guó)創(chuàng)建的翻譯支持系統(tǒng)，但該技術(shù)僅在20世紀(jì)90年代早期由德國(guó)公司TRADOS GmbH發(fā)布Trados MultiTerm和Translator's Workbench時(shí)立足。1994年，Trados發(fā)布了一個(gè)帶有MS Word界面的Windows版本，并在1997年微軟決定不僅將其產(chǎn)品用于內(nèi)部本地化需求，而且還獲得該公司20％的份額時(shí)獲得了重大推動(dòng)。盡管來(lái)自IBM翻譯經(jīng)理2，STAR Transit和DéjàVu的競(jìng)爭(zhēng)，在十年末，Trados成為CAT軟件的明顯市場(chǎng)領(lǐng)導(dǎo)者，直到2005年被競(jìng)爭(zhēng)對(duì)手SDL收購(gòu)。更多關(guān)于Trados和SDL的歷史在這里。近年來(lái)已經(jīng)看到一些新的翻譯工具進(jìn)入市場(chǎng)并進(jìn)行了一些兼并和收購(gòu)。2009年，谷歌通過(guò)發(fā)布谷歌翻譯工具包加入了競(jìng)爭(zhēng)。其他現(xiàn)代CAT工具是memoQ和Wordbee。

5. NMT流行的算法

?。。。≈匾?，待補(bǔ)充?。。?！

參考文檔

http://zhigu.news.cn/2018-03/16/c_129830957.htm（歷史部分基本上上從這上面復(fù)制過(guò)來(lái)的）

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

Machine Translation 簡(jiǎn)介及目前研究進(jìn)展

Machine Translation 簡(jiǎn)介及目前研究進(jìn)展

1. 什么是MT

2. 為什么要用MT

2. MT發(fā)展歷程