[論文]BLEU: a Method for Automatic Evaluation of Machine Translation

論文地址

ACL-2002

一、摘要

對機器翻譯的人工評估是高代價且無法復用的。該文提出了一種自動評估機器翻譯,且獨立于語言的方法,方法和人工評估是高度正相關的。每次運行只有少量的邊緣代價。

二、介紹

1、Rationale

MT的人工評估通??紤]很多方面:adequacy、fidelity、fluency。

評估成為MT發(fā)展的瓶頸,目標:quick、language-independent,and correlates highly with human evaluation。

2、Viewpoint

目標:The closer a machine translation is to a professional human translation

思路:按某種手段,量化機器翻譯與其最接近的一個或多個參考人工翻譯結果的距離

拆分2個要素:

A)一個量化“翻譯距離”的度量方法

B)一個包含高質量人工翻譯結果的語料集合

對于A,在語音識別鄰域,比較成功的指標是文字錯誤率(word error rate);文中對齊修改,適應多reference翻譯并且允許合法的word的選擇和排序。

IDEA:weighted average of variable length phrase matches against the reference translations。加權平均的變長詞組匹配。從這個角度出發(fā),根據不同的權重計算模式,衍生出了一個系列的量化方法。

三、The Baseline BLEU Metric

一般的,一個給定源語句,會有很多perfect翻譯結果,區(qū)別于文字選擇or文字順序。

通過比較候選結果與參考結果的N-gram 匹配個數,就可以簡單對候選結果進行rank。

BLEU實現的首要任務是比較候選翻譯結果的N-gram與參考結果的N-gram匹配的個數。這些匹配是位置獨立的position-independent,匹配個數越多,說明候選翻譯越好。為了簡單,本文首先集中考慮unigram的匹配。

1、Modified n-gram precision

簡單的:

precision=match words(unigrams) in any reference / total words in candidate

But:MT系統(tǒng)能夠過度的生成一些看事合理reasonable但是實際不合適的Word,而按照上述方法往往會得到高準確率high-precision,例如example 2:

Candidate: the the the the the the the.

Reference 1: The cat is on the mat.

Reference 2: There is a cat on the mat.

按上述簡單方法計算準確率是7/7

因此,需要modified unigram precision(思路:在reference中剔除已經匹配過的word),按如下步驟

A)計算word在任何一個參考翻譯結果中出現的最大次數Max_Ref_Count

B)修正分子:clipped Count = min(Count, Max_Ref_Count)

C)計算modified unigram precision = Sum(clipped Count)/ total candidate words

于是:the modified unigram precision in Example 2 is 2/7

modified n-gram precision捕獲了2方面指標:adequacy 和 fluency

adequacy:候選與參考中相同的words(1-grams)

fluency:the longer n-gram matches

1)Modified n-gram precision on blocks of text

如何在多語句的測試集合上,計算修正的N-gram準確率?盡管典型的對MT系統(tǒng)的衡量是在整個語料的文檔集合上,但我們基礎的衡量單元是句子。

一個源語句可能會被翻譯成很多的目標語句,這種情況我們視目標語句為一個句子。

A)首先逐句計算n-gram匹配個數

B)之后累加所有的clipped count 并且除以在測試語料中候選N-gram的總數

Precision_N = {∑c in candidate∑n-gram in c (clipped-Count(n-gram) ) }/{∑c` in candidate∑n-gram` in c` (clipped-Count(n-gram`) ) }

注:BLEU成功的關鍵原因是所有系統(tǒng)都被統(tǒng)一看待,并且考慮不同風格的多個人工翻譯結果,會消除不同系統(tǒng)間比較時因為個別語句翻譯風格不一致導致的不公平打分。

2)Ranking systems using only modified n-gram precision

從實驗結果看,任何一個修正的n-gram 打分是可以區(qū)別好(人工)和不好(機器)翻譯結果的,尤其是4-gram的區(qū)分度最高。

但更高的目標是要區(qū)分翻譯質量沒那么明顯的翻譯結果,甚至可以區(qū)分不同質量的人工翻譯結果。

繼續(xù)試驗:

H1:母語非source和target 語言的人工翻譯

H2:母語是target語言的人工翻譯

S1~3:3個商業(yè)翻譯系統(tǒng)的翻譯結果

reference:2個專業(yè)的人工翻譯

結論:在1-4 gram上,都顯示相同的precision排序結果 H2>H1>S3>S2>S1,值得注意的是,這個排序和人工的判斷是一致的。至此,任何一個層級修正的n-gram看起來都是一個魯棒的量化標準。

3)Combining The modified n-gram precisions

modified n-gram的準確率隨著n的增大指數性衰減,一個合理的加權平均的方法需要考慮這個指數衰減的問題。

BLEU采用具有歸一化系數的平均對數,等價于使用修正的n-gram 準確率的幾何平均數(geometric mean)。注:幾何平均數的缺點在于當一個size上的準確率為0時,整體也為0,過于嚴格;優(yōu)點是相比于算數平均數,可以導致對人工評估的更好的擬合。經過試驗,最大N取4會得到與人工評估最好的相關性。

2、Sentence length

一個好的量化方法需要保證翻譯結果不過長同時也不能過短。雖然modified n-gram在一定程度上保證了這點:懲罰在reference中沒出現的詞,懲罰候選中出現次數超出在reference中次數的詞。但是modified n-gram對于過短的翻譯結果往往會給出過高的打分。

1)The trouble with recall

傳統(tǒng)上,precision會同時伴隨著recall指標,來克服這種長度相關的問題。然而,因為BLEU采用多個(Multiple)reference translation,對應于同樣一個源語句時,每個結果都存在不同的word選擇。并且,一個好的候選翻譯結果只會采用(recall)其中一個可能的選擇,而不是全部。實際上,recall所有的選擇還會導致一個不好的翻譯結果,例子如Example 4。因此簡單的在所有reference words集合上計算recall不是一個好方法。當然,可以引入同義詞,在語義上而不僅是在word層面計算recall。但是考慮到reference翻譯結果在長度、Word順序和語法上都存在變化,這樣的計算會變的很復雜。

2)Sentence brevity penalty

候選翻譯結果長度超出reference結果的情況已經被modified n-gram方法懲罰過了,沒必要再懲罰一遍。于是,該文引入了一個額外的簡短懲罰因子(brevity penalty factor)。通過這個因子,得分高的候選翻譯結果,必須同時在長度、詞語選擇、詞語順序同時匹配reference結果。

文章希望當候選結果長度和任一一個reference 結果長度相等時,brevity penalty的值是1.0。注意,最接近closest的reference語句長度被稱為最佳匹配長度“best match length”(BML

同時,如果逐句的計算簡短懲罰,短句子在長度上偏離樣本太多會被懲罰的過于嚴格。因此,需要在整個語料上計算簡短懲罰,允許在長度分布上的一些自由度。

A)在測試語料上,將每個候選語句的最佳匹配長度累加得到有效的reference長度 r=∑BML for each candidate sentence

B)簡短懲罰采用以r/c為指數衰減,c是候選翻譯語料的全部長度

3)BLEU details

測試語料的modified precision的幾何平均數,乘以一個指數的簡短懲罰因子。目前大小寫轉換是子啊計算準確率前唯一一個歸一化動作。

BP(brevity penalty)= e^(1-r/c) if c≤r,otherwise 1。c是候選翻譯結果的總長度,r是有效reference長度(候選翻譯每個sentence的最佳匹配長度之和)

BLEU = BP * e^(∑ 1toN ?Wn*logPn),后者實際是一個加權的幾何平均數。

對上述取Log

Log BLEU = min(1-r/c,0) + ∑ Wn*logPn

在該文的baseline中,取N=4,Wn=1/N

四、The BLEU Evaluation

BLEU打分的取值范圍[0,1]。除非翻譯結果與某個reference結果完全一致,否則很難獲得1分,因此,往往人工翻譯結果也不一定是1分。

值得注意的是:每個源語句對應的reference結果越多,BLEU的得分也會越高。因此在比較不同翻譯結果好壞時,要確保在相同的reference translation個數的語料集合上。

How many reference translation do we need?

實驗結果:a big test corpus with a single reference translation 是合適的選擇

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

  • 這次的感冒太奇怪了,感覺是先到了鼻竇炎期,今天開始卡他期…和我以前的經驗完全不一樣。幸好周末,抱著杯子喝了一天熱水...
    D010Summer閱讀 128評論 0 0
  • 現實啊,不復雜 我記得我在學生時代說的最多的話就是這個社會真復雜。直到今年,我改變了我這個想法。這個社會復雜是不...
    曾曾的麻麻閱讀 511評論 0 0
  • 上一節(jié) 第一幕 第三節(jié) “嗨!小毛孩!”一顆郁郁蔥蔥的大樹上,一個高高瘦瘦的大孩子踩在枝叉上,朝樹底下那個圓金色頭...
    ohmymom閱讀 595評論 0 7
  • 什么時候,都不要忘了整體意識,在“臺”這個字里,要注意中間藍色框內的整體分布。 2,縱向的平行等距顯而易見,就不再...
    一只笨蛋閱讀 904評論 2 7

友情鏈接更多精彩內容