ACL-2002
一、摘要
對機器翻譯的人工評估是高代價且無法復用的。該文提出了一種自動評估機器翻譯,且獨立于語言的方法,方法和人工評估是高度正相關的。每次運行只有少量的邊緣代價。
二、介紹
1、Rationale
MT的人工評估通??紤]很多方面:adequacy、fidelity、fluency。
評估成為MT發(fā)展的瓶頸,目標:quick、language-independent,and correlates highly with human evaluation。
2、Viewpoint
目標:The closer a machine translation is to a professional human translation
思路:按某種手段,量化機器翻譯與其最接近的一個或多個參考人工翻譯結果的距離
拆分2個要素:
A)一個量化“翻譯距離”的度量方法
B)一個包含高質量人工翻譯結果的語料集合
對于A,在語音識別鄰域,比較成功的指標是文字錯誤率(word error rate);文中對齊修改,適應多reference翻譯并且允許合法的word的選擇和排序。
IDEA:weighted average of variable length phrase matches against the reference translations。加權平均的變長詞組匹配。從這個角度出發(fā),根據不同的權重計算模式,衍生出了一個系列的量化方法。
三、The Baseline BLEU Metric
一般的,一個給定源語句,會有很多perfect翻譯結果,區(qū)別于文字選擇or文字順序。
通過比較候選結果與參考結果的N-gram 匹配個數,就可以簡單對候選結果進行rank。
BLEU實現的首要任務是比較候選翻譯結果的N-gram與參考結果的N-gram匹配的個數。這些匹配是位置獨立的position-independent,匹配個數越多,說明候選翻譯越好。為了簡單,本文首先集中考慮unigram的匹配。
1、Modified n-gram precision
簡單的:
precision=match words(unigrams) in any reference / total words in candidate
But:MT系統(tǒng)能夠過度的生成一些看事合理reasonable但是實際不合適的Word,而按照上述方法往往會得到高準確率high-precision,例如example 2:
Candidate: the the the the the the the.
Reference 1: The cat is on the mat.
Reference 2: There is a cat on the mat.
按上述簡單方法計算準確率是7/7
因此,需要modified unigram precision(思路:在reference中剔除已經匹配過的word),按如下步驟
A)計算word在任何一個參考翻譯結果中出現的最大次數Max_Ref_Count
B)修正分子:clipped Count = min(Count, Max_Ref_Count)
C)計算modified unigram precision = Sum(clipped Count)/ total candidate words
于是:the modified unigram precision in Example 2 is 2/7
modified n-gram precision捕獲了2方面指標:adequacy 和 fluency
adequacy:候選與參考中相同的words(1-grams)
fluency:the longer n-gram matches
1)Modified n-gram precision on blocks of text
如何在多語句的測試集合上,計算修正的N-gram準確率?盡管典型的對MT系統(tǒng)的衡量是在整個語料的文檔集合上,但我們基礎的衡量單元是句子。
一個源語句可能會被翻譯成很多的目標語句,這種情況我們視目標語句為一個句子。
A)首先逐句計算n-gram匹配個數
B)之后累加所有的clipped count 并且除以在測試語料中候選N-gram的總數
Precision_N = {∑c in candidate∑n-gram in c (clipped-Count(n-gram) ) }/{∑c` in candidate∑n-gram` in c` (clipped-Count(n-gram`) ) }
注:BLEU成功的關鍵原因是所有系統(tǒng)都被統(tǒng)一看待,并且考慮不同風格的多個人工翻譯結果,會消除不同系統(tǒng)間比較時因為個別語句翻譯風格不一致導致的不公平打分。
2)Ranking systems using only modified n-gram precision
從實驗結果看,任何一個修正的n-gram 打分是可以區(qū)別好(人工)和不好(機器)翻譯結果的,尤其是4-gram的區(qū)分度最高。
但更高的目標是要區(qū)分翻譯質量沒那么明顯的翻譯結果,甚至可以區(qū)分不同質量的人工翻譯結果。
繼續(xù)試驗:
H1:母語非source和target 語言的人工翻譯
H2:母語是target語言的人工翻譯
S1~3:3個商業(yè)翻譯系統(tǒng)的翻譯結果
reference:2個專業(yè)的人工翻譯
結論:在1-4 gram上,都顯示相同的precision排序結果 H2>H1>S3>S2>S1,值得注意的是,這個排序和人工的判斷是一致的。至此,任何一個層級修正的n-gram看起來都是一個魯棒的量化標準。
3)Combining The modified n-gram precisions
modified n-gram的準確率隨著n的增大指數性衰減,一個合理的加權平均的方法需要考慮這個指數衰減的問題。
BLEU采用具有歸一化系數的平均對數,等價于使用修正的n-gram 準確率的幾何平均數(geometric mean)。注:幾何平均數的缺點在于當一個size上的準確率為0時,整體也為0,過于嚴格;優(yōu)點是相比于算數平均數,可以導致對人工評估的更好的擬合。經過試驗,最大N取4會得到與人工評估最好的相關性。
2、Sentence length
一個好的量化方法需要保證翻譯結果不過長同時也不能過短。雖然modified n-gram在一定程度上保證了這點:懲罰在reference中沒出現的詞,懲罰候選中出現次數超出在reference中次數的詞。但是modified n-gram對于過短的翻譯結果往往會給出過高的打分。
1)The trouble with recall
傳統(tǒng)上,precision會同時伴隨著recall指標,來克服這種長度相關的問題。然而,因為BLEU采用多個(Multiple)reference translation,對應于同樣一個源語句時,每個結果都存在不同的word選擇。并且,一個好的候選翻譯結果只會采用(recall)其中一個可能的選擇,而不是全部。實際上,recall所有的選擇還會導致一個不好的翻譯結果,例子如Example 4。因此簡單的在所有reference words集合上計算recall不是一個好方法。當然,可以引入同義詞,在語義上而不僅是在word層面計算recall。但是考慮到reference翻譯結果在長度、Word順序和語法上都存在變化,這樣的計算會變的很復雜。
2)Sentence brevity penalty
候選翻譯結果長度超出reference結果的情況已經被modified n-gram方法懲罰過了,沒必要再懲罰一遍。于是,該文引入了一個額外的簡短懲罰因子(brevity penalty factor)。通過這個因子,得分高的候選翻譯結果,必須同時在長度、詞語選擇、詞語順序同時匹配reference結果。
文章希望當候選結果長度和任一一個reference 結果長度相等時,brevity penalty的值是1.0。注意,最接近closest的reference語句長度被稱為最佳匹配長度“best match length”(BML
同時,如果逐句的計算簡短懲罰,短句子在長度上偏離樣本太多會被懲罰的過于嚴格。因此,需要在整個語料上計算簡短懲罰,允許在長度分布上的一些自由度。
A)在測試語料上,將每個候選語句的最佳匹配長度累加得到有效的reference長度 r=∑BML for each candidate sentence
B)簡短懲罰采用以r/c為指數衰減,c是候選翻譯語料的全部長度
3)BLEU details
測試語料的modified precision的幾何平均數,乘以一個指數的簡短懲罰因子。目前大小寫轉換是子啊計算準確率前唯一一個歸一化動作。
BP(brevity penalty)= e^(1-r/c) if c≤r,otherwise 1。c是候選翻譯結果的總長度,r是有效reference長度(候選翻譯每個sentence的最佳匹配長度之和)
BLEU = BP * e^(∑ 1toN ?Wn*logPn),后者實際是一個加權的幾何平均數。
對上述取Log
Log BLEU = min(1-r/c,0) + ∑ Wn*logPn
在該文的baseline中,取N=4,Wn=1/N
四、The BLEU Evaluation
BLEU打分的取值范圍[0,1]。除非翻譯結果與某個reference結果完全一致,否則很難獲得1分,因此,往往人工翻譯結果也不一定是1分。
值得注意的是:每個源語句對應的reference結果越多,BLEU的得分也會越高。因此在比較不同翻譯結果好壞時,要確保在相同的reference translation個數的語料集合上。
How many reference translation do we need?
實驗結果:a big test corpus with a single reference translation 是合適的選擇