久久久久日韩在线,奇米在线成人

論文地址

ACL-2002

一、摘要

對機(jī)器翻譯的人工評估是高代價且無法復(fù)用的。該文提出了一種自動評估機(jī)器翻譯，且獨(dú)立于語言的方法，方法和人工評估是高度正相關(guān)的。每次運(yùn)行只有少量的邊緣代價。

二、介紹

1、Rationale

MT的人工評估通?？紤]很多方面：adequacy、fidelity、fluency。

評估成為MT發(fā)展的瓶頸，目標(biāo)：quick、language-independent，and correlates highly with human evaluation。

2、Viewpoint

目標(biāo)：The closer a machine translation is to a professional human translation

思路：按某種手段，量化機(jī)器翻譯與其最接近的一個或多個參考人工翻譯結(jié)果的距離

拆分2個要素：

A）一個量化“翻譯距離”的度量方法

B）一個包含高質(zhì)量人工翻譯結(jié)果的語料集合

對于A，在語音識別鄰域，比較成功的指標(biāo)是文字錯誤率（word error rate）；文中對齊修改，適應(yīng)多reference翻譯并且允許合法的word的選擇和排序。

IDEA：weighted average of variable length phrase matches against the reference translations。加權(quán)平均的變長詞組匹配。從這個角度出發(fā)，根據(jù)不同的權(quán)重計算模式，衍生出了一個系列的量化方法。

三、The Baseline BLEU Metric

一般的，一個給定源語句，會有很多perfect翻譯結(jié)果，區(qū)別于文字選擇or文字順序。

通過比較候選結(jié)果與參考結(jié)果的N-gram 匹配個數(shù)，就可以簡單對候選結(jié)果進(jìn)行rank。

BLEU實現(xiàn)的首要任務(wù)是比較候選翻譯結(jié)果的N-gram與參考結(jié)果的N-gram匹配的個數(shù)。這些匹配是位置獨(dú)立的position-independent，匹配個數(shù)越多，說明候選翻譯越好。為了簡單，本文首先集中考慮unigram的匹配。

1、Modified n-gram precision

簡單的：

precision=match words(unigrams) in any reference / total words in candidate

But：MT系統(tǒng)能夠過度的生成一些看事合理reasonable但是實際不合適的Word，而按照上述方法往往會得到高準(zhǔn)確率high-precision，例如example 2：

Candidate: the the the the the the the.

Reference 1: The cat is on the mat.

Reference 2: There is a cat on the mat.

按上述簡單方法計算準(zhǔn)確率是7/7

因此，需要modified unigram precision（思路：在reference中剔除已經(jīng)匹配過的word），按如下步驟

A）計算word在任何一個參考翻譯結(jié)果中出現(xiàn)的最大次數(shù)Max_Ref_Count

B）修正分子：clipped Count = min(Count, Max_Ref_Count)

C）計算modified unigram precision = Sum（clipped Count）/ total candidate words

于是：the modified unigram precision in Example 2 is 2/7

modified n-gram precision捕獲了2方面指標(biāo)：adequacy 和 fluency

adequacy：候選與參考中相同的words（1-grams）

fluency：the longer n-gram matches

1）Modified n-gram precision on blocks of text

如何在多語句的測試集合上，計算修正的N-gram準(zhǔn)確率？盡管典型的對MT系統(tǒng)的衡量是在整個語料的文檔集合上，但我們基礎(chǔ)的衡量單元是句子。

一個源語句可能會被翻譯成很多的目標(biāo)語句，這種情況我們視目標(biāo)語句為一個句子。

A）首先逐句計算n-gram匹配個數(shù)

B）之后累加所有的clipped count 并且除以在測試語料中候選N-gram的總數(shù)

Precision_N = {∑c in candidate∑n-gram in c (clipped-Count(n-gram) ) }/{∑c` in candidate∑n-gram` in c` (clipped-Count(n-gram`) ) }

注：BLEU成功的關(guān)鍵原因是所有系統(tǒng)都被統(tǒng)一看待，并且考慮不同風(fēng)格的多個人工翻譯結(jié)果，會消除不同系統(tǒng)間比較時因為個別語句翻譯風(fēng)格不一致導(dǎo)致的不公平打分。

2）Ranking systems using only modified n-gram precision

從實驗結(jié)果看，任何一個修正的n-gram 打分是可以區(qū)別好（人工）和不好（機(jī)器）翻譯結(jié)果的，尤其是4-gram的區(qū)分度最高。

但更高的目標(biāo)是要區(qū)分翻譯質(zhì)量沒那么明顯的翻譯結(jié)果，甚至可以區(qū)分不同質(zhì)量的人工翻譯結(jié)果。

繼續(xù)試驗：

H1:母語非source和target 語言的人工翻譯

H2:母語是target語言的人工翻譯

S1~3:3個商業(yè)翻譯系統(tǒng)的翻譯結(jié)果

reference：2個專業(yè)的人工翻譯

結(jié)論：在1-4 gram上，都顯示相同的precision排序結(jié)果 H2>H1>S3>S2>S1，值得注意的是，這個排序和人工的判斷是一致的。至此，任何一個層級修正的n-gram看起來都是一個魯棒的量化標(biāo)準(zhǔn)。

3）Combining The modified n-gram precisions

modified n-gram的準(zhǔn)確率隨著n的增大指數(shù)性衰減，一個合理的加權(quán)平均的方法需要考慮這個指數(shù)衰減的問題。

BLEU采用具有歸一化系數(shù)的平均對數(shù)，等價于使用修正的n-gram 準(zhǔn)確率的幾何平均數(shù)（geometric mean）。注：幾何平均數(shù)的缺點(diǎn)在于當(dāng)一個size上的準(zhǔn)確率為0時，整體也為0，過于嚴(yán)格；優(yōu)點(diǎn)是相比于算數(shù)平均數(shù)，可以導(dǎo)致對人工評估的更好的擬合。經(jīng)過試驗，最大N取4會得到與人工評估最好的相關(guān)性。

2、Sentence length

一個好的量化方法需要保證翻譯結(jié)果不過長同時也不能過短。雖然modified n-gram在一定程度上保證了這點(diǎn)：懲罰在reference中沒出現(xiàn)的詞，懲罰候選中出現(xiàn)次數(shù)超出在reference中次數(shù)的詞。但是modified n-gram對于過短的翻譯結(jié)果往往會給出過高的打分。

1）The trouble with recall

傳統(tǒng)上，precision會同時伴隨著recall指標(biāo)，來克服這種長度相關(guān)的問題。然而，因為BLEU采用多個（Multiple）reference translation，對應(yīng)于同樣一個源語句時，每個結(jié)果都存在不同的word選擇。并且，一個好的候選翻譯結(jié)果只會采用（recall）其中一個可能的選擇，而不是全部。實際上，recall所有的選擇還會導(dǎo)致一個不好的翻譯結(jié)果，例子如Example 4。因此簡單的在所有reference words集合上計算recall不是一個好方法。當(dāng)然，可以引入同義詞，在語義上而不僅是在word層面計算recall。但是考慮到reference翻譯結(jié)果在長度、Word順序和語法上都存在變化，這樣的計算會變的很復(fù)雜。

2）Sentence brevity penalty

候選翻譯結(jié)果長度超出reference結(jié)果的情況已經(jīng)被modified n-gram方法懲罰過了，沒必要再懲罰一遍。于是，該文引入了一個額外的簡短懲罰因子（brevity penalty factor）。通過這個因子，得分高的候選翻譯結(jié)果，必須同時在長度、詞語選擇、詞語順序同時匹配reference結(jié)果。

文章希望當(dāng)候選結(jié)果長度和任一一個reference 結(jié)果長度相等時，brevity penalty的值是1.0。注意，最接近c(diǎn)losest的reference語句長度被稱為最佳匹配長度“best match length”（BML

同時，如果逐句的計算簡短懲罰，短句子在長度上偏離樣本太多會被懲罰的過于嚴(yán)格。因此，需要在整個語料上計算簡短懲罰，允許在長度分布上的一些自由度。

A）在測試語料上，將每個候選語句的最佳匹配長度累加得到有效的reference長度 r=∑BML for each candidate sentence

B）簡短懲罰采用以r/c為指數(shù)衰減，c是候選翻譯語料的全部長度

3）BLEU details

測試語料的modified precision的幾何平均數(shù)，乘以一個指數(shù)的簡短懲罰因子。目前大小寫轉(zhuǎn)換是子啊計算準(zhǔn)確率前唯一一個歸一化動作。

BP（brevity penalty）= e^(1-r/c) if c≤r，otherwise 1。c是候選翻譯結(jié)果的總長度，r是有效reference長度（候選翻譯每個sentence的最佳匹配長度之和）

BLEU = BP * e^(∑ 1toN ?Wn*logPn)，后者實際是一個加權(quán)的幾何平均數(shù)。

對上述取Log

Log BLEU = min(1-r/c，0) + ∑ Wn*logPn

在該文的baseline中，取N=4，Wn=1/N

四、The BLEU Evaluation

BLEU打分的取值范圍[0,1]。除非翻譯結(jié)果與某個reference結(jié)果完全一致，否則很難獲得1分，因此，往往人工翻譯結(jié)果也不一定是1分。

值得注意的是：每個源語句對應(yīng)的reference結(jié)果越多，BLEU的得分也會越高。因此在比較不同翻譯結(jié)果好壞時，要確保在相同的reference translation個數(shù)的語料集合上。

How many reference translation do we need?

實驗結(jié)果：a big test corpus with a single reference translation 是合適的選擇

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

[論文]BLEU: a Method for Automatic Evaluation of Machine Translation

[論文]BLEU: a Method for Automatic Evaluation of Machine Translation

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

[論文]BLEU: a Method for Automatic Evaluation of Machine Translation

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av