雙語(yǔ)平行語(yǔ)料是進(jìn)行機(jī)器翻譯研究不可缺少的資源,本次根據(jù)英華的中英文對(duì)齊語(yǔ)料進(jìn)行尋找解決辦法,而句子對(duì)齊是雙語(yǔ)語(yǔ)料處理的第一步。
本次在中英文各自特點(diǎn)的基礎(chǔ)上,分別使用基于句子段落和基于HowNet語(yǔ)義計(jì)算驗(yàn)證信息等多種方法對(duì)中英文文本進(jìn)行了對(duì)齊,對(duì)齊的各種因素的處理以及對(duì)齊的后處理方案。
具體的說(shuō),本次工作主要包含以下內(nèi)容:
1)根據(jù)相應(yīng)的規(guī)則進(jìn)行對(duì)中英文文本進(jìn)行預(yù)處理,包括
a)去標(biāo)簽
b)空格符號(hào)等無(wú)關(guān)語(yǔ)義的字符等
c)逐行逐段分行處理統(tǒng)計(jì)相關(guān)參數(shù)
2)根據(jù)計(jì)算統(tǒng)計(jì)中英文句子各自的長(zhǎng)度與段落的相關(guān)參數(shù)。
a)基于段落個(gè)數(shù)、句子個(gè)數(shù)、句子長(zhǎng)度的方法初步判斷中英文對(duì)齊參數(shù)。
b)對(duì)于不同長(zhǎng)度的中英文段落個(gè)數(shù)、句子個(gè)數(shù)、句子長(zhǎng)度篩選出不同的部分。
c)對(duì)篩選后的段落句子進(jìn)行處理調(diào)整。
3)充分利用雙語(yǔ)文本中詞匯信息對(duì)中英文進(jìn)行對(duì)其。
a)抽取短語(yǔ)、數(shù)字、縮寫詞、符號(hào)等豐富的詞匯信息。
b)結(jié)合句對(duì)長(zhǎng)度信息,基于HowNet語(yǔ)義計(jì)算、詞匯、長(zhǎng)度等混合信息的對(duì)齊方法,并利用該方法對(duì)中英文文本進(jìn)行了對(duì)齊。
4)驗(yàn)證與處理方案:
a)運(yùn)用信息檢索領(lǐng)域中TF-IDF權(quán)重思想,在充分利用詞匯信息的基礎(chǔ)上考慮詞頻信息,以此來(lái)估算句對(duì)之間的互譯評(píng)分。
b)比較了上述幾個(gè)算法在對(duì)噪音不同以及段落對(duì)齊與否的雙語(yǔ)文本上的對(duì)齊效果;分析雙語(yǔ)詞典大小對(duì)于對(duì)齊效果的影響。
c)對(duì)驗(yàn)證的問(wèn)題進(jìn)行相應(yīng)的處理。
5)中英文雙語(yǔ)對(duì)齊的后處理步驟。
a)對(duì)齊結(jié)果的選擇、雙語(yǔ)語(yǔ)料庫(kù)的編碼規(guī)范等;
b)批量漢英雙語(yǔ)平行語(yǔ)料庫(kù)的構(gòu)建工作,包括其總體規(guī)劃和流程細(xì)節(jié)等。
下一篇將會(huì)介紹,計(jì)算的統(tǒng)計(jì)參數(shù)和相似度計(jì)算的方法,將會(huì)以統(tǒng)計(jì)得到的數(shù)字呈現(xiàn)。