專題 自然語(yǔ)言處理 簡(jiǎn)單版方案

雙語(yǔ)平行語(yǔ)料是進(jìn)行機(jī)器翻譯研究不可缺少的資源,本次根據(jù)英華的中英文對(duì)齊語(yǔ)料進(jìn)行尋找解決辦法,而句子對(duì)齊是雙語(yǔ)語(yǔ)料處理的第一步。

本次在中英文各自特點(diǎn)的基礎(chǔ)上,分別使用基于句子段落和基于HowNet語(yǔ)義計(jì)算驗(yàn)證信息等多種方法對(duì)中英文文本進(jìn)行了對(duì)齊,對(duì)齊的各種因素的處理以及對(duì)齊的后處理方案。

具體的說(shuō),本次工作主要包含以下內(nèi)容:

1)根據(jù)相應(yīng)的規(guī)則進(jìn)行對(duì)中英文文本進(jìn)行預(yù)處理,包括

a)去標(biāo)簽

b)空格符號(hào)等無(wú)關(guān)語(yǔ)義的字符等

c)逐行逐段分行處理統(tǒng)計(jì)相關(guān)參數(shù)

2)根據(jù)計(jì)算統(tǒng)計(jì)中英文句子各自的長(zhǎng)度與段落的相關(guān)參數(shù)。

a)基于段落個(gè)數(shù)、句子個(gè)數(shù)、句子長(zhǎng)度的方法初步判斷中英文對(duì)齊參數(shù)。

b)對(duì)于不同長(zhǎng)度的中英文段落個(gè)數(shù)、句子個(gè)數(shù)、句子長(zhǎng)度篩選出不同的部分。

c)對(duì)篩選后的段落句子進(jìn)行處理調(diào)整。

3)充分利用雙語(yǔ)文本中詞匯信息對(duì)中英文進(jìn)行對(duì)其。

a)抽取短語(yǔ)、數(shù)字、縮寫詞、符號(hào)等豐富的詞匯信息。

b)結(jié)合句對(duì)長(zhǎng)度信息,基于HowNet語(yǔ)義計(jì)算、詞匯、長(zhǎng)度等混合信息的對(duì)齊方法,并利用該方法對(duì)中英文文本進(jìn)行了對(duì)齊。

4)驗(yàn)證與處理方案:

a)運(yùn)用信息檢索領(lǐng)域中TF-IDF權(quán)重思想,在充分利用詞匯信息的基礎(chǔ)上考慮詞頻信息,以此來(lái)估算句對(duì)之間的互譯評(píng)分。

b)比較了上述幾個(gè)算法在對(duì)噪音不同以及段落對(duì)齊與否的雙語(yǔ)文本上的對(duì)齊效果;分析雙語(yǔ)詞典大小對(duì)于對(duì)齊效果的影響。

c)對(duì)驗(yàn)證的問(wèn)題進(jìn)行相應(yīng)的處理。

5)中英文雙語(yǔ)對(duì)齊的后處理步驟。

a)對(duì)齊結(jié)果的選擇、雙語(yǔ)語(yǔ)料庫(kù)的編碼規(guī)范等;

b)批量漢英雙語(yǔ)平行語(yǔ)料庫(kù)的構(gòu)建工作,包括其總體規(guī)劃和流程細(xì)節(jié)等。


下一篇將會(huì)介紹,計(jì)算的統(tǒng)計(jì)參數(shù)和相似度計(jì)算的方法,將會(huì)以統(tǒng)計(jì)得到的數(shù)字呈現(xiàn)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • References: 《speech and language processing 》2nd & 3rd 《統(tǒng)...
    藝術(shù)叔閱讀 7,948評(píng)論 1 8
  • 命名實(shí)體識(shí)別 命名實(shí)體的提出源自信息抽取問(wèn)題,即從報(bào)章等非結(jié)構(gòu)化文本中抽取關(guān)于公司活動(dòng)和國(guó)防相關(guān)活動(dòng)的結(jié)構(gòu)化信息,...
    我偏笑_NSNirvana閱讀 10,901評(píng)論 1 35
  • 前面的文章主要從理論的角度介紹了自然語(yǔ)言人機(jī)對(duì)話系統(tǒng)所可能涉及到的多個(gè)領(lǐng)域的經(jīng)典模型和基礎(chǔ)知識(shí)。這篇文章,甚至之后...
    我偏笑_NSNirvana閱讀 14,407評(píng)論 2 64
  • 燕云這篇文章寫的很美,很深沉,發(fā)人深省,動(dòng)人心魄。在生活還算開放的年代,在互聯(lián)網(wǎng)+的時(shí)代,人們?cè)僖不夭蝗ツ欠N...
    runze0閱讀 298評(píng)論 0 0
  • 從古至今,世界各地各種文字的書寫順序是各有不同的,總體上分為左行、右行、下行三種,一直保留至今。左行如英文等;右行...
    皇氏三墳閱讀 1,198評(píng)論 3 0

友情鏈接更多精彩內(nèi)容