NLP任務(wù)中術(shù)語的作用

在自然語言處理的任務(wù)當(dāng)中,術(shù)語在相當(dāng)一部分中占有了優(yōu)化效果的作用。與優(yōu)化算法、語料清潔等等一樣,它能夠帶來的效果也會十分可觀,而且人們對由術(shù)語產(chǎn)生的提升察覺度也十分高。下面針對NLP各個(gè)子任務(wù)進(jìn)行術(shù)語作用的闡述。

1.機(jī)器翻譯

a.譯后術(shù)語替換,提升翻譯質(zhì)量。

此舉措是個(gè)簡單粗暴但有效的方法。但是確定其可行性,也是要求提取的術(shù)語滿足兩個(gè)前提:術(shù)語本身具有很高的穩(wěn)定性,也就是說,某個(gè)術(shù)語只有一般來說一種對應(yīng)譯文。其次術(shù)語本身和其他詞匯有很高的分離度,在批量替換的時(shí)候,不易"誤傷"。由于以上兩個(gè)特點(diǎn),批量的替換某個(gè)術(shù)語列表在譯文中的譯詞,是有很高的操作性,并且會帶來極大的裨益。不過也要根據(jù)語料詞匯特點(diǎn)來分析,確保避免重大的替換失誤。假如某小說中,主人公的昵稱為“零”,如果選擇在譯文中用音譯版本“Ling”,那么就要考慮出現(xiàn)零本意的情況下該如何處理。

b.訓(xùn)練機(jī)器模型,提高模型表現(xiàn)。

這一步也是會提升模型之后在某個(gè)垂直領(lǐng)域語料中的翻譯表現(xiàn)。往往會作為單獨(dú)或在訓(xùn)練模型中的配套步驟,用于針對某一類型語料的翻譯模型訓(xùn)練中。而且可以和a步驟配套使用,就能低開銷地生成一批訓(xùn)練語料:首先將機(jī)翻譯文中的術(shù)語進(jìn)行替換;然后進(jìn)行快速簡單,但又能保證基本質(zhì)量的人工譯后編輯(成本控制),制做出一批訓(xùn)練語料;將其投入訓(xùn)練引擎中;制做或?qū)ふ易匀坏碾p語對照文本,作為測試集,檢測引擎質(zhì)量;以上步驟不斷優(yōu)化迭代。在迭代的過程中,處理的術(shù)語量每批次會越來越少,其數(shù)量會控制在人工可審核編輯的范圍中。

但是想要術(shù)語詞表在以上兩個(gè)步驟中發(fā)揮作用,是有一個(gè)邏輯上的悖論,想要在人工翻譯前進(jìn)行產(chǎn)生高質(zhì)量術(shù)語雙語列表,但是給術(shù)語詞表進(jìn)行翻譯本身就是一個(gè)需要人工耗時(shí)的工作。在這一步人工投入過多,會違背提升效率減少人工的初衷。那么如何在人工翻譯之前,產(chǎn)生針對目標(biāo)文本的雙(多)語對照術(shù)語表呢?請見后續(xù)文章,如何從無到有制作雙(多)語術(shù)語對照表。

2.文本分類

對于文本的分類,很大意義上就是對于文中詞匯的類型檢測。如果我們有待分類的a、b、c...類型,且有對于每一種類型的術(shù)語表(詞表)。那么通過統(tǒng)計(jì)的方式,依次計(jì)算每個(gè)術(shù)語表在各個(gè)待分類文本的分布情況,得出一個(gè)此文本屬于某個(gè)分類概率,以此來預(yù)計(jì)出文本的分類。

3.知識圖譜(超出nlp領(lǐng)域)

知識圖譜本身其實(shí)是由術(shù)語(點(diǎn))及術(shù)語間的關(guān)系(線),鉤織成的對于某一個(gè)領(lǐng)域“知識”的描述(網(wǎng))。可以說,在知識圖譜中,術(shù)語就是被描述的對象,關(guān)系就是對其兩個(gè)術(shù)語(實(shí)體)進(jìn)行的串聯(lián)。通過這兩個(gè)類別的信息,我們對現(xiàn)實(shí)世界中無論抽象還是具象的事物進(jìn)行建模。那術(shù)語在這其中的重要性自然不言而喻了。

建立某領(lǐng)域知識圖譜的第一步,就是獲得該領(lǐng)域的術(shù)語(實(shí)體)集合,且要高質(zhì)量的術(shù)語。一開始寧少勿濫,寧缺無多。從最關(guān)鍵的核心概念及其關(guān)系開始,逐步做加法,進(jìn)行拓展,從而逐步覆蓋期望的概念及關(guān)系范圍。

4.其他NLP任務(wù)

在文本摘要、問答任務(wù)中,也不難理解,術(shù)語都是支撐起任務(wù)的錨點(diǎn)。摘要摘取核心信息,也是也術(shù)語為基礎(chǔ)進(jìn)行摘取片段的判斷。

問答任務(wù)當(dāng)中,回答的也是圍繞某個(gè)術(shù)語(關(guān)鍵詞)而拋出的問題,然后根據(jù)問題中其他情感詞等體現(xiàn)出的細(xì)節(jié)對其進(jìn)行回答。那么產(chǎn)生回答的過程當(dāng)中,術(shù)語也會起到作用。最簡陋的定位回答的方式,就是通過匹配問題與預(yù)先設(shè)定好的回答中的關(guān)鍵詞(術(shù)語),鎖定最符合問題的回答。

在這些任務(wù)中,實(shí)體也許并不都是術(shù)語,但是術(shù)語在很大程度上都會是實(shí)體,而且是實(shí)體中優(yōu)先級相對較高的部分。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容