筆記-N元語(yǔ)法

N元語(yǔ)法

最大似然估計(jì)

缺陷:

  • 參數(shù)空間過(guò)大

    條件概率P(wn|w1,w2,…wn-1)無(wú)法估算

  • 數(shù)據(jù)稀疏嚴(yán)重

    很多語(yǔ)料庫(kù)中未出現(xiàn)的詞組組合,得到的概率為0

馬爾可夫假設(shè)

目的:解決參數(shù)空間過(guò)大的問(wèn)題;隨意一個(gè)詞出現(xiàn)的概率只和與它前面出現(xiàn)的有限的一個(gè)或者幾個(gè)詞相關(guān)。

unigram

一元語(yǔ)言模型:一個(gè)詞的出現(xiàn)與周?chē)~獨(dú)立條件無(wú)關(guān)假設(shè)

bigram

二元語(yǔ)言模型:一個(gè)詞的出現(xiàn)僅依賴(lài)于前面兩個(gè)詞考慮到詞與詞的搭配關(guān)系,比如“pizza”和“eat”的搭配比“drink”的搭配更普遍

trigram

三元語(yǔ)言模型:一個(gè)詞的出現(xiàn)僅依賴(lài)于它前面出現(xiàn)的兩個(gè)詞

模型評(píng)價(jià)

方法一:將模型放入具體的任務(wù),然后分別得到模型的準(zhǔn)確率。但這種方法很耗時(shí)間;這種端對(duì)端的評(píng)測(cè)被稱(chēng)為外在評(píng)測(cè)(extrinsic evaluation)方法二:利用語(yǔ)言模型的特性,使用困惑度對(duì)語(yǔ)言模型進(jìn)行評(píng)價(jià);這是一種內(nèi)在評(píng)測(cè)(intrinsic evaluation)一般使用在試點(diǎn)試驗(yàn)上,即只是一個(gè)小規(guī)模的初步研究,以評(píng)估一些性能;

困惑度

困惑度.jpg

N包括句末標(biāo)記</s>,然后w_0是<s>

  • 測(cè)試集上得到的句子的概率越大,困惑度越小,說(shuō)明模型越好

數(shù)據(jù)稀疏問(wèn)題

“封閉詞匯假設(shè)”的問(wèn)題:假設(shè)測(cè)試集中所有的詞匯都出現(xiàn)過(guò)。顯然這個(gè)假設(shè)把問(wèn)題簡(jiǎn)單化了。對(duì)于語(yǔ)料庫(kù)中未曾出現(xiàn)的詞組對(duì),會(huì)出現(xiàn)概率為0的現(xiàn)象,這對(duì)于我們模型的估計(jì)是不利的,因此我們要采取一些平滑方法解決這一問(wèn)題。

Laplace平滑

又稱(chēng)為加1平滑,目的是保證所有計(jì)數(shù)結(jié)果至少出現(xiàn)一次;

Laplace平滑.jpg

加1的總數(shù)為V,要加在分母上,因?yàn)橐WC全概率公式成立。

  • 將原來(lái)大的計(jì)數(shù)削減用于補(bǔ)償給未看見(jiàn)的計(jì)數(shù)

  • 調(diào)整計(jì)數(shù)C^*(C^**=(C_i+1)N/N+V;

    用來(lái)描述平滑算法對(duì)分子的影響;

Good-Turing打折法

  • 使用只出現(xiàn)過(guò)一次的單詞的頻率作為零計(jì)數(shù)的一元語(yǔ)法的頻率來(lái)重新估計(jì)概率量

    其他出現(xiàn)非零次的概率要根據(jù)C^*進(jìn)行打折計(jì)算

GoodTurning打折法.jpg

插值法

使用線(xiàn)性插值的方法,將高階模型和低階模型做線(xiàn)性組合,

  • 從所有的N元語(yǔ)法估計(jì)中把不同的概率估計(jì)混合起來(lái)進(jìn)行先行插值

    從保留語(yǔ)料庫(kù)訓(xùn)練lamda的值

回退法

  • 如果我們需要的N元語(yǔ)法有零計(jì)數(shù),我們就回退到N-1元語(yǔ)法近似地計(jì)算它

  • 我們不斷回退,直到達(dá)到具有計(jì)數(shù)的歷史為止

工具包和數(shù)據(jù)格式

用對(duì)數(shù)來(lái)表示和計(jì)算語(yǔ)言模型,以避免下溢,加快計(jì)算。對(duì)數(shù)空間相加等價(jià)于線(xiàn)性空間的相乘。要報(bào)告概率的時(shí)候,取對(duì)數(shù)概率的指數(shù)即可。

SRILM

語(yǔ)言模型訓(xùn)練工具SRILM詳解
A Toolkit For Langugae Modeling——SRILM使用記錄

ARPA格式

優(yōu)缺點(diǎn)

優(yōu)點(diǎn):可以使用豐富的詞匯知識(shí)

缺點(diǎn):依賴(lài)訓(xùn)練語(yǔ)料庫(kù)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容