N元語(yǔ)法

最大似然估計(jì)

缺陷：

參數(shù)空間過(guò)大

條件概率P（wn|w1,w2,…wn-1）無(wú)法估算
數(shù)據(jù)稀疏嚴(yán)重

很多語(yǔ)料庫(kù)中未出現(xiàn)的詞組組合，得到的概率為0

馬爾可夫假設(shè)

目的：解決參數(shù)空間過(guò)大的問(wèn)題；隨意一個(gè)詞出現(xiàn)的概率只和與它前面出現(xiàn)的有限的一個(gè)或者幾個(gè)詞相關(guān)。

unigram

一元語(yǔ)言模型：一個(gè)詞的出現(xiàn)與周?chē)~獨(dú)立條件無(wú)關(guān)假設(shè)

bigram

二元語(yǔ)言模型：一個(gè)詞的出現(xiàn)僅依賴(lài)于前面兩個(gè)詞考慮到詞與詞的搭配關(guān)系，比如“pizza”和“eat”的搭配比“drink”的搭配更普遍

trigram

三元語(yǔ)言模型：一個(gè)詞的出現(xiàn)僅依賴(lài)于它前面出現(xiàn)的兩個(gè)詞

模型評(píng)價(jià)

方法一：將模型放入具體的任務(wù)，然后分別得到模型的準(zhǔn)確率。但這種方法很耗時(shí)間；這種端對(duì)端的評(píng)測(cè)被稱(chēng)為外在評(píng)測(cè)（extrinsic evaluation)方法二：利用語(yǔ)言模型的特性，使用困惑度對(duì)語(yǔ)言模型進(jìn)行評(píng)價(jià)；這是一種內(nèi)在評(píng)測(cè)（intrinsic evaluation）一般使用在試點(diǎn)試驗(yàn)上，即只是一個(gè)小規(guī)模的初步研究，以評(píng)估一些性能；

困惑度

困惑度.jpg

$N$ 包括句末標(biāo)記</s>，然后 $w_0$ 是<s>

測(cè)試集上得到的句子的概率越大，困惑度越小，說(shuō)明模型越好

數(shù)據(jù)稀疏問(wèn)題

“封閉詞匯假設(shè)”的問(wèn)題：假設(shè)測(cè)試集中所有的詞匯都出現(xiàn)過(guò)。顯然這個(gè)假設(shè)把問(wèn)題簡(jiǎn)單化了。對(duì)于語(yǔ)料庫(kù)中未曾出現(xiàn)的詞組對(duì)，會(huì)出現(xiàn)概率為0的現(xiàn)象，這對(duì)于我們模型的估計(jì)是不利的，因此我們要采取一些平滑方法解決這一問(wèn)題。

Laplace平滑

又稱(chēng)為加1平滑，目的是保證所有計(jì)數(shù)結(jié)果至少出現(xiàn)一次；

Laplace平滑.jpg

加1的總數(shù)為V，要加在分母上，因?yàn)橐ＷC全概率公式成立。

將原來(lái)大的計(jì)數(shù)削減用于補(bǔ)償給未看見(jiàn)的計(jì)數(shù)
調(diào)整計(jì)數(shù) $C^*(C^**=(C_i+1)N/N+V$ ；

用來(lái)描述平滑算法對(duì)分子的影響；

Good-Turing打折法

使用只出現(xiàn)過(guò)一次的單詞的頻率作為零計(jì)數(shù)的一元語(yǔ)法的頻率來(lái)重新估計(jì)概率量

其他出現(xiàn)非零次的概率要根據(jù) $C^*$ 進(jìn)行打折計(jì)算

GoodTurning打折法.jpg

插值法

使用線(xiàn)性插值的方法，將高階模型和低階模型做線(xiàn)性組合，

從所有的N元語(yǔ)法估計(jì)中把不同的概率估計(jì)混合起來(lái)進(jìn)行先行插值

從保留語(yǔ)料庫(kù)訓(xùn)練lamda的值

回退法

如果我們需要的N元語(yǔ)法有零計(jì)數(shù)，我們就回退到N-1元語(yǔ)法近似地計(jì)算它
我們不斷回退，直到達(dá)到具有計(jì)數(shù)的歷史為止

工具包和數(shù)據(jù)格式

用對(duì)數(shù)來(lái)表示和計(jì)算語(yǔ)言模型，以避免下溢，加快計(jì)算。對(duì)數(shù)空間相加等價(jià)于線(xiàn)性空間的相乘。要報(bào)告概率的時(shí)候，取對(duì)數(shù)概率的指數(shù)即可。

SRILM

語(yǔ)言模型訓(xùn)練工具SRILM詳解
 A Toolkit For Langugae Modeling——SRILM使用記錄

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

筆記-N元語(yǔ)法

筆記-N元語(yǔ)法

N元語(yǔ)法

最大似然估計(jì)

缺陷：

馬爾可夫假設(shè)

unigram

bigram

trigram

模型評(píng)價(jià)

困惑度

數(shù)據(jù)稀疏問(wèn)題

Laplace平滑

Good-Turing打折法

插值法

回退法

工具包和數(shù)據(jù)格式

SRILM

ARPA格式

優(yōu)缺點(diǎn)

優(yōu)點(diǎn)：可以使用豐富的詞匯知識(shí)

缺點(diǎn)：依賴(lài)訓(xùn)練語(yǔ)料庫(kù)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

筆記-N元語(yǔ)法

N元語(yǔ)法

最大似然估計(jì)

缺陷：

馬爾可夫假設(shè)

unigram

bigram

trigram

模型評(píng)價(jià)

困惑度

數(shù)據(jù)稀疏問(wèn)題

Laplace平滑

Good-Turing打折法

插值法

回退法

工具包和數(shù)據(jù)格式

SRILM

ARPA格式

優(yōu)缺點(diǎn)

優(yōu)點(diǎn)：可以使用豐富的詞匯知識(shí)

缺點(diǎn)：依賴(lài)訓(xùn)練語(yǔ)料庫(kù)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av