N元語(yǔ)法
最大似然估計(jì)
缺陷:
-
參數(shù)空間過(guò)大
條件概率P(wn|w1,w2,…wn-1)無(wú)法估算
-
數(shù)據(jù)稀疏嚴(yán)重
很多語(yǔ)料庫(kù)中未出現(xiàn)的詞組組合,得到的概率為0
馬爾可夫假設(shè)
目的:解決參數(shù)空間過(guò)大的問(wèn)題;隨意一個(gè)詞出現(xiàn)的概率只和與它前面出現(xiàn)的有限的一個(gè)或者幾個(gè)詞相關(guān)。
unigram
一元語(yǔ)言模型:一個(gè)詞的出現(xiàn)與周?chē)~獨(dú)立條件無(wú)關(guān)假設(shè)
bigram
二元語(yǔ)言模型:一個(gè)詞的出現(xiàn)僅依賴(lài)于前面兩個(gè)詞考慮到詞與詞的搭配關(guān)系,比如“pizza”和“eat”的搭配比“drink”的搭配更普遍
trigram
三元語(yǔ)言模型:一個(gè)詞的出現(xiàn)僅依賴(lài)于它前面出現(xiàn)的兩個(gè)詞
模型評(píng)價(jià)
方法一:將模型放入具體的任務(wù),然后分別得到模型的準(zhǔn)確率。但這種方法很耗時(shí)間;這種端對(duì)端的評(píng)測(cè)被稱(chēng)為外在評(píng)測(cè)(extrinsic evaluation)方法二:利用語(yǔ)言模型的特性,使用困惑度對(duì)語(yǔ)言模型進(jìn)行評(píng)價(jià);這是一種內(nèi)在評(píng)測(cè)(intrinsic evaluation)一般使用在試點(diǎn)試驗(yàn)上,即只是一個(gè)小規(guī)模的初步研究,以評(píng)估一些性能;
困惑度

包括句末標(biāo)記</s>,然后
是<s>
- 測(cè)試集上得到的句子的概率越大,困惑度越小,說(shuō)明模型越好
數(shù)據(jù)稀疏問(wèn)題
“封閉詞匯假設(shè)”的問(wèn)題:假設(shè)測(cè)試集中所有的詞匯都出現(xiàn)過(guò)。顯然這個(gè)假設(shè)把問(wèn)題簡(jiǎn)單化了。對(duì)于語(yǔ)料庫(kù)中未曾出現(xiàn)的詞組對(duì),會(huì)出現(xiàn)概率為0的現(xiàn)象,這對(duì)于我們模型的估計(jì)是不利的,因此我們要采取一些平滑方法解決這一問(wèn)題。
Laplace平滑
又稱(chēng)為加1平滑,目的是保證所有計(jì)數(shù)結(jié)果至少出現(xiàn)一次;

加1的總數(shù)為V,要加在分母上,因?yàn)橐WC全概率公式成立。
將原來(lái)大的計(jì)數(shù)削減用于補(bǔ)償給未看見(jiàn)的計(jì)數(shù)
-
調(diào)整計(jì)數(shù)
;
用來(lái)描述平滑算法對(duì)分子的影響;
Good-Turing打折法
-
使用只出現(xiàn)過(guò)一次的單詞的頻率作為零計(jì)數(shù)的一元語(yǔ)法的頻率來(lái)重新估計(jì)概率量
其他出現(xiàn)非零次的概率要根據(jù)
進(jìn)行打折計(jì)算

插值法
使用線(xiàn)性插值的方法,將高階模型和低階模型做線(xiàn)性組合,
-
從所有的N元語(yǔ)法估計(jì)中把不同的概率估計(jì)混合起來(lái)進(jìn)行先行插值
從保留語(yǔ)料庫(kù)訓(xùn)練lamda的值
回退法
如果我們需要的N元語(yǔ)法有零計(jì)數(shù),我們就回退到N-1元語(yǔ)法近似地計(jì)算它
我們不斷回退,直到達(dá)到具有計(jì)數(shù)的歷史為止
工具包和數(shù)據(jù)格式
用對(duì)數(shù)來(lái)表示和計(jì)算語(yǔ)言模型,以避免下溢,加快計(jì)算。對(duì)數(shù)空間相加等價(jià)于線(xiàn)性空間的相乘。要報(bào)告概率的時(shí)候,取對(duì)數(shù)概率的指數(shù)即可。
SRILM
語(yǔ)言模型訓(xùn)練工具SRILM詳解
A Toolkit For Langugae Modeling——SRILM使用記錄