內(nèi)容來(lái)自哈工大車(chē)萬(wàn)翔老師團(tuán)隊(duì)的作品《自然語(yǔ)言處理:基于預(yù)訓(xùn)練模型的方法》。
3. 語(yǔ)言模型性能評(píng)價(jià)
如何評(píng)價(jià)一個(gè)語(yǔ)言模型的好壞呢?
- 外部任務(wù)評(píng)價(jià):將模型應(yīng)用于具體的外部任務(wù)(如機(jī)器翻譯),并根據(jù)該任務(wù)上指標(biāo)的高低對(duì)語(yǔ)言模型進(jìn)行評(píng)價(jià)。但是此方法計(jì)算代價(jià)較高,實(shí)現(xiàn)難度也大。
- 基于困惑度(Perplexity, PPL)的內(nèi)部評(píng)價(jià)方式:詳述如下
- 講述數(shù)據(jù)劃分為不相交的集合:訓(xùn)練集
和測(cè)試集
,
用于估計(jì)語(yǔ)言模型的參數(shù)。得到的模型計(jì)算測(cè)試集
的概率
則反映了模型在測(cè)試集上的泛化能力。
- 假設(shè)測(cè)試集
(每個(gè)句子開(kāi)始和結(jié)束分別增加
和
標(biāo)記),則測(cè)試集的概率為:
image.png -
困惑度則為模型分配給測(cè)試集中每一個(gè)詞的概率的幾何平均值的倒數(shù):
困惑度
幾何平均數(shù)_百度百科 (baidu.com)
每日丁點(diǎn) | 幾何平均數(shù)是啥 - 知乎 (zhihu.com)
例,對(duì)于bigram模型而言:
bigram的困惑度 -
實(shí)際使用中,考慮多個(gè)概率相乘可能帶來(lái)浮點(diǎn)數(shù)下溢的問(wèn)題,通常將式(2-18)轉(zhuǎn)化為對(duì)數(shù)和形式:
image.png - 困惑度的意義:
困惑度越小,意味著單詞序列的概率越大,也意味著模型能夠更好解釋測(cè)試集中的數(shù)據(jù)。
困惑度越低的語(yǔ)言模型并不總是能在外部任務(wù)上取得更好的性能指標(biāo),但是二者之間通常呈現(xiàn)一定的正相關(guān)性。



