亚洲日韩一区二区精品,99婷婷日韩一区,韩国福利一区在线看

內(nèi)容來(lái)自哈工大車(chē)萬(wàn)翔老師團(tuán)隊(duì)的作品《自然語(yǔ)言處理：基于預(yù)訓(xùn)練模型的方法》。

如何評(píng)價(jià)一個(gè)語(yǔ)言模型的好壞呢？

外部任務(wù)評(píng)價(jià)：將模型應(yīng)用于具體的外部任務(wù)（如機(jī)器翻譯），并根據(jù)該任務(wù)上指標(biāo)的高低對(duì)語(yǔ)言模型進(jìn)行評(píng)價(jià)。但是此方法計(jì)算代價(jià)較高，實(shí)現(xiàn)難度也大。
基于困惑度（Perplexity, PPL）的內(nèi)部評(píng)價(jià)方式：詳述如下

講述數(shù)據(jù)劃分為不相交的集合：訓(xùn)練集 $D^{train}$ 和測(cè)試集 $D^{test}$ ， $D^{train}$ 用于估計(jì)語(yǔ)言模型的參數(shù)。得到的模型計(jì)算測(cè)試集 $D^{test}$ 的概率 $P(D^{trest})$ 則反映了模型在測(cè)試集上的泛化能力。
假設(shè)測(cè)試集 $D^{test}=w_1w_2···w_N$ （每個(gè)句子開(kāi)始和結(jié)束分別增加 $<BOS>$ 和 $<EOS>$ 標(biāo)記），則測(cè)試集的概率為：

image.png
困惑度則為模型分配給測(cè)試集中每一個(gè)詞的概率的幾何平均值的倒數(shù)：

困惑度

幾何平均數(shù)_百度百科 (baidu.com)
每日丁點(diǎn) | 幾何平均數(shù)是啥 - 知乎 (zhihu.com)
例，對(duì)于bigram模型而言：

bigram的困惑度
實(shí)際使用中，考慮多個(gè)概率相乘可能帶來(lái)浮點(diǎn)數(shù)下溢的問(wèn)題，通常將式（2-18）轉(zhuǎn)化為對(duì)數(shù)和形式：

image.png
困惑度的意義：
困惑度越小，意味著單詞序列的概率越大，也意味著模型能夠更好解釋測(cè)試集中的數(shù)據(jù)。
困惑度越低的語(yǔ)言模型并不總是能在外部任務(wù)上取得更好的性能指標(biāo)，但是二者之間通常呈現(xiàn)一定的正相關(guān)性。