2022-01-03 第二章7 自然語(yǔ)言處理常見(jiàn)的三大任務(wù)之語(yǔ)言模型:語(yǔ)言模型性能評(píng)價(jià)

內(nèi)容來(lái)自哈工大車(chē)萬(wàn)翔老師團(tuán)隊(duì)的作品《自然語(yǔ)言處理:基于預(yù)訓(xùn)練模型的方法》。

3. 語(yǔ)言模型性能評(píng)價(jià)

如何評(píng)價(jià)一個(gè)語(yǔ)言模型的好壞呢?

  • 外部任務(wù)評(píng)價(jià):將模型應(yīng)用于具體的外部任務(wù)(如機(jī)器翻譯),并根據(jù)該任務(wù)上指標(biāo)的高低對(duì)語(yǔ)言模型進(jìn)行評(píng)價(jià)。但是此方法計(jì)算代價(jià)較高,實(shí)現(xiàn)難度也大。
  • 基于困惑度(Perplexity, PPL)的內(nèi)部評(píng)價(jià)方式:詳述如下
  1. 講述數(shù)據(jù)劃分為不相交的集合:訓(xùn)練集D^{train}和測(cè)試集D^{test},D^{train}用于估計(jì)語(yǔ)言模型的參數(shù)。得到的模型計(jì)算測(cè)試集D^{test}的概率P(D^{trest})則反映了模型在測(cè)試集上的泛化能力。
  2. 假設(shè)測(cè)試集D^{test}=w_1w_2···w_N(每個(gè)句子開(kāi)始和結(jié)束分別增加<BOS><EOS>標(biāo)記),則測(cè)試集的概率為:
    image.png
  3. 困惑度則為模型分配給測(cè)試集中每一個(gè)詞的概率的幾何平均值的倒數(shù):
    困惑度

    幾何平均數(shù)_百度百科 (baidu.com)
    每日丁點(diǎn) | 幾何平均數(shù)是啥 - 知乎 (zhihu.com)
    例,對(duì)于bigram模型而言:
    bigram的困惑度
  4. 實(shí)際使用中,考慮多個(gè)概率相乘可能帶來(lái)浮點(diǎn)數(shù)下溢的問(wèn)題,通常將式(2-18)轉(zhuǎn)化為對(duì)數(shù)和形式:


    image.png
  5. 困惑度的意義:
    困惑度越小,意味著單詞序列的概率越大,也意味著模型能夠更好解釋測(cè)試集中的數(shù)據(jù)。
    困惑度越低的語(yǔ)言模型并不總是能在外部任務(wù)上取得更好的性能指標(biāo),但是二者之間通常呈現(xiàn)一定的正相關(guān)性。
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
禁止轉(zhuǎn)載,如需轉(zhuǎn)載請(qǐng)通過(guò)簡(jiǎn)信或評(píng)論聯(lián)系作者。

友情鏈接更多精彩內(nèi)容