PERT-不再使用MLM任務(wù)的語言模型

論文標(biāo)題:PERT PRE-TRAINING BERT WITH PERMUTED LANGUAGE MODEL
論文鏈接:https://arxiv.org/abs/2203.06906

模型鏈接:https://github.com/ymcui/PERT

Abstract

本文提出了PERT,它主要用于NLU任務(wù),且是一個(gè)基于全排列的自編碼語言模型。主要思路是對(duì)輸入文本的一部分進(jìn)行全排列,訓(xùn)練目標(biāo)是預(yù)測(cè)出原始字符的位置,同時(shí)也使用了WWM(全詞掩碼)與N-gram掩碼去提升PERT的性能。在中英文數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),發(fā)現(xiàn)部分任務(wù)有明顯的提升。

1.Introduction

預(yù)訓(xùn)練模型通常有兩種訓(xùn)練模式:以BERT為代表的自編碼方式和以GPT為代表的自回歸方式?;贛LM任務(wù),有不少的改進(jìn)方式,比如WWM,N-gram等,因此也誕生了ERNIE、RoBERTa、ALBERT、ELECTRA、MacBERT等模型。

本文探索了非MLM相關(guān)的預(yù)訓(xùn)練任務(wù),動(dòng)機(jī)很有趣,很多諺語篡改幾個(gè)漢字不會(huì)影響你的閱讀。如圖1所示,打亂幾個(gè)字的順序,并不會(huì)改變?nèi)藗儗?duì)句子的理解?;诖讼敕ǎ疚奶岢隽艘粋€(gè)新的預(yù)訓(xùn)練任務(wù),permuted language model (PerLM),PerLM試圖從無序的句子中恢復(fù)字符的順序,其目的是預(yù)測(cè)原始字符的位置。

image

2.Related Work

相關(guān)工作直接貼個(gè)原文表格吧,各種預(yù)訓(xùn)練模型的特點(diǎn)表格已基本說明。


image

3.PERT

3.1 Overview

PERT的輸入為亂序的句子,訓(xùn)練目標(biāo)是預(yù)測(cè)原始字符的位置。

  • PERT采用了和BERT一樣的切詞WordPiece、詞表等。
  • PERT沒有[MASK]字符。
  • 預(yù)測(cè)的空間是基于輸入的句子的,而不是整個(gè)詞表空間。
  • 由于PERT的主體與BERT相同,通過適當(dāng)?shù)奈⒄{(diào),BERT可以直接被PERT取代。
image

3.2 PERMUTED LANGUAGE MODEL

本文沒有使用NSP任務(wù),僅用了PerLM任務(wù)。

  • 本文使用了WWM與N-gram Mask進(jìn)行候選詞Mask的選擇,分別有40%、30%、20%、10%的概率完成單字Mask到4-gram的Mask
  • 在前面的工作之后,本文使用了15%的輸入詞來進(jìn)行Mask。
    其中,
    • 本文隨機(jī)選擇90%的字符并打亂它們的順序。
    • 對(duì)于其余10%的字符,保持不變,將其視為負(fù)樣本。

PerLM與MLM相比的特性如下:

  • PerLM沒有使用[MASK]字符,緩解了預(yù)訓(xùn)練-微調(diào)之間的偏差問題。
  • 相比MLM任務(wù),PerLM預(yù)測(cè)空間是句子,而不是整個(gè)詞表,比MLM任務(wù)效率更高。

3.3 PRE-TRAINING STAGE

給定句子A和句子B,完成隨機(jī)字符打亂之后,拼接在一起輸入到PERT中。

image

經(jīng)過Embedding層與L層的Transformer結(jié)構(gòu)


image

PERT只需要去預(yù)測(cè)所選定的位置,最后經(jīng)過一個(gè)FFN與LayerNorm,使用softmax輸出標(biāo)準(zhǔn)化之后的概率分布,損失函數(shù)為交叉熵。

3.4 FINE-TUNING STAGE

微調(diào)階段PERT與BERT相似,可以進(jìn)行直接替換,當(dāng)然,微調(diào)階段是不需要打亂句子的順序的,直接輸入原始句子就可以。

4 EXPERIMENTS ON CHINESE TASKS

具體訓(xùn)練參數(shù),可以參考原論文。

本文PERT在閱讀理解MRC,文本分類TC,命名實(shí)體識(shí)別NER等任務(wù)中進(jìn)行了實(shí)驗(yàn)。

image
image
image

在MRC與NER任務(wù)上,PERT表現(xiàn)還是不錯(cuò)的,即使在英文數(shù)據(jù)集上也是如此。

image

7.Conclusion

與MLM訓(xùn)練任務(wù)不同,本文提出的PERT訓(xùn)練目標(biāo)是預(yù)測(cè)被打亂字符的原始位置。該模型在MRC于NER相關(guān)任務(wù)上有了不錯(cuò)的提升,但是文本分類沒有明顯提升。

最后值得一提的是,PERT在文本糾錯(cuò)與亂序任務(wù)上表現(xiàn)不錯(cuò),當(dāng)然這也和它預(yù)訓(xùn)練-微調(diào)任務(wù)一致性有很大的關(guān)系。前段時(shí)間科大訊飛比賽的一個(gè)題目,僅用PERT就比BERT、RoBERTa等模型性能要高不少。

image
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容