論文標(biāo)題:PERT PRE-TRAINING BERT WITH PERMUTED LANGUAGE MODEL
論文鏈接:https://arxiv.org/abs/2203.06906
模型鏈接:https://github.com/ymcui/PERT
Abstract
本文提出了PERT,它主要用于NLU任務(wù),且是一個(gè)基于全排列的自編碼語言模型。主要思路是對(duì)輸入文本的一部分進(jìn)行全排列,訓(xùn)練目標(biāo)是預(yù)測(cè)出原始字符的位置,同時(shí)也使用了WWM(全詞掩碼)與N-gram掩碼去提升PERT的性能。在中英文數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),發(fā)現(xiàn)部分任務(wù)有明顯的提升。
1.Introduction
預(yù)訓(xùn)練模型通常有兩種訓(xùn)練模式:以BERT為代表的自編碼方式和以GPT為代表的自回歸方式?;贛LM任務(wù),有不少的改進(jìn)方式,比如WWM,N-gram等,因此也誕生了ERNIE、RoBERTa、ALBERT、ELECTRA、MacBERT等模型。
本文探索了非MLM相關(guān)的預(yù)訓(xùn)練任務(wù),動(dòng)機(jī)很有趣,很多諺語篡改幾個(gè)漢字不會(huì)影響你的閱讀。如圖1所示,打亂幾個(gè)字的順序,并不會(huì)改變?nèi)藗儗?duì)句子的理解?;诖讼敕ǎ疚奶岢隽艘粋€(gè)新的預(yù)訓(xùn)練任務(wù),permuted language model (PerLM),PerLM試圖從無序的句子中恢復(fù)字符的順序,其目的是預(yù)測(cè)原始字符的位置。

2.Related Work
相關(guān)工作直接貼個(gè)原文表格吧,各種預(yù)訓(xùn)練模型的特點(diǎn)表格已基本說明。

3.PERT
3.1 Overview
PERT的輸入為亂序的句子,訓(xùn)練目標(biāo)是預(yù)測(cè)原始字符的位置。
- PERT采用了和BERT一樣的切詞WordPiece、詞表等。
- PERT沒有[MASK]字符。
- 預(yù)測(cè)的空間是基于輸入的句子的,而不是整個(gè)詞表空間。
- 由于PERT的主體與BERT相同,通過適當(dāng)?shù)奈⒄{(diào),BERT可以直接被PERT取代。

3.2 PERMUTED LANGUAGE MODEL
本文沒有使用NSP任務(wù),僅用了PerLM任務(wù)。
- 本文使用了WWM與N-gram Mask進(jìn)行候選詞Mask的選擇,分別有40%、30%、20%、10%的概率完成單字Mask到4-gram的Mask
- 在前面的工作之后,本文使用了15%的輸入詞來進(jìn)行Mask。
其中,- 本文隨機(jī)選擇90%的字符并打亂它們的順序。
- 對(duì)于其余10%的字符,保持不變,將其視為負(fù)樣本。
PerLM與MLM相比的特性如下:
- PerLM沒有使用[MASK]字符,緩解了預(yù)訓(xùn)練-微調(diào)之間的偏差問題。
- 相比MLM任務(wù),PerLM預(yù)測(cè)空間是句子,而不是整個(gè)詞表,比MLM任務(wù)效率更高。
3.3 PRE-TRAINING STAGE
給定句子A和句子B,完成隨機(jī)字符打亂之后,拼接在一起輸入到PERT中。

經(jīng)過Embedding層與L層的Transformer結(jié)構(gòu)

PERT只需要去預(yù)測(cè)所選定的位置,最后經(jīng)過一個(gè)FFN與LayerNorm,使用softmax輸出標(biāo)準(zhǔn)化之后的概率分布,損失函數(shù)為交叉熵。
3.4 FINE-TUNING STAGE
微調(diào)階段PERT與BERT相似,可以進(jìn)行直接替換,當(dāng)然,微調(diào)階段是不需要打亂句子的順序的,直接輸入原始句子就可以。
4 EXPERIMENTS ON CHINESE TASKS
具體訓(xùn)練參數(shù),可以參考原論文。
本文PERT在閱讀理解MRC,文本分類TC,命名實(shí)體識(shí)別NER等任務(wù)中進(jìn)行了實(shí)驗(yàn)。



在MRC與NER任務(wù)上,PERT表現(xiàn)還是不錯(cuò)的,即使在英文數(shù)據(jù)集上也是如此。

7.Conclusion
與MLM訓(xùn)練任務(wù)不同,本文提出的PERT訓(xùn)練目標(biāo)是預(yù)測(cè)被打亂字符的原始位置。該模型在MRC于NER相關(guān)任務(wù)上有了不錯(cuò)的提升,但是文本分類沒有明顯提升。
最后值得一提的是,PERT在文本糾錯(cuò)與亂序任務(wù)上表現(xiàn)不錯(cuò),當(dāng)然這也和它預(yù)訓(xùn)練-微調(diào)任務(wù)一致性有很大的關(guān)系。前段時(shí)間科大訊飛比賽的一個(gè)題目,僅用PERT就比BERT、RoBERTa等模型性能要高不少。
