欧美人妻一区二区三区,日本精啪在线观看,97久久资源总站视频

論文標(biāo)題：PERT PRE-TRAINING BERT WITH PERMUTED LANGUAGE MODEL
論文鏈接：https://arxiv.org/abs/2203.06906

Abstract

本文提出了PERT，它主要用于NLU任務(wù)，且是一個(gè)基于全排列的自編碼語言模型。主要思路是對(duì)輸入文本的一部分進(jìn)行全排列，訓(xùn)練目標(biāo)是預(yù)測(cè)出原始字符的位置，同時(shí)也使用了WWM(全詞掩碼)與N-gram掩碼去提升PERT的性能。在中英文數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)，發(fā)現(xiàn)部分任務(wù)有明顯的提升。

1.Introduction

預(yù)訓(xùn)練模型通常有兩種訓(xùn)練模式：以BERT為代表的自編碼方式和以GPT為代表的自回歸方式?；贛LM任務(wù)，有不少的改進(jìn)方式，比如WWM，N-gram等，因此也誕生了ERNIE、RoBERTa、ALBERT、ELECTRA、MacBERT等模型。

本文探索了非MLM相關(guān)的預(yù)訓(xùn)練任務(wù)，動(dòng)機(jī)很有趣，很多諺語篡改幾個(gè)漢字不會(huì)影響你的閱讀。如圖1所示，打亂幾個(gè)字的順序，并不會(huì)改變?nèi)藗儗?duì)句子的理解?；诖讼敕ǎ疚奶岢隽艘粋€(gè)新的預(yù)訓(xùn)練任務(wù)，permuted language model (PerLM)，PerLM試圖從無序的句子中恢復(fù)字符的順序，其目的是預(yù)測(cè)原始字符的位置。

image

2.Related Work

相關(guān)工作直接貼個(gè)原文表格吧，各種預(yù)訓(xùn)練模型的特點(diǎn)表格已基本說明。

image

3.PERT

3.1 Overview

PERT的輸入為亂序的句子，訓(xùn)練目標(biāo)是預(yù)測(cè)原始字符的位置。

PERT采用了和BERT一樣的切詞WordPiece、詞表等。
PERT沒有[MASK]字符。
預(yù)測(cè)的空間是基于輸入的句子的，而不是整個(gè)詞表空間。
由于PERT的主體與BERT相同，通過適當(dāng)?shù)奈⒄{(diào)，BERT可以直接被PERT取代。

image

3.2 PERMUTED LANGUAGE MODEL

本文沒有使用NSP任務(wù)，僅用了PerLM任務(wù)。

本文使用了WWM與N-gram Mask進(jìn)行候選詞Mask的選擇，分別有40%、30%、20%、10%的概率完成單字Mask到4-gram的Mask
在前面的工作之后，本文使用了15%的輸入詞來進(jìn)行Mask。
其中，
- 本文隨機(jī)選擇90%的字符并打亂它們的順序。
- 對(duì)于其余10%的字符，保持不變，將其視為負(fù)樣本。

PerLM與MLM相比的特性如下：

PerLM沒有使用[MASK]字符，緩解了預(yù)訓(xùn)練-微調(diào)之間的偏差問題。
相比MLM任務(wù)，PerLM預(yù)測(cè)空間是句子，而不是整個(gè)詞表，比MLM任務(wù)效率更高。

3.3 PRE-TRAINING STAGE

給定句子A和句子B，完成隨機(jī)字符打亂之后，拼接在一起輸入到PERT中。

image

經(jīng)過Embedding層與L層的Transformer結(jié)構(gòu)

image

PERT只需要去預(yù)測(cè)所選定的位置，最后經(jīng)過一個(gè)FFN與LayerNorm,使用softmax輸出標(biāo)準(zhǔn)化之后的概率分布，損失函數(shù)為交叉熵。

3.4 FINE-TUNING STAGE

微調(diào)階段PERT與BERT相似，可以進(jìn)行直接替換，當(dāng)然，微調(diào)階段是不需要打亂句子的順序的，直接輸入原始句子就可以。

4 EXPERIMENTS ON CHINESE TASKS

具體訓(xùn)練參數(shù)，可以參考原論文。

本文PERT在閱讀理解MRC，文本分類TC，命名實(shí)體識(shí)別NER等任務(wù)中進(jìn)行了實(shí)驗(yàn)。

image

在MRC與NER任務(wù)上，PERT表現(xiàn)還是不錯(cuò)的，即使在英文數(shù)據(jù)集上也是如此。

image

7.Conclusion

與MLM訓(xùn)練任務(wù)不同，本文提出的PERT訓(xùn)練目標(biāo)是預(yù)測(cè)被打亂字符的原始位置。該模型在MRC于NER相關(guān)任務(wù)上有了不錯(cuò)的提升，但是文本分類沒有明顯提升。

最后值得一提的是，PERT在文本糾錯(cuò)與亂序任務(wù)上表現(xiàn)不錯(cuò)，當(dāng)然這也和它預(yù)訓(xùn)練-微調(diào)任務(wù)一致性有很大的關(guān)系。前段時(shí)間科大訊飛比賽的一個(gè)題目，僅用PERT就比BERT、RoBERTa等模型性能要高不少。

image

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

PERT-不再使用MLM任務(wù)的語言模型

PERT-不再使用MLM任務(wù)的語言模型

Abstract

1.Introduction

2.Related Work