這篇文章提出了一個(gè)語(yǔ)言模型ERNIE。(我怎么記得百度也有一個(gè)這個(gè)名字的,這篇是清華的)
BERT等PreLM很少考慮和合并KG,KG中的信息實(shí)體可以通過(guò)外部知識(shí)增強(qiáng)語(yǔ)言表示。
大規(guī)模文本語(yǔ)料庫(kù)和KG來(lái)訓(xùn)練增強(qiáng)語(yǔ)言模型ERNIE(充分利用詞匯&語(yǔ)法&知識(shí)信息)
introduction里面前兩段說(shuō)了現(xiàn)有的預(yù)訓(xùn)練語(yǔ)言模型好,但沒(méi)考慮知識(shí),而考慮知識(shí)很關(guān)鍵。所以就提出了ERNIE。
其中,為了將外部知識(shí)整合到語(yǔ)言表示模型中,有兩個(gè)主要挑戰(zhàn)。 (1) Structured Knowledge Encoding:對(duì)于給定的文本,如何在KGs中有效地提取和編碼其相關(guān)的信息事實(shí),用于語(yǔ)言表示模型是一個(gè)重要的問(wèn)題; (2)異構(gòu)信息融合:語(yǔ)言表示的預(yù)訓(xùn)練過(guò)程與知識(shí)表示過(guò)程有很大不同,導(dǎo)致兩個(gè)獨(dú)立的向量空間。如何設(shè)計(jì)一個(gè)特殊的預(yù)訓(xùn)練目標(biāo)來(lái)融合詞法、句法和知識(shí)信息是另一個(gè)挑戰(zhàn)。
然后就說(shuō)了步驟:
1、首先識(shí)別提及的命名實(shí)體;
2、識(shí)別的實(shí)體與KG中的實(shí)體對(duì)齊;
3、