?NLP論文解讀 |楊健
論文標(biāo)題:
ERNIE:Enhanced Language Representation with Informative Entities
收錄會(huì)議:ACL
論文鏈接:
https://arxiv.org/abs/1905.07129?
項(xiàng)目地址:
https://github.com/thunlp/ERNIE
問題
論文作者認(rèn)為盡管預(yù)訓(xùn)練語言模型能夠從大規(guī)模文本語料中學(xué)習(xí)到詞法、語法等信息,然而這些預(yù)訓(xùn)練模型卻忽略了知識(shí)圖譜提供的知識(shí)。
這些知識(shí)能夠?yàn)轭A(yù)訓(xùn)練模型提供實(shí)體的語義以及實(shí)體間的關(guān)聯(lián),從而提高預(yù)訓(xùn)練模型的理解能力。
我們以下面這一句子為例解釋知識(shí)圖譜如何提高預(yù)訓(xùn)練模型的理解能力。
Bob Dylan wrote Blowin’ in the Wind in 1962, and wrote Chronicles: Volume One in 2004.?
如果我們不知道Blowin’ in the Wind是一首歌,而Chronicles: Volume One是一本書,那么模型在實(shí)體分類任務(wù)上將難以推理出Bob Dylan是一名歌手和作家。在關(guān)系分類任務(wù)上也無法推斷出Bob Dylan和Blowin’ in the Wind是創(chuàng)作者的關(guān)系。
此外,由于預(yù)訓(xùn)練模型使用經(jīng)過分詞的子詞(token)作為最小的語義單元,針對(duì)句子中的歌曲和書名短語,由于出現(xiàn)頻率過低,模型可能無法將其識(shí)別為一個(gè)完整的語義單元,從而只能模糊的學(xué)習(xí)到UNK wrote UNK in UNK。
為預(yù)訓(xùn)練模型注入知識(shí)圖譜中的實(shí)體信息和三元組知識(shí),能夠讓預(yù)訓(xùn)練模型識(shí)別出實(shí)體,并習(xí)得實(shí)體間的關(guān)聯(lián)。
然而知識(shí)的注入面臨著兩個(gè)問題,一個(gè)是給定文本,如何提取出其中的相關(guān)實(shí)體并對(duì)其編碼。二是知識(shí)表示學(xué)習(xí)使用和文本編碼不同的編碼方式,這會(huì)生成語義向量空間異構(gòu)的表示向量,如何融合異構(gòu)向量成為了關(guān)鍵的問題。
解決方案
為了解決上述的兩個(gè)問題,作者提出了下面的解決方案。針對(duì)第一個(gè)問題,作者首先抽取出文本中的實(shí)體。
這一步驟在工程上是通過獲取維基百科的頁面,并將其中帶有超鏈接的名詞或者短語作為實(shí)體。在此基礎(chǔ)上,通過字符串比對(duì)的方式對(duì)齊抽取出的實(shí)體和知識(shí)圖譜中的實(shí)體。
而為了編碼實(shí)體信息,作者使用了TransE對(duì)知識(shí)圖譜中的三元組建模,從而生成表示向量。為了更好的區(qū)分文本中的實(shí)體和知識(shí)圖譜中的實(shí)體,筆者使用指稱項(xiàng)表示文本中出現(xiàn)的實(shí)體,而用實(shí)體表示知識(shí)圖譜中的實(shí)體。
對(duì)于第二個(gè)問題,作者在BERT原有的預(yù)訓(xùn)練任務(wù)基礎(chǔ)上引入實(shí)體預(yù)測任務(wù),也即作者所指的去噪實(shí)體自編碼(dEA)。具體而言,模型在數(shù)據(jù)準(zhǔn)備階段會(huì)構(gòu)建文本序列和對(duì)應(yīng)的實(shí)體序列,文本指稱項(xiàng)向量會(huì)和實(shí)體向量融合,該融合向量將用于判斷它在圖譜中所代表的實(shí)體。
已有的預(yù)訓(xùn)練模型僅僅利用文本預(yù)測掩碼子詞,而這一任務(wù)則需要預(yù)訓(xùn)練模型同時(shí)利用實(shí)體信息和文本信息預(yù)測,促使了預(yù)訓(xùn)練模型融合實(shí)體知識(shí)。
2.1 模型結(jié)構(gòu)
模型的結(jié)構(gòu)由文本編碼器(T-encoder)和知識(shí)編碼器(K-encoder)所組成。文本編碼器部分采用BERT模型所使用的Transformer編碼層,在具體實(shí)現(xiàn)上作者使用了5層編碼層來構(gòu)成文本編碼器。
知識(shí)編碼器則由7層作者自定義的聚合層所構(gòu)成,主要負(fù)責(zé)實(shí)體信息和文本信息的融合以及編碼。模型結(jié)構(gòu)如下圖所示:
給定文本輸入序列,模型首先使用文本編碼器編碼文本,生成表示向量:
該文本向量w將和經(jīng)過TransE編碼的實(shí)體向量e共同傳入聚合層,聚合層使用兩個(gè)多頭自注意力層MH-ATT分別對(duì)文本和知識(shí)向量編碼:
針對(duì)編碼后的第i層第j個(gè)文本向量和第k個(gè)實(shí)體向量分別進(jìn)行矩陣相乘,將其對(duì)應(yīng)向量相加并經(jīng)過非線性變化,生成融合向量h :
該融合向量h將分別經(jīng)過兩個(gè)轉(zhuǎn)換矩陣,重新生成攜帶文本信息和圖譜信息的實(shí)體向量和文本向量ek:
這兩個(gè)向量將在輸出層經(jīng)過歸一化和殘差連接。事實(shí)上,知識(shí)編碼器中包含了兩種不同類型的編碼器,一種僅僅對(duì)文本向量進(jìn)行自注意力操作,主要負(fù)責(zé)的是文本向量和實(shí)體向量的求和。另一種才如上文所述,對(duì)兩類向量都進(jìn)行自注意力操作。具體的過程詳見代碼解讀。
2.2 模型的預(yù)訓(xùn)練
除了BERT的兩個(gè)預(yù)訓(xùn)練任務(wù),作者還引入了針對(duì)掩碼實(shí)體的預(yù)測任務(wù)。考慮到文本指稱項(xiàng)和圖譜中的實(shí)體在對(duì)齊過程中可能會(huì)存在錯(cuò)誤,作者針對(duì)5%的指稱項(xiàng)隨機(jī)挑選一個(gè)實(shí)體與其融合,讓模型在融合錯(cuò)誤實(shí)體的情況下預(yù)測正確實(shí)體,以訓(xùn)練模型的糾錯(cuò)能力。
針對(duì)15%的文本指稱項(xiàng),作者對(duì)融合實(shí)體信息的文本指稱項(xiàng)進(jìn)行掩碼,并讓模型對(duì)其預(yù)測,以訓(xùn)練模型在沒有獲得所有對(duì)齊實(shí)體信息的情況下,也能正確預(yù)測實(shí)體。
針對(duì)剩余85%的文本指稱項(xiàng),作者不做任何改變,讓模型從實(shí)體序列和文本序列中學(xué)習(xí)語義,根據(jù)融合后的向量預(yù)測正確實(shí)體。
筆者發(fā)現(xiàn),作者在工程實(shí)現(xiàn)上并沒有做這部分的實(shí)現(xiàn),而是沿用BERT模型訓(xùn)練數(shù)據(jù)構(gòu)建部分的代碼。
這也讓筆者猜測,實(shí)體序列的掩碼以及隨機(jī)選擇可能沒有必要,只不過為了工程實(shí)現(xiàn)的便捷,賦予這部分操作一個(gè)合理的理論依據(jù)。
考慮到知識(shí)圖譜中的實(shí)體數(shù)量巨大,如果針對(duì)所有的實(shí)體進(jìn)行預(yù)測將會(huì)大大降低模型的效率。因此,作者僅使用實(shí)體序列中的實(shí)體,利用如下概率分布公式,計(jì)算正確的實(shí)體。
這樣的做法由于縮小了模型的選擇空間,在一定程度上降低了預(yù)測的難度,但提高了預(yù)訓(xùn)練的效率。是一種模型能力與訓(xùn)練時(shí)長的折中。
2.3模型的微調(diào)
作者選擇了實(shí)體分類和關(guān)系分類這兩類知識(shí)密集型任務(wù)用于模型的微調(diào)。關(guān)系分類(relation classification)任務(wù)是指給定文本序列和其中的兩個(gè)實(shí)體,模型需要判斷出兩個(gè)實(shí)體間的關(guān)系。
實(shí)體分類(entity typing)是指給定實(shí)體,模型需要預(yù)測出正確的實(shí)體類型。對(duì)于關(guān)系分類任務(wù),作者為了能夠標(biāo)識(shí)出實(shí)體的位置,引入了特殊標(biāo)識(shí)符[HD]和[LD],置于實(shí)體的前后。
同理,為了標(biāo)識(shí)出實(shí)體的位置,引入[ENT]這一符號(hào),置于實(shí)體的前后。最后,使用[CLS]這一分類符號(hào)用于分類。
實(shí)驗(yàn)
在實(shí)驗(yàn)部分,作者使用實(shí)體分類、關(guān)系分類任務(wù),以及語言理解任務(wù)GLUE數(shù)據(jù)集測試模型的性能。在實(shí)體分類任務(wù)上的結(jié)果表明,ERNIE遠(yuǎn)超其他基線模型,并且比BERT在召回率和準(zhǔn)確率上都提高了2%。
在關(guān)系分類任務(wù)上的結(jié)果表明,BERT比傳統(tǒng)的基于RNN和CNN的模型在F1值上高出15%以上,而ERNIE比BERT在1值上提高了3.4%,這說明了預(yù)訓(xùn)練模型能夠比傳統(tǒng)基于RNN和CNN的模型學(xué)習(xí)到更多的語義信息,以及知識(shí)注入的有效性。
值得一提的是,作者使用TACRED和FewRel數(shù)據(jù)集進(jìn)行測試,后者的數(shù)據(jù)量比前者小的多,而ERNIE卻在FewRel數(shù)據(jù)集上獲得了更大幅度的性能提升,這也說明了**知識(shí)的注入能夠幫助預(yù)訓(xùn)練模型更好的利用小規(guī)模訓(xùn)練數(shù)據(jù)**,這對(duì)于缺乏大規(guī)模標(biāo)注數(shù)據(jù)的NLP應(yīng)用場景而言意義重大。
除此以外,模型還在GLUE數(shù)據(jù)集上進(jìn)行評(píng)測,結(jié)果表明模型和BERT在總體上取得了相差無幾的成績,這也說明了知識(shí)的注入并沒有影響模型原有的文本編碼能力。
所想所獲
4.1分詞方法
模型在訓(xùn)練之前,需要對(duì)輸入文本進(jìn)行切分,BERT采用的分詞法是WordPiece,這種方法根據(jù)子詞出現(xiàn)的詞頻高低來作為切分詞語的依據(jù)。
這樣會(huì)使得高頻的子詞作為一個(gè)基本的語義單元,其對(duì)應(yīng)的詞向量將習(xí)得某個(gè)語義。然而我們?cè)诂F(xiàn)實(shí)生活中往往會(huì)使用一個(gè)完整的單詞或者短語來表示某個(gè)語義,這就造成模型無法理解這些單詞。
百度團(tuán)隊(duì)所提出的ERNIE[1]通過采用全詞掩碼的策略之所以能夠提升預(yù)訓(xùn)練模型的性能,原因也在于此。
本文針對(duì)文本指稱項(xiàng)經(jīng)過分詞后的第一個(gè)子詞注入實(shí)體信息,雖然能夠通過自注意力層實(shí)現(xiàn)信息的傳遞,但分詞的結(jié)果和實(shí)體的邊界仍然存在鴻溝,筆者認(rèn)為更好的對(duì)齊方式也許能進(jìn)一步提高知識(shí)注入的效果。
4.2知識(shí)注入
本文通過對(duì)知識(shí)圖譜中的三元組表示學(xué)習(xí),搭建了融合符號(hào)知識(shí)和文本向量的橋梁。然而TransE僅針對(duì)三元組建模,雖然能夠?qū)W習(xí)到兩個(gè)實(shí)體間的關(guān)聯(lián),但是無法同時(shí)建模多個(gè)實(shí)體的關(guān)聯(lián)。
此外,實(shí)體所在的上下文能為實(shí)體提供更多的語義信息,而TransE無法利用實(shí)體文本信息。與之對(duì)比,預(yù)訓(xùn)練模型則能夠捕捉到豐富的文本信息。
那么是否可能將二者的結(jié)合起來呢,論文[2]就結(jié)合了兩者的優(yōu)點(diǎn),具體的結(jié)合思路筆者將在后續(xù)文章中進(jìn)行解讀。
另一方面,圖神經(jīng)網(wǎng)絡(luò)擅長捕獲拓?fù)浣Y(jié)構(gòu)的實(shí)體關(guān)聯(lián)信息,而知識(shí)圖譜正是一種不規(guī)則的異構(gòu)圖,使用圖神經(jīng)網(wǎng)絡(luò)對(duì)知識(shí)圖譜進(jìn)行表示學(xué)習(xí),能夠進(jìn)一步編碼知識(shí)圖譜的拓?fù)浣Y(jié)構(gòu),從而學(xué)習(xí)多個(gè)實(shí)體的關(guān)聯(lián)信息,進(jìn)一步豐富實(shí)體向量的語義。
此外,知識(shí)的注入依賴于實(shí)體的對(duì)齊,盡管注入的實(shí)體知識(shí)經(jīng)過表示學(xué)習(xí)后也攜帶實(shí)體的關(guān)聯(lián)信息,但如果能使用如關(guān)系等更多的注入載體,那么就能夠?yàn)轭A(yù)訓(xùn)練模型注入關(guān)系向量,增加注入知識(shí)的密度。
以上就是筆者對(duì)論文的解讀,具體的代碼將會(huì)在下篇文章中解讀。
參考文獻(xiàn):
[1]ERNIE:Enhanced Representation through Knowledge Integration
https://arxiv.org/abs/1904.09223
[2]KEPLER: A Unified Model for Knowledge Embedding and Pre-trained Language Representation
https://direct.mit.edu/tacl/article/doi/10.1162/tacl_a_00360/98089/