色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

登錄注冊(cè)寫文章

知識(shí)增強(qiáng)的預(yù)訓(xùn)練語言模型系列之ERNIE：如何為預(yù)訓(xùn)練語言模型注入知識(shí)

NLP論文解讀

知識(shí)增強(qiáng)的預(yù)訓(xùn)練語言模型系列之ERNIE：如何為預(yù)訓(xùn)練語言模型注入知識(shí)

?NLP論文解讀 |楊健

論文標(biāo)題：

ERNIE:Enhanced Language Representation with Informative Entities

收錄會(huì)議：ACL

論文鏈接：

https://arxiv.org/abs/1905.07129?

項(xiàng)目地址：

https://github.com/thunlp/ERNIE

問題

論文作者認(rèn)為盡管預(yù)訓(xùn)練語言模型能夠從大規(guī)模文本語料中學(xué)習(xí)到詞法、語法等信息，然而這些預(yù)訓(xùn)練模型卻忽略了知識(shí)圖譜提供的知識(shí)。

這些知識(shí)能夠?yàn)轭A(yù)訓(xùn)練模型提供實(shí)體的語義以及實(shí)體間的關(guān)聯(lián)，從而提高預(yù)訓(xùn)練模型的理解能力。

我們以下面這一句子為例解釋知識(shí)圖譜如何提高預(yù)訓(xùn)練模型的理解能力。

Bob Dylan wrote Blowin’ in the Wind in 1962, and wrote Chronicles: Volume One in 2004.?

如果我們不知道Blowin’ in the Wind是一首歌，而Chronicles: Volume One是一本書，那么模型在實(shí)體分類任務(wù)上將難以推理出Bob Dylan是一名歌手和作家。在關(guān)系分類任務(wù)上也無法推斷出Bob Dylan和Blowin’ in the Wind是創(chuàng)作者的關(guān)系。

此外，由于預(yù)訓(xùn)練模型使用經(jīng)過分詞的子詞（token）作為最小的語義單元，針對(duì)句子中的歌曲和書名短語，由于出現(xiàn)頻率過低，模型可能無法將其識(shí)別為一個(gè)完整的語義單元，從而只能模糊的學(xué)習(xí)到UNK wrote UNK in UNK。

為預(yù)訓(xùn)練模型注入知識(shí)圖譜中的實(shí)體信息和三元組知識(shí)，能夠讓預(yù)訓(xùn)練模型識(shí)別出實(shí)體，并習(xí)得實(shí)體間的關(guān)聯(lián)。

然而知識(shí)的注入面臨著兩個(gè)問題，一個(gè)是給定文本，如何提取出其中的相關(guān)實(shí)體并對(duì)其編碼。二是知識(shí)表示學(xué)習(xí)使用和文本編碼不同的編碼方式，這會(huì)生成語義向量空間異構(gòu)的表示向量，如何融合異構(gòu)向量成為了關(guān)鍵的問題。

解決方案

為了解決上述的兩個(gè)問題，作者提出了下面的解決方案。針對(duì)第一個(gè)問題，作者首先抽取出文本中的實(shí)體。

這一步驟在工程上是通過獲取維基百科的頁面，并將其中帶有超鏈接的名詞或者短語作為實(shí)體。在此基礎(chǔ)上，通過字符串比對(duì)的方式對(duì)齊抽取出的實(shí)體和知識(shí)圖譜中的實(shí)體。

而為了編碼實(shí)體信息，作者使用了TransE對(duì)知識(shí)圖譜中的三元組建模，從而生成表示向量。為了更好的區(qū)分文本中的實(shí)體和知識(shí)圖譜中的實(shí)體，筆者使用指稱項(xiàng)表示文本中出現(xiàn)的實(shí)體，而用實(shí)體表示知識(shí)圖譜中的實(shí)體。

對(duì)于第二個(gè)問題，作者在BERT原有的預(yù)訓(xùn)練任務(wù)基礎(chǔ)上引入實(shí)體預(yù)測任務(wù)，也即作者所指的去噪實(shí)體自編碼（dEA）。具體而言，模型在數(shù)據(jù)準(zhǔn)備階段會(huì)構(gòu)建文本序列和對(duì)應(yīng)的實(shí)體序列，文本指稱項(xiàng)向量會(huì)和實(shí)體向量融合，該融合向量將用于判斷它在圖譜中所代表的實(shí)體。

已有的預(yù)訓(xùn)練模型僅僅利用文本預(yù)測掩碼子詞，而這一任務(wù)則需要預(yù)訓(xùn)練模型同時(shí)利用實(shí)體信息和文本信息預(yù)測，促使了預(yù)訓(xùn)練模型融合實(shí)體知識(shí)。

2.1 模型結(jié)構(gòu)

模型的結(jié)構(gòu)由文本編碼器（T-encoder）和知識(shí)編碼器（K-encoder）所組成。文本編碼器部分采用BERT模型所使用的Transformer編碼層，在具體實(shí)現(xiàn)上作者使用了5層編碼層來構(gòu)成文本編碼器。

知識(shí)編碼器則由7層作者自定義的聚合層所構(gòu)成，主要負(fù)責(zé)實(shí)體信息和文本信息的融合以及編碼。模型結(jié)構(gòu)如下圖所示：

給定文本輸入序列，模型首先使用文本編碼器編碼文本，生成表示向量：

該文本向量w將和經(jīng)過TransE編碼的實(shí)體向量e共同傳入聚合層，聚合層使用兩個(gè)多頭自注意力層MH-ATT分別對(duì)文本和知識(shí)向量編碼：

針對(duì)編碼后的第i層第j個(gè)文本向量和第k個(gè)實(shí)體向量分別進(jìn)行矩陣相乘，將其對(duì)應(yīng)向量相加并經(jīng)過非線性變化，生成融合向量h ：

該融合向量h將分別經(jīng)過兩個(gè)轉(zhuǎn)換矩陣，重新生成攜帶文本信息和圖譜信息的實(shí)體向量和文本向量ek：

這兩個(gè)向量將在輸出層經(jīng)過歸一化和殘差連接。事實(shí)上，知識(shí)編碼器中包含了兩種不同類型的編碼器，一種僅僅對(duì)文本向量進(jìn)行自注意力操作，主要負(fù)責(zé)的是文本向量和實(shí)體向量的求和。另一種才如上文所述，對(duì)兩類向量都進(jìn)行自注意力操作。具體的過程詳見代碼解讀。

2.2 模型的預(yù)訓(xùn)練

除了BERT的兩個(gè)預(yù)訓(xùn)練任務(wù)，作者還引入了針對(duì)掩碼實(shí)體的預(yù)測任務(wù)。考慮到文本指稱項(xiàng)和圖譜中的實(shí)體在對(duì)齊過程中可能會(huì)存在錯(cuò)誤，作者針對(duì)5%的指稱項(xiàng)隨機(jī)挑選一個(gè)實(shí)體與其融合，讓模型在融合錯(cuò)誤實(shí)體的情況下預(yù)測正確實(shí)體，以訓(xùn)練模型的糾錯(cuò)能力。

針對(duì)15%的文本指稱項(xiàng)，作者對(duì)融合實(shí)體信息的文本指稱項(xiàng)進(jìn)行掩碼，并讓模型對(duì)其預(yù)測，以訓(xùn)練模型在沒有獲得所有對(duì)齊實(shí)體信息的情況下，也能正確預(yù)測實(shí)體。

針對(duì)剩余85%的文本指稱項(xiàng)，作者不做任何改變，讓模型從實(shí)體序列和文本序列中學(xué)習(xí)語義，根據(jù)融合后的向量預(yù)測正確實(shí)體。

筆者發(fā)現(xiàn)，作者在工程實(shí)現(xiàn)上并沒有做這部分的實(shí)現(xiàn)，而是沿用BERT模型訓(xùn)練數(shù)據(jù)構(gòu)建部分的代碼。

這也讓筆者猜測，實(shí)體序列的掩碼以及隨機(jī)選擇可能沒有必要，只不過為了工程實(shí)現(xiàn)的便捷，賦予這部分操作一個(gè)合理的理論依據(jù)。

考慮到知識(shí)圖譜中的實(shí)體數(shù)量巨大，如果針對(duì)所有的實(shí)體進(jìn)行預(yù)測將會(huì)大大降低模型的效率。因此，作者僅使用實(shí)體序列中的實(shí)體，利用如下概率分布公式，計(jì)算正確的實(shí)體。

這樣的做法由于縮小了模型的選擇空間，在一定程度上降低了預(yù)測的難度，但提高了預(yù)訓(xùn)練的效率。是一種模型能力與訓(xùn)練時(shí)長的折中。

2.3模型的微調(diào)

作者選擇了實(shí)體分類和關(guān)系分類這兩類知識(shí)密集型任務(wù)用于模型的微調(diào)。關(guān)系分類（relation classification）任務(wù)是指給定文本序列和其中的兩個(gè)實(shí)體，模型需要判斷出兩個(gè)實(shí)體間的關(guān)系。

實(shí)體分類（entity typing）是指給定實(shí)體，模型需要預(yù)測出正確的實(shí)體類型。對(duì)于關(guān)系分類任務(wù)，作者為了能夠標(biāo)識(shí)出實(shí)體的位置，引入了特殊標(biāo)識(shí)符[HD]和[LD]，置于實(shí)體的前后。

同理，為了標(biāo)識(shí)出實(shí)體的位置，引入[ENT]這一符號(hào)，置于實(shí)體的前后。最后，使用[CLS]這一分類符號(hào)用于分類。

實(shí)驗(yàn)

在實(shí)驗(yàn)部分，作者使用實(shí)體分類、關(guān)系分類任務(wù)，以及語言理解任務(wù)GLUE數(shù)據(jù)集測試模型的性能。在實(shí)體分類任務(wù)上的結(jié)果表明，ERNIE遠(yuǎn)超其他基線模型，并且比BERT在召回率和準(zhǔn)確率上都提高了2%。

在關(guān)系分類任務(wù)上的結(jié)果表明，BERT比傳統(tǒng)的基于RNN和CNN的模型在F1值上高出15%以上，而ERNIE比BERT在1值上提高了3.4%，這說明了預(yù)訓(xùn)練模型能夠比傳統(tǒng)基于RNN和CNN的模型學(xué)習(xí)到更多的語義信息，以及知識(shí)注入的有效性。

值得一提的是，作者使用TACRED和FewRel數(shù)據(jù)集進(jìn)行測試，后者的數(shù)據(jù)量比前者小的多，而ERNIE卻在FewRel數(shù)據(jù)集上獲得了更大幅度的性能提升，這也說明了**知識(shí)的注入能夠幫助預(yù)訓(xùn)練模型更好的利用小規(guī)模訓(xùn)練數(shù)據(jù)**，這對(duì)于缺乏大規(guī)模標(biāo)注數(shù)據(jù)的NLP應(yīng)用場景而言意義重大。

除此以外，模型還在GLUE數(shù)據(jù)集上進(jìn)行評(píng)測，結(jié)果表明模型和BERT在總體上取得了相差無幾的成績，這也說明了知識(shí)的注入并沒有影響模型原有的文本編碼能力。

所想所獲

4.1分詞方法

模型在訓(xùn)練之前，需要對(duì)輸入文本進(jìn)行切分，BERT采用的分詞法是WordPiece，這種方法根據(jù)子詞出現(xiàn)的詞頻高低來作為切分詞語的依據(jù)。

這樣會(huì)使得高頻的子詞作為一個(gè)基本的語義單元，其對(duì)應(yīng)的詞向量將習(xí)得某個(gè)語義。然而我們?cè)诂F(xiàn)實(shí)生活中往往會(huì)使用一個(gè)完整的單詞或者短語來表示某個(gè)語義，這就造成模型無法理解這些單詞。

百度團(tuán)隊(duì)所提出的ERNIE[1]通過采用全詞掩碼的策略之所以能夠提升預(yù)訓(xùn)練模型的性能，原因也在于此。

本文針對(duì)文本指稱項(xiàng)經(jīng)過分詞后的第一個(gè)子詞注入實(shí)體信息，雖然能夠通過自注意力層實(shí)現(xiàn)信息的傳遞，但分詞的結(jié)果和實(shí)體的邊界仍然存在鴻溝，筆者認(rèn)為更好的對(duì)齊方式也許能進(jìn)一步提高知識(shí)注入的效果。

4.2知識(shí)注入

本文通過對(duì)知識(shí)圖譜中的三元組表示學(xué)習(xí)，搭建了融合符號(hào)知識(shí)和文本向量的橋梁。然而TransE僅針對(duì)三元組建模，雖然能夠?qū)W習(xí)到兩個(gè)實(shí)體間的關(guān)聯(lián)，但是無法同時(shí)建模多個(gè)實(shí)體的關(guān)聯(lián)。

此外，實(shí)體所在的上下文能為實(shí)體提供更多的語義信息，而TransE無法利用實(shí)體文本信息。與之對(duì)比，預(yù)訓(xùn)練模型則能夠捕捉到豐富的文本信息。

那么是否可能將二者的結(jié)合起來呢，論文[2]就結(jié)合了兩者的優(yōu)點(diǎn)，具體的結(jié)合思路筆者將在后續(xù)文章中進(jìn)行解讀。

另一方面，圖神經(jīng)網(wǎng)絡(luò)擅長捕獲拓?fù)浣Y(jié)構(gòu)的實(shí)體關(guān)聯(lián)信息，而知識(shí)圖譜正是一種不規(guī)則的異構(gòu)圖，使用圖神經(jīng)網(wǎng)絡(luò)對(duì)知識(shí)圖譜進(jìn)行表示學(xué)習(xí)，能夠進(jìn)一步編碼知識(shí)圖譜的拓?fù)浣Y(jié)構(gòu)，從而學(xué)習(xí)多個(gè)實(shí)體的關(guān)聯(lián)信息，進(jìn)一步豐富實(shí)體向量的語義。

此外，知識(shí)的注入依賴于實(shí)體的對(duì)齊，盡管注入的實(shí)體知識(shí)經(jīng)過表示學(xué)習(xí)后也攜帶實(shí)體的關(guān)聯(lián)信息，但如果能使用如關(guān)系等更多的注入載體，那么就能夠?yàn)轭A(yù)訓(xùn)練模型注入關(guān)系向量，增加注入知識(shí)的密度。

以上就是筆者對(duì)論文的解讀，具體的代碼將會(huì)在下篇文章中解讀。

參考文獻(xiàn)：

[1]ERNIE:Enhanced Representation through Knowledge Integration

https://arxiv.org/abs/1904.09223

[2]KEPLER: A Unified Model for Knowledge Embedding and Pre-trained Language Representation

https://direct.mit.edu/tacl/article/doi/10.1162/tacl_a_00360/98089/

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成，瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明：文章內(nèi)容（如有圖片或視頻亦包括在內(nèi)）由作者上傳并發(fā)布，文章內(nèi)容僅代表作者本人觀點(diǎn)，簡書系信息發(fā)布平臺(tái)，僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

知識(shí)增強(qiáng)的預(yù)訓(xùn)練模型簡介
?NLP論文解讀原創(chuàng)?作者| 楊健專欄系列概覽該專欄主要介紹自然語言處理領(lǐng)域目前比較前沿的領(lǐng)域—知識(shí)增強(qiáng)的預(yù)訓(xùn)...
NLP論文解讀閱讀 679評(píng)論 0贊 0
自然語言處理中的常見大規(guī)模預(yù)訓(xùn)練語言模型
1. 預(yù)訓(xùn)練模型簡介過去這三年，對(duì)自然語言是大放異彩的三年，它的一個(gè)標(biāo)志就是基于注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)在自然語言...
逍遙一身閱讀 4,066評(píng)論 0贊 1

綜述：自然語言處理的預(yù)訓(xùn)練模型
翻譯自Xipeng Qiu*,School of Computer Science, Fudan Universi...
京漂的小程序媛兒閱讀 6,963評(píng)論 1贊 5
自然語言預(yù)訓(xùn)練模型大總結(jié)
先來一張圖。本文主要援引復(fù)旦大學(xué)邱錫鵬教授的論文：NLP預(yù)訓(xùn)練模型綜述，對(duì)預(yù)訓(xùn)練模型進(jìn)行了一些梳理模型參數(shù)的數(shù)量...
凌冰_lonny閱讀 6,595評(píng)論 0贊 3
ACL2019論文譯注巴拉克的妻子希拉里：將知識(shí)圖譜用于事實(shí)感知語言建模
原文： Barack’s Wife Hillary: Using Knowledge Graphs for Fac...
張小邪先森閱讀 1,135評(píng)論 0贊 3

友情鏈接更多精彩內(nèi)容

贊1贊

贊賞

手機(jī)看全文

怀远县| 光泽县| 佛教| 华安县| 财经| 建宁县| 晋宁县| 无棣县| 石城县| 温宿县| 施甸县| 陇川县| 阳朔县| 女性| 富锦市| 闽清县| 东乡县| 子洲县| 磴口县| 澜沧| 保山市| 广饶县| 新源县| 托里县| 罗源县| 武功县| 铁岭县| 抚远县| 同江市| 嘉鱼县| 庆城县| 定日县| 仁布县| 广南县| 百色市| 武城县| 齐齐哈尔市| 时尚| 佛教| 中西区| 台安县|