【轉(zhuǎn)載摘抄】知識(shí)圖譜的構(gòu)建

先po原文

知識(shí)圖譜構(gòu)建流程及應(yīng)用

知識(shí)圖譜的構(gòu)建方法主要有兩種:自底向上和自頂而下。

1. 開放域知識(shí)圖譜的本體構(gòu)建通常用自底向上的方法,自動(dòng)地從知識(shí)圖譜中抽取概念、概念層次和概念之間的關(guān)系。

2. 領(lǐng)域知識(shí)圖譜多采用自頂向下的方法來構(gòu)建本體。一方面,相對(duì)于開放域知識(shí)圖譜,領(lǐng)域知識(shí)圖譜涉及的概念和范圍都是固定或者可控的;另一方面,對(duì)于領(lǐng)域知識(shí)圖譜,要求其滿足較高的精度。自頂向下是先為知識(shí)圖譜定義好本體與數(shù)據(jù)模式,再將實(shí)體加入到知識(shí)庫。該構(gòu)建方式需要利用一些現(xiàn)有的結(jié)構(gòu)化知識(shí)庫作為其基礎(chǔ)知識(shí)庫。

步驟:

1.?信息抽取

信息抽取從各種類型的數(shù)據(jù)源中提取出實(shí)體、屬性以及實(shí)體間的相互關(guān)系,在此基礎(chǔ)上形成本體化的知識(shí)表達(dá),涉及的關(guān)鍵技術(shù)包括實(shí)體抽取、關(guān)系抽取和屬性抽取。關(guān)鍵問題是如何從異構(gòu)數(shù)據(jù)中自動(dòng)抽取信息到候選指示單元。

a.?實(shí)體抽取

實(shí)體抽取又稱為命名實(shí)體識(shí)別(NER),是指從文本數(shù)據(jù)集中自動(dòng)識(shí)別出命名實(shí)體,其目的就是建立知識(shí)圖譜中的“節(jié)點(diǎn)”。 實(shí)體抽取任務(wù)有兩個(gè)關(guān)鍵詞:find & classify,找到命名實(shí)體,并進(jìn)行分類。

主要應(yīng)用:

(1)命名實(shí)體作為索引和超鏈接

(2)情感分析的準(zhǔn)備步驟,在情感分析的文本中需要識(shí)別公司和產(chǎn)品,才能進(jìn)一步為情感詞歸類

(3)關(guān)系抽?。≧elation Extraction)的準(zhǔn)備步驟

(4)QA 系統(tǒng),大多數(shù)答案都是命名實(shí)體

主要實(shí)現(xiàn)方法和工具:

(1)DeepDive-斯坦福大學(xué)開源知識(shí)抽取工具(三元組抽?。簭母俚慕Y(jié)構(gòu)化數(shù)據(jù)和統(tǒng)計(jì)推斷中提取結(jié)構(gòu)化的知識(shí)而無需編寫任何復(fù)雜的機(jī)器學(xué)習(xí)代碼。

(2)FudanNLP: 主要是為中文自然語言處理而開發(fā)的工具包,也包含為實(shí)現(xiàn)這些任務(wù)的機(jī)器學(xué)習(xí)算法和數(shù)據(jù)集??梢詫?shí)現(xiàn)中文分詞,詞性標(biāo)注,實(shí)體名識(shí)別,句法分析,時(shí)間表達(dá)式識(shí)別,信息檢索,文本分類,新聞聚類等

FudanNLP GitHub鏈接

(3)NLPIR分詞 (中科院):主要功能包括中文分詞;英文分詞;詞性標(biāo)注;命名實(shí)體識(shí)別;新詞識(shí)別;關(guān)鍵詞提取;支持用戶專業(yè)詞典與微博分析。NLPIR系統(tǒng)支持多種編碼、多種操作系統(tǒng)、多種開發(fā)語言與平臺(tái)。

NLPIR GitHub鏈接

(4)LTP(哈工大):語言技術(shù)平臺(tái)(Language Technology Platform,LTP)提供了一系列中文自然語言處理工具,用戶可以使用這些工具對(duì)于中文文本進(jìn)行分詞、詞性標(biāo)注、句法分析等等工作。

LTP主頁鏈接

實(shí)體抽取,實(shí)體鏈接(兩個(gè)實(shí)體同一個(gè)含義需要規(guī)整),目前最主流的算法就是CNN+LSTM+CRF進(jìn)行實(shí)體識(shí)別。

b. 關(guān)系抽取

? ? ? ? 文本語料經(jīng)過實(shí)體抽取之后得到的是一系列離散的命名實(shí)體(節(jié)點(diǎn)),為了得到語義信息,還需要從相關(guān)的語料中提取出實(shí)體之間的關(guān)聯(lián)關(guān)系(邊),才能將多個(gè)實(shí)體或概念聯(lián)系起來,形成網(wǎng)狀的知識(shí)結(jié)構(gòu)。研究關(guān)系抽取技術(shù),就是研究如何解決從文本語料中抽取實(shí)體間的關(guān)系。根據(jù)對(duì)標(biāo)注數(shù)據(jù)的依賴程度,實(shí)體關(guān)系抽取方法可分為有監(jiān)督學(xué)習(xí)方法、半監(jiān)督學(xué)習(xí)方法、無監(jiān)督學(xué)習(xí)方法和開放式抽取方法。

(1) 有監(jiān)督的實(shí)體關(guān)系抽取

? ? ? ? 有監(jiān)督學(xué)習(xí)方法是最基本的實(shí)體關(guān)系抽取方法,其主要思想是在已標(biāo)注的訓(xùn)練數(shù)據(jù)的基礎(chǔ)上訓(xùn)練機(jī)器學(xué)習(xí)模型,然后對(duì)測(cè)試數(shù)據(jù)的關(guān)系類型進(jìn)行識(shí)別。有監(jiān)督學(xué)習(xí)方法包括有基于規(guī)則的方法、基于特征的方法和基于核函數(shù)的方法。

? ? ? ? 基于規(guī)則的方法需要根據(jù)待處理語料涉及領(lǐng)域的不同,通過人工或機(jī)器學(xué)習(xí)的方法總結(jié)歸納出相應(yīng)的規(guī)則或模板,然后用模板匹配方法進(jìn)行實(shí)體關(guān)系抽取。

? ? ? ? 基于特征向量的方法是一種簡單、有效的實(shí)體關(guān)系抽取方法,其主要思想是從關(guān)系句子實(shí)例的上下文中提取有用信息( 包括詞法信息、語法信息)作為特征,構(gòu)造特征向量, 通過計(jì)算特征向量的相似度來訓(xùn)練實(shí)體關(guān)系抽取模型。該方法的關(guān)鍵在于尋找類間有區(qū)分度的特征,形成多維加權(quán)特征向量,然后采用合適的分類器進(jìn)行分類。

? ? ? ? 基于核函數(shù)的實(shí)體關(guān)系抽取方法,包括詞序列核函數(shù)方法、依存樹核函數(shù)方法、最短路徑依存樹核函數(shù)方法、卷積樹核函數(shù)方法以及它們的組合核函數(shù)方法可和基于特征的實(shí)體關(guān)系抽取方法可以相互補(bǔ)充。

(2)半監(jiān)督的實(shí)體關(guān)系抽取

? ? ? ? 基于 Bootstrapping 的半監(jiān)督實(shí)體關(guān)系抽取方法從包含關(guān)系種子的上下文中總結(jié)出實(shí)體關(guān)系序列模式,然后利用關(guān)系序列模式去發(fā)現(xiàn)更多的關(guān)系種子實(shí)例,形成新的關(guān)系種子集合。

????????基于協(xié)同學(xué)習(xí)(co-learning) 方法, 該方法利用兩個(gè)條件獨(dú)立的特征集來提供不同且互補(bǔ)的信息,從而減少標(biāo)注錯(cuò)誤。

(3)無監(jiān)督的實(shí)體關(guān)系抽取

? ? ? ? 無監(jiān)督實(shí)體關(guān)系抽取方法無需依賴實(shí)體關(guān)系標(biāo)注語料,其實(shí)現(xiàn)包括關(guān)系實(shí)例聚類和關(guān)系類型詞選擇兩個(gè)過程。首先根據(jù)實(shí)體對(duì)出現(xiàn)的上下文將相似度高的實(shí)體對(duì)聚為一類,然后選擇具有代表性的詞語來標(biāo)記這種關(guān)系。

(4)開放式實(shí)體關(guān)系抽取

? ? ? ? 該方法能避免針對(duì)特定關(guān)系類型人工構(gòu)建語料庫,可以自動(dòng)完成關(guān)系類型發(fā)現(xiàn)和關(guān)系抽取任務(wù)。通過借助外部領(lǐng)域無關(guān)的實(shí)體知識(shí)庫( 如 DBPedia、YAGO、OpenCyc、FreeBase 或其它領(lǐng)域知識(shí)庫) 將高質(zhì)量的實(shí)體關(guān)系實(shí)例映射到大規(guī)模文本中,根據(jù)文本對(duì)齊方法從中獲得訓(xùn)練數(shù)據(jù),然后使用監(jiān)督學(xué)習(xí)方法來解決關(guān)系抽取問題。

c. 關(guān)系抽取工具調(diào)研

? ? ? ? 1.實(shí)體間關(guān)系抽取,拿到知識(shí)圖譜最小單元三元組,比較經(jīng)典算法的就是Piece-Wise-CNN和 LSTM+ Attention 。

關(guān)系抽取方法

? ? ? ? 2.DeepKE:基于深度學(xué)習(xí)的開源中文關(guān)系抽取工具

GitHub地址&&OpenKG發(fā)布地址

? ? ? ? 3. DeepDive是斯坦福大學(xué)開發(fā)的信息抽取系統(tǒng),能處理文本、表格、圖表、圖片等多種格式的無結(jié)構(gòu)數(shù)據(jù),從中抽取結(jié)構(gòu)化的信息。系統(tǒng)集成了文件分析、信息提取、信息整合、概率預(yù)測(cè)等功能。Deepdive的主要應(yīng)用是特定領(lǐng)域的信息抽取,系統(tǒng)構(gòu)建至今,已在交通、考古、地理、醫(yī)療等多個(gè)領(lǐng)域的項(xiàng)目實(shí)踐中取得了良好的效果;在開放領(lǐng)域的應(yīng)用

CSDN介紹

Deepdive在OpenKG.CN上有一個(gè)中文的教程:中文教程

斯坦福地址:DeepDive

GitHub地址:https://github.com/HazyResearch/deepdive

支持中文的提?。褐С种形牡膁eepdive:斯坦福大學(xué)的開源知識(shí)抽取工具(三元組抽取) - 圖譜 - 開放知識(shí)圖譜

? ? ? ? 4.Standford NLP提供了開放信息抽取OpenIE功能用于提取三元組SPO,所以使用Standford NLP更貼合知識(shí)圖譜構(gòu)建任務(wù),

? ? ? ? 5.Reverb: 開放三元組抽取http://reverb.cs.washington.edu

Reverb是華盛頓大學(xué)研發(fā)的開放三元組抽取工具,可以從英文句子中抽取形如(augument1, relation, argument2)的三元組。它不需要提前指定關(guān)系,支持全網(wǎng)規(guī)模的信息抽取。

? ? ? ? 6.SOFIE: 抽取鏈接本體及本體間關(guān)系SOFIE

SOFIE是一個(gè)自動(dòng)化本體擴(kuò)展系統(tǒng),由max planck institute開發(fā)。它可以解析自然語言文件,從文本中抽取基于本體的事件,將它們鏈接到本體上,并基于邏輯推理進(jìn)行消歧。

? ? ? ? 7.OLLIE:開放三元組知識(shí)抽取工具。ollie

華盛頓大學(xué)研發(fā)的知識(shí)庫三元組抽取組件,OLLIE是第二代提取系統(tǒng)。Reverb的抽取建立在文本序列上,而OLLIE則支持基于語法依賴樹的關(guān)系抽取,對(duì)于長線依賴效果更好。

d. 屬性抽取

(1)基于規(guī)則匹配的抽取方法

? ? ? ? 基于模式匹配的抽取方法也叫基于規(guī)則的抽取方法,就是基于事先構(gòu)造一系列規(guī)則來抽取文本中實(shí)體-屬性的方法。這種方法首先定義相關(guān)抽取規(guī)則,如,定義相關(guān)的規(guī)范的tag標(biāo),或人工編寫正則表達(dá)式,然后將這些規(guī)則與文本進(jìn)行匹配,通過匹配的結(jié)果得到抽取的實(shí)體及其屬性。

? ? ? ? 基于規(guī)則的抽取系統(tǒng)一般由兩部分組成,一個(gè)是一系列關(guān)于抽取規(guī)則的集合,第二是一系列定義匹配策略的集合。

(2)基于模式匹配的實(shí)體-屬性抽取方法

? ? ? ? 基于模式匹配的方法根據(jù)其定義模式的方法可以分成三種:基于手工定義的抽取、基于有監(jiān)督學(xué)習(xí)的抽取和基于迭代的抽取?;谑止ざx方式就是具有通過相關(guān)領(lǐng)域?qū)I(yè)知識(shí)的人員進(jìn)行人工的定義一系列模式?;趯W(xué)習(xí)的方式就是,首先收集相關(guān)語料組成大規(guī)模的語料庫,然后通過人工標(biāo)準(zhǔn)的非結(jié)構(gòu)化例子訓(xùn)練自動(dòng)獲得模式,構(gòu)建具有大量實(shí)體-屬性的知識(shí)庫。基于迭代的方法是首先定義模板元組,讓后對(duì)這些模板元組進(jìn)行迭代,自動(dòng)產(chǎn)生模式,從而進(jìn)行對(duì)實(shí)體-屬性的抽取。

(3)基于關(guān)系分類的實(shí)體-屬性抽取方法

? ? ? ? 基于關(guān)系分類的方法就是將屬性抽取問題轉(zhuǎn)化成關(guān)系分類問題。首先將抽取的兩個(gè)實(shí)體視為一個(gè)樣本,實(shí)體直接的關(guān)系視為標(biāo)簽,然后通過手工的方式構(gòu)建樣本特征,最后依據(jù)這些特征對(duì)樣本進(jìn)行分類,分類的結(jié)果便是實(shí)體之間的關(guān)系,也就是屬性?;陉P(guān)系的抽取方法通常借助機(jī)器學(xué)習(xí)的方法來進(jìn)行,如支持向量機(jī)(SVM)、神經(jīng)網(wǎng)絡(luò)等,通過對(duì)大量語料庫的訓(xùn)練來學(xué)習(xí)分類模型,從而對(duì)實(shí)體-屬性進(jìn)行抽取?;陉P(guān)系分類的方法按照其語料庫的建設(shè)方式可以分為遠(yuǎn)程監(jiān)督的方法和全監(jiān)督的方法?;谶h(yuǎn)程監(jiān)督的方法基本由機(jī)器構(gòu)建語 料庫,而基于全監(jiān)督的方法則由人工構(gòu)建語料庫。由于由人工 來構(gòu)建語料庫耗費(fèi)大量的時(shí)間和精力,因此通常目前更熱衷于 使用遠(yuǎn)程監(jiān)督的方法構(gòu)建語料庫。

(4)基于聚類的實(shí)體-屬性抽取方法

? ? ? ? 基于聚類的方法就是將屬性抽取問題轉(zhuǎn)化成聚類問題。首先構(gòu)建實(shí)體特性向量,然后基于相關(guān)方法對(duì)這些特征向量進(jìn)行聚類,最后得到的聚類就是實(shí)體的屬性。例如對(duì)于類別屬性可以采用弱監(jiān)督的聚類方法,對(duì)應(yīng)產(chǎn)品屬性可以采用無監(jiān) 督的聚類方法等。

2. 知識(shí)融合

? ? ? ? 經(jīng)由信息抽取之后的信息單元間的關(guān)系是扁平化的,缺乏層次性和邏輯性,同時(shí)存在大量冗余甚至錯(cuò)誤的信息碎片。知識(shí)融合旨在解決如何將關(guān)于同一個(gè)實(shí)體或概念的多源描述信息融合起來,將多個(gè)知識(shí)庫中的知識(shí)進(jìn)行整合,形成一個(gè)知識(shí)庫的過程,在這個(gè)過程中,主要關(guān)鍵技術(shù)包含指代消解、實(shí)體消歧、實(shí)體鏈接。

(1)實(shí)體統(tǒng)一(共指消解)

????????多源異構(gòu)數(shù)據(jù)在集成的過程中,通常會(huì)出現(xiàn)一個(gè)現(xiàn)實(shí)世界實(shí)體對(duì)應(yīng)多個(gè)表象的現(xiàn)象,導(dǎo)致這種現(xiàn)象發(fā)生的原因可能是:拼寫錯(cuò)誤、命名規(guī)則不同、名稱變體、縮寫等等。而這種現(xiàn)象會(huì)導(dǎo)致集成后的數(shù)據(jù)存在大量冗余數(shù)據(jù)、不一致數(shù)據(jù)等問題,從而降低了集成后數(shù)據(jù)的質(zhì)量,進(jìn)而影響了基于集成后的數(shù)據(jù)做分析挖掘的結(jié)果。分辨多個(gè)實(shí)體表象是否對(duì)應(yīng)同一個(gè)實(shí)體的問題即為實(shí)體統(tǒng)一。如重名現(xiàn)象,南京航天航空大學(xué)(南航)

(2)實(shí)體消歧

????????實(shí)體消歧的本質(zhì)在于一個(gè)詞有很多可能的意思,也就是在不同的上下文中所表達(dá)的含義不太一樣。如:我的手機(jī)是蘋果。我喜歡吃蘋果。

(3)實(shí)體鏈接(Entity Linking)

? ? ? ? 實(shí)體鏈接(entity linking)是指對(duì)于從非結(jié)構(gòu)化數(shù)據(jù)(如文本)或半結(jié)構(gòu)化數(shù)據(jù)(如表格)中抽取得到的實(shí)體對(duì)象,將其鏈接到知識(shí)庫中對(duì)應(yīng)的正確實(shí)體對(duì)象的操作。其基本思想是首先根據(jù)給定的實(shí)體指稱項(xiàng),從知識(shí)庫中選出一組候選實(shí)體對(duì)象,然后通過相似度計(jì)算將指稱項(xiàng)鏈接到正確的實(shí)體對(duì)象,通過打分的方法對(duì)指稱項(xiàng)最高的實(shí)體作為目標(biāo)實(shí)體。

a. 知識(shí)融合常見的流程和步驟

1.數(shù)據(jù)預(yù)處理

數(shù)據(jù)預(yù)處理階段,原始數(shù)據(jù)的質(zhì)量會(huì)直接影響到最終鏈接的結(jié)果,不同的數(shù)據(jù)集對(duì)同一實(shí)體的描述方式往往是不相同的,對(duì)這些數(shù)據(jù)進(jìn)行歸一化是提高后續(xù)鏈接精確度的重要步驟。

2.記錄連接

屬性相似度的計(jì)算、實(shí)體相似度的計(jì)算、知識(shí)表示學(xué)習(xí)

3.?知識(shí)融合實(shí)現(xiàn)工具

基于Neo4j?圖數(shù)據(jù)庫的知識(shí)圖譜的實(shí)體對(duì)齊(目前最常用)

3. 知識(shí)加工(Knowledge Processing)

? ? ? ? 海量數(shù)據(jù)在經(jīng)信息抽取、知識(shí)融合之后得到一系列基本的事實(shí)表達(dá),但這并不等同于知識(shí),要想獲得結(jié)構(gòu)化,網(wǎng)絡(luò)化的知識(shí)體系,還需要經(jīng)過質(zhì)量評(píng)估之后(部分需要人工參與甄別),才能將合格的部分納入知識(shí)體系中以確保知識(shí)庫的質(zhì)量,這就是知識(shí)加工的過程。知識(shí)加工主要包括3方面內(nèi)容:本體構(gòu)建、知識(shí)推理和質(zhì)量評(píng)估。

2024.04.11


?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容