知識(shí)圖譜構(gòu)建流程及應(yīng)用

知識(shí)圖譜的構(gòu)建方法主要有兩種：自底向上和自頂而下。

1. 開放域知識(shí)圖譜的本體構(gòu)建通常用自底向上的方法，自動(dòng)地從知識(shí)圖譜中抽取概念、概念層次和概念之間的關(guān)系。

2. 領(lǐng)域知識(shí)圖譜多采用自頂向下的方法來構(gòu)建本體。一方面，相對(duì)于開放域知識(shí)圖譜，領(lǐng)域知識(shí)圖譜涉及的概念和范圍都是固定或者可控的；另一方面，對(duì)于領(lǐng)域知識(shí)圖譜，要求其滿足較高的精度。自頂向下是先為知識(shí)圖譜定義好本體與數(shù)據(jù)模式，再將實(shí)體加入到知識(shí)庫。該構(gòu)建方式需要利用一些現(xiàn)有的結(jié)構(gòu)化知識(shí)庫作為其基礎(chǔ)知識(shí)庫。

步驟：

1.?信息抽取

信息抽取從各種類型的數(shù)據(jù)源中提取出實(shí)體、屬性以及實(shí)體間的相互關(guān)系，在此基礎(chǔ)上形成本體化的知識(shí)表達(dá)，涉及的關(guān)鍵技術(shù)包括實(shí)體抽取、關(guān)系抽取和屬性抽取。關(guān)鍵問題是如何從異構(gòu)數(shù)據(jù)中自動(dòng)抽取信息到候選指示單元。

a.?實(shí)體抽取

實(shí)體抽取又稱為命名實(shí)體識(shí)別（NER），是指從文本數(shù)據(jù)集中自動(dòng)識(shí)別出命名實(shí)體，其目的就是建立知識(shí)圖譜中的“節(jié)點(diǎn)”。實(shí)體抽取任務(wù)有兩個(gè)關(guān)鍵詞：find & classify，找到命名實(shí)體，并進(jìn)行分類。

主要應(yīng)用：

（1）命名實(shí)體作為索引和超鏈接

（2）情感分析的準(zhǔn)備步驟，在情感分析的文本中需要識(shí)別公司和產(chǎn)品，才能進(jìn)一步為情感詞歸類

（3）關(guān)系抽?。≧elation Extraction）的準(zhǔn)備步驟

（4）QA 系統(tǒng)，大多數(shù)答案都是命名實(shí)體

主要實(shí)現(xiàn)方法和工具：

（1）DeepDive-斯坦福大學(xué)開源知識(shí)抽取工具（三元組抽?。簭母俚慕Y(jié)構(gòu)化數(shù)據(jù)和統(tǒng)計(jì)推斷中提取結(jié)構(gòu)化的知識(shí)而無需編寫任何復(fù)雜的機(jī)器學(xué)習(xí)代碼。

（2）FudanNLP: 主要是為中文自然語言處理而開發(fā)的工具包，也包含為實(shí)現(xiàn)這些任務(wù)的機(jī)器學(xué)習(xí)算法和數(shù)據(jù)集?？梢詫?shí)現(xiàn)中文分詞，詞性標(biāo)注，實(shí)體名識(shí)別，句法分析，時(shí)間表達(dá)式識(shí)別，信息檢索，文本分類，新聞聚類等

FudanNLP GitHub鏈接

（3）NLPIR分詞（中科院）：主要功能包括中文分詞；英文分詞；詞性標(biāo)注；命名實(shí)體識(shí)別；新詞識(shí)別；關(guān)鍵詞提取；支持用戶專業(yè)詞典與微博分析。NLPIR系統(tǒng)支持多種編碼、多種操作系統(tǒng)、多種開發(fā)語言與平臺(tái)。

NLPIR GitHub鏈接

（4）LTP（哈工大）：語言技術(shù)平臺(tái)（Language Technology Platform，LTP）提供了一系列中文自然語言處理工具，用戶可以使用這些工具對(duì)于中文文本進(jìn)行分詞、詞性標(biāo)注、句法分析等等工作。

LTP主頁鏈接

實(shí)體抽取，實(shí)體鏈接（兩個(gè)實(shí)體同一個(gè)含義需要規(guī)整），目前最主流的算法就是CNN+LSTM+CRF進(jìn)行實(shí)體識(shí)別。

b. 關(guān)系抽取

? ? ? ? 文本語料經(jīng)過實(shí)體抽取之后得到的是一系列離散的命名實(shí)體（節(jié)點(diǎn)），為了得到語義信息，還需要從相關(guān)的語料中提取出實(shí)體之間的關(guān)聯(lián)關(guān)系（邊），才能將多個(gè)實(shí)體或概念聯(lián)系起來，形成網(wǎng)狀的知識(shí)結(jié)構(gòu)。研究關(guān)系抽取技術(shù)，就是研究如何解決從文本語料中抽取實(shí)體間的關(guān)系。根據(jù)對(duì)標(biāo)注數(shù)據(jù)的依賴程度，實(shí)體關(guān)系抽取方法可分為有監(jiān)督學(xué)習(xí)方法、半監(jiān)督學(xué)習(xí)方法、無監(jiān)督學(xué)習(xí)方法和開放式抽取方法。

（1）有監(jiān)督的實(shí)體關(guān)系抽取

? ? ? ? 有監(jiān)督學(xué)習(xí)方法是最基本的實(shí)體關(guān)系抽取方法，其主要思想是在已標(biāo)注的訓(xùn)練數(shù)據(jù)的基礎(chǔ)上訓(xùn)練機(jī)器學(xué)習(xí)模型，然后對(duì)測(cè)試數(shù)據(jù)的關(guān)系類型進(jìn)行識(shí)別。有監(jiān)督學(xué)習(xí)方法包括有基于規(guī)則的方法、基于特征的方法和基于核函數(shù)的方法。

? ? ? ? 基于規(guī)則的方法需要根據(jù)待處理語料涉及領(lǐng)域的不同，通過人工或機(jī)器學(xué)習(xí)的方法總結(jié)歸納出相應(yīng)的規(guī)則或模板，然后用模板匹配方法進(jìn)行實(shí)體關(guān)系抽取。

? ? ? ? 基于特征向量的方法是一種簡單、有效的實(shí)體關(guān)系抽取方法，其主要思想是從關(guān)系句子實(shí)例的上下文中提取有用信息( 包括詞法信息、語法信息)作為特征，構(gòu)造特征向量，通過計(jì)算特征向量的相似度來訓(xùn)練實(shí)體關(guān)系抽取模型。該方法的關(guān)鍵在于尋找類間有區(qū)分度的特征，形成多維加權(quán)特征向量，然后采用合適的分類器進(jìn)行分類。

? ? ? ? 基于核函數(shù)的實(shí)體關(guān)系抽取方法，包括詞序列核函數(shù)方法、依存樹核函數(shù)方法、最短路徑依存樹核函數(shù)方法、卷積樹核函數(shù)方法以及它們的組合核函數(shù)方法可和基于特征的實(shí)體關(guān)系抽取方法可以相互補(bǔ)充。

（2）半監(jiān)督的實(shí)體關(guān)系抽取

? ? ? ? 基于 Bootstrapping 的半監(jiān)督實(shí)體關(guān)系抽取方法從包含關(guān)系種子的上下文中總結(jié)出實(shí)體關(guān)系序列模式，然后利用關(guān)系序列模式去發(fā)現(xiàn)更多的關(guān)系種子實(shí)例，形成新的關(guān)系種子集合。

????????基于協(xié)同學(xué)習(xí)(co-learning) 方法，該方法利用兩個(gè)條件獨(dú)立的特征集來提供不同且互補(bǔ)的信息，從而減少標(biāo)注錯(cuò)誤。

（3）無監(jiān)督的實(shí)體關(guān)系抽取

? ? ? ? 無監(jiān)督實(shí)體關(guān)系抽取方法無需依賴實(shí)體關(guān)系標(biāo)注語料，其實(shí)現(xiàn)包括關(guān)系實(shí)例聚類和關(guān)系類型詞選擇兩個(gè)過程。首先根據(jù)實(shí)體對(duì)出現(xiàn)的上下文將相似度高的實(shí)體對(duì)聚為一類，然后選擇具有代表性的詞語來標(biāo)記這種關(guān)系。

（4）開放式實(shí)體關(guān)系抽取

? ? ? ? 該方法能避免針對(duì)特定關(guān)系類型人工構(gòu)建語料庫，可以自動(dòng)完成關(guān)系類型發(fā)現(xiàn)和關(guān)系抽取任務(wù)。通過借助外部領(lǐng)域無關(guān)的實(shí)體知識(shí)庫( 如 DBPedia、YAGO、OpenCyc、FreeBase 或其它領(lǐng)域知識(shí)庫) 將高質(zhì)量的實(shí)體關(guān)系實(shí)例映射到大規(guī)模文本中，根據(jù)文本對(duì)齊方法從中獲得訓(xùn)練數(shù)據(jù)，然后使用監(jiān)督學(xué)習(xí)方法來解決關(guān)系抽取問題。

c. 關(guān)系抽取工具調(diào)研

? ? ? ? 1.實(shí)體間關(guān)系抽取，拿到知識(shí)圖譜最小單元三元組，比較經(jīng)典算法的就是Piece-Wise-CNN和 LSTM+ Attention 。

關(guān)系抽取方法

? ? ? ? 2.DeepKE：基于深度學(xué)習(xí)的開源中文關(guān)系抽取工具

GitHub地址&&OpenKG發(fā)布地址

? ? ? ? 3. DeepDive是斯坦福大學(xué)開發(fā)的信息抽取系統(tǒng)，能處理文本、表格、圖表、圖片等多種格式的無結(jié)構(gòu)數(shù)據(jù)，從中抽取結(jié)構(gòu)化的信息。系統(tǒng)集成了文件分析、信息提取、信息整合、概率預(yù)測(cè)等功能。Deepdive的主要應(yīng)用是特定領(lǐng)域的信息抽取，系統(tǒng)構(gòu)建至今，已在交通、考古、地理、醫(yī)療等多個(gè)領(lǐng)域的項(xiàng)目實(shí)踐中取得了良好的效果；在開放領(lǐng)域的應(yīng)用

CSDN介紹

Deepdive在OpenKG.CN上有一個(gè)中文的教程：中文教程

斯坦福地址：DeepDive

GitHub地址：https://github.com/HazyResearch/deepdive

支持中文的提?。褐С种形牡膁eepdive：斯坦福大學(xué)的開源知識(shí)抽取工具（三元組抽取） - 圖譜 - 開放知識(shí)圖譜

? ? ? ? 4.Standford NLP提供了開放信息抽取OpenIE功能用于提取三元組SPO，所以使用Standford NLP更貼合知識(shí)圖譜構(gòu)建任務(wù)，

? ? ? ? 5.Reverb: 開放三元組抽取http://reverb.cs.washington.edu

Reverb是華盛頓大學(xué)研發(fā)的開放三元組抽取工具，可以從英文句子中抽取形如（augument1, relation, argument2）的三元組。它不需要提前指定關(guān)系，支持全網(wǎng)規(guī)模的信息抽取。

? ? ? ? 6.SOFIE: 抽取鏈接本體及本體間關(guān)系SOFIE

SOFIE是一個(gè)自動(dòng)化本體擴(kuò)展系統(tǒng)，由max planck institute開發(fā)。它可以解析自然語言文件，從文本中抽取基于本體的事件，將它們鏈接到本體上，并基于邏輯推理進(jìn)行消歧。

? ? ? ? 7.OLLIE：開放三元組知識(shí)抽取工具。ollie

華盛頓大學(xué)研發(fā)的知識(shí)庫三元組抽取組件，OLLIE是第二代提取系統(tǒng)。Reverb的抽取建立在文本序列上，而OLLIE則支持基于語法依賴樹的關(guān)系抽取，對(duì)于長線依賴效果更好。

d. 屬性抽取

（1）基于規(guī)則匹配的抽取方法

? ? ? ? 基于模式匹配的抽取方法也叫基于規(guī)則的抽取方法，就是基于事先構(gòu)造一系列規(guī)則來抽取文本中實(shí)體-屬性的方法。這種方法首先定義相關(guān)抽取規(guī)則，如，定義相關(guān)的規(guī)范的tag標(biāo)，或人工編寫正則表達(dá)式，然后將這些規(guī)則與文本進(jìn)行匹配，通過匹配的結(jié)果得到抽取的實(shí)體及其屬性。

? ? ? ? 基于規(guī)則的抽取系統(tǒng)一般由兩部分組成，一個(gè)是一系列關(guān)于抽取規(guī)則的集合，第二是一系列定義匹配策略的集合。

（2）基于模式匹配的實(shí)體-屬性抽取方法

? ? ? ? 基于模式匹配的方法根據(jù)其定義模式的方法可以分成三種：基于手工定義的抽取、基于有監(jiān)督學(xué)習(xí)的抽取和基于迭代的抽取?；谑止ざx方式就是具有通過相關(guān)領(lǐng)域?qū)I(yè)知識(shí)的人員進(jìn)行人工的定義一系列模式?；趯W(xué)習(xí)的方式就是，首先收集相關(guān)語料組成大規(guī)模的語料庫，然后通過人工標(biāo)準(zhǔn)的非結(jié)構(gòu)化例子訓(xùn)練自動(dòng)獲得模式，構(gòu)建具有大量實(shí)體-屬性的知識(shí)庫。基于迭代的方法是首先定義模板元組，讓后對(duì)這些模板元組進(jìn)行迭代，自動(dòng)產(chǎn)生模式，從而進(jìn)行對(duì)實(shí)體-屬性的抽取。

（3）基于關(guān)系分類的實(shí)體-屬性抽取方法

? ? ? ? 基于關(guān)系分類的方法就是將屬性抽取問題轉(zhuǎn)化成關(guān)系分類問題。首先將抽取的兩個(gè)實(shí)體視為一個(gè)樣本，實(shí)體直接的關(guān)系視為標(biāo)簽，然后通過手工的方式構(gòu)建樣本特征，最后依據(jù)這些特征對(duì)樣本進(jìn)行分類，分類的結(jié)果便是實(shí)體之間的關(guān)系，也就是屬性?；陉P(guān)系的抽取方法通常借助機(jī)器學(xué)習(xí)的方法來進(jìn)行，如支持向量機(jī)(SVM)、神經(jīng)網(wǎng)絡(luò)等，通過對(duì)大量語料庫的訓(xùn)練來學(xué)習(xí)分類模型，從而對(duì)實(shí)體-屬性進(jìn)行抽取?；陉P(guān)系分類的方法按照其語料庫的建設(shè)方式可以分為遠(yuǎn)程監(jiān)督的方法和全監(jiān)督的方法?；谶h(yuǎn)程監(jiān)督的方法基本由機(jī)器構(gòu)建語料庫，而基于全監(jiān)督的方法則由人工構(gòu)建語料庫。由于由人工來構(gòu)建語料庫耗費(fèi)大量的時(shí)間和精力，因此通常目前更熱衷于使用遠(yuǎn)程監(jiān)督的方法構(gòu)建語料庫。

（4）基于聚類的實(shí)體-屬性抽取方法

? ? ? ? 基于聚類的方法就是將屬性抽取問題轉(zhuǎn)化成聚類問題。首先構(gòu)建實(shí)體特性向量，然后基于相關(guān)方法對(duì)這些特征向量進(jìn)行聚類，最后得到的聚類就是實(shí)體的屬性。例如對(duì)于類別屬性可以采用弱監(jiān)督的聚類方法，對(duì)應(yīng)產(chǎn)品屬性可以采用無監(jiān) 督的聚類方法等。

2. 知識(shí)融合

? ? ? ? 經(jīng)由信息抽取之后的信息單元間的關(guān)系是扁平化的，缺乏層次性和邏輯性，同時(shí)存在大量冗余甚至錯(cuò)誤的信息碎片。知識(shí)融合旨在解決如何將關(guān)于同一個(gè)實(shí)體或概念的多源描述信息融合起來，將多個(gè)知識(shí)庫中的知識(shí)進(jìn)行整合，形成一個(gè)知識(shí)庫的過程，在這個(gè)過程中，主要關(guān)鍵技術(shù)包含指代消解、實(shí)體消歧、實(shí)體鏈接。

（1）實(shí)體統(tǒng)一（共指消解）

????????多源異構(gòu)數(shù)據(jù)在集成的過程中，通常會(huì)出現(xiàn)一個(gè)現(xiàn)實(shí)世界實(shí)體對(duì)應(yīng)多個(gè)表象的現(xiàn)象，導(dǎo)致這種現(xiàn)象發(fā)生的原因可能是：拼寫錯(cuò)誤、命名規(guī)則不同、名稱變體、縮寫等等。而這種現(xiàn)象會(huì)導(dǎo)致集成后的數(shù)據(jù)存在大量冗余數(shù)據(jù)、不一致數(shù)據(jù)等問題，從而降低了集成后數(shù)據(jù)的質(zhì)量，進(jìn)而影響了基于集成后的數(shù)據(jù)做分析挖掘的結(jié)果。分辨多個(gè)實(shí)體表象是否對(duì)應(yīng)同一個(gè)實(shí)體的問題即為實(shí)體統(tǒng)一。如重名現(xiàn)象，南京航天航空大學(xué)（南航）

（2）實(shí)體消歧

????????實(shí)體消歧的本質(zhì)在于一個(gè)詞有很多可能的意思，也就是在不同的上下文中所表達(dá)的含義不太一樣。如：我的手機(jī)是蘋果。我喜歡吃蘋果。

（3）實(shí)體鏈接（Entity Linking）

? ? ? ? 實(shí)體鏈接（entity linking）是指對(duì)于從非結(jié)構(gòu)化數(shù)據(jù)（如文本）或半結(jié)構(gòu)化數(shù)據(jù)（如表格）中抽取得到的實(shí)體對(duì)象，將其鏈接到知識(shí)庫中對(duì)應(yīng)的正確實(shí)體對(duì)象的操作。其基本思想是首先根據(jù)給定的實(shí)體指稱項(xiàng)，從知識(shí)庫中選出一組候選實(shí)體對(duì)象，然后通過相似度計(jì)算將指稱項(xiàng)鏈接到正確的實(shí)體對(duì)象，通過打分的方法對(duì)指稱項(xiàng)最高的實(shí)體作為目標(biāo)實(shí)體。

a. 知識(shí)融合常見的流程和步驟

1.數(shù)據(jù)預(yù)處理

數(shù)據(jù)預(yù)處理階段，原始數(shù)據(jù)的質(zhì)量會(huì)直接影響到最終鏈接的結(jié)果，不同的數(shù)據(jù)集對(duì)同一實(shí)體的描述方式往往是不相同的，對(duì)這些數(shù)據(jù)進(jìn)行歸一化是提高后續(xù)鏈接精確度的重要步驟。

2.記錄連接

屬性相似度的計(jì)算、實(shí)體相似度的計(jì)算、知識(shí)表示學(xué)習(xí)

3.?知識(shí)融合實(shí)現(xiàn)工具

基于Neo4j?圖數(shù)據(jù)庫的知識(shí)圖譜的實(shí)體對(duì)齊（目前最常用）

3. 知識(shí)加工（Knowledge Processing）

? ? ? ? 海量數(shù)據(jù)在經(jīng)信息抽取、知識(shí)融合之后得到一系列基本的事實(shí)表達(dá)，但這并不等同于知識(shí)，要想獲得結(jié)構(gòu)化，網(wǎng)絡(luò)化的知識(shí)體系，還需要經(jīng)過質(zhì)量評(píng)估之后（部分需要人工參與甄別），才能將合格的部分納入知識(shí)體系中以確保知識(shí)庫的質(zhì)量，這就是知識(shí)加工的過程。知識(shí)加工主要包括3方面內(nèi)容：本體構(gòu)建、知識(shí)推理和質(zhì)量評(píng)估。

2024.04.11

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

【轉(zhuǎn)載摘抄】知識(shí)圖譜的構(gòu)建

【轉(zhuǎn)載摘抄】知識(shí)圖譜的構(gòu)建

知識(shí)圖譜構(gòu)建流程及應(yīng)用

步驟：

1.?信息抽取

a.?實(shí)體抽取

b. 關(guān)系抽取

c. 關(guān)系抽取工具調(diào)研

d. 屬性抽取

2. 知識(shí)融合

a. 知識(shí)融合常見的流程和步驟

3. 知識(shí)加工（Knowledge Processing）

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

【轉(zhuǎn)載摘抄】知識(shí)圖譜的構(gòu)建

知識(shí)圖譜構(gòu)建流程及應(yīng)用

步驟：

1.?信息抽取

a.?實(shí)體抽取

b. 關(guān)系抽取

c. 關(guān)系抽取工具調(diào)研

d. 屬性抽取

2. 知識(shí)融合

a. 知識(shí)融合常見的流程和步驟

3. 知識(shí)加工（Knowledge Processing）

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av