目錄
行業(yè)知識圖譜簡介
行業(yè)知識圖譜應(yīng)用
行業(yè)KG應(yīng)用挑戰(zhàn)
行業(yè)知識圖譜生命周期
行業(yè)知識圖譜簡介
行業(yè)知識圖譜工具:Palantir

行業(yè)KG應(yīng)用
金融證券——企業(yè)知識圖譜
應(yīng)用——企業(yè)風(fēng)險評估
應(yīng)用——企業(yè)社交圖譜查詢
應(yīng)用——企業(yè)最終控制人查詢
應(yīng)用——企業(yè)之間路徑發(fā)現(xiàn)
應(yīng)用——初創(chuàng)企業(yè)融資發(fā)展歷程
應(yīng)用——上市企業(yè)智能問答
金融證券——金融交易知識圖譜
應(yīng)用——輔助信貸審核
應(yīng)用——反欺詐、組團(tuán)欺詐
- 醫(yī)療知識圖譜
- 圖書情報
行業(yè)知識圖譜應(yīng)用挑戰(zhàn)

行業(yè)知識圖譜生命周期

- RDF:三元組(triple)模型,SPO(主謂賓)
- OWL:RDF Schema的擴(kuò)展
包括:復(fù)雜類;屬性約束;屬性特征;屬性鏈 - SPARQL
RDF查詢語言:基于RDF數(shù)據(jù)類型
SPARQL查詢圖可視化
本體(ontology)可以填充知識與查詢之間的間隙,具有推理的能力
- 知識建模
建立知識圖譜的數(shù)據(jù)模式。行業(yè)知識圖譜的數(shù)據(jù)模式對整個知識圖譜的結(jié)構(gòu)進(jìn)行定義,因此需要保證可靠性。
常用方法:
- 自頂向下的方法:專家手工編輯形成數(shù)據(jù)模式
- 自底向上的方法:基于現(xiàn)有的標(biāo)準(zhǔn)進(jìn)行轉(zhuǎn)換;
從現(xiàn)有的高質(zhì)量行業(yè)數(shù)據(jù)源中進(jìn)行映射。
-
知識獲取
知識獲取方式 - 知識融合
- 數(shù)據(jù)模式層融合
概念合并
概念上下位關(guān)系合并
概念的屬性定義合并 - 數(shù)據(jù)層融合
實(shí)體合并
實(shí)體屬性融合
沖突檢測與解決
- 知識存儲
三元組知識的存儲;
事件信息的存儲
時態(tài)信息的存儲;
使用知識圖譜組織的數(shù)據(jù)的存儲
- 知識圖譜上層應(yīng)用需要支持:
知識推理;
知識快速查詢;
圖實(shí)時計算
- 知識計算
圖挖掘計算:基于圖論的相關(guān)算法,實(shí)現(xiàn)對圖譜的探索和挖掘;
本體推理:使用本體推理進(jìn)行新知識發(fā)現(xiàn)或沖突檢測;
基于規(guī)則的推理:使用規(guī)則引擎,編寫相應(yīng)的業(yè)務(wù)規(guī)則,通過推理輔助業(yè)務(wù)決策。 - 知識應(yīng)用
一站式工具
- LOD2
-
Stardog
把關(guān)系數(shù)據(jù)庫映射成虛擬圖;
支持OWL2的推理;
支持Gremlim;
但Stardog僅包含對結(jié)構(gòu)化數(shù)據(jù)(RDBMS,Excel等)的處理,沒有針對非結(jié)構(gòu)化數(shù)據(jù)的知識抽取,沒有知識融合的功能。
1 知識建模
- 以實(shí)體為主要目標(biāo),實(shí)現(xiàn)對不同來源的數(shù)據(jù)進(jìn)行映射與合并。(實(shí)體抽取與合并)
- 利用屬性來表示不同數(shù)據(jù)源中針對實(shí)體的描述,形成對實(shí)體的全方位描述。(屬性映射與歸并)
- 利用關(guān)系來描述各類抽象建模成實(shí)體的數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,從而支持關(guān)聯(lián)分析。(關(guān)系抽?。?/li>
- 通過實(shí)體鏈接技術(shù),實(shí)現(xiàn)圍繞實(shí)體的多種類型數(shù)據(jù)的關(guān)聯(lián)存儲。(實(shí)體鏈接)
- 使用事件機(jī)制描述客觀世界中動態(tài)發(fā)展,體現(xiàn)事件與實(shí)體間的關(guān)聯(lián);并利用時序描述事件的發(fā)展?fàn)顩r。(動態(tài)事件描述)
知識建模工具——Protege
本體編輯器;
基于RDF(S),OWL等語義網(wǎng)規(guī)范;
圖形化界面;
提供了在線版本——WebProtege
適用于原型構(gòu)建場景
構(gòu)建一個適用的建模工具
- 在線并發(fā)編輯支持;
- 多用戶共同編輯;上下位關(guān)系定義,屬性定義編輯
- 提供導(dǎo)入、集成功能;
- 以存儲為橋梁,可以對自動算法的結(jié)果進(jìn)行編輯;
- 支持對動態(tài)事件數(shù)據(jù)的建模,使用時態(tài)信息存儲實(shí)現(xiàn)事件時間描述;
- 支持大數(shù)據(jù)量的知識圖譜編輯。
2 知識獲取
結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化,非結(jié)構(gòu)化
- D2R工具——D2RQ
將關(guān)系數(shù)據(jù)庫轉(zhuǎn)換為虛擬的RDF數(shù)據(jù)庫的平臺 - 包裝器
半結(jié)構(gòu)化行業(yè)數(shù)據(jù)源解析 - 文本信息抽取
OpenIE:面向開放領(lǐng)域抽取信息
工具:ReVerb、TextRunner
CloseIE:面向特定領(lǐng)域抽取信息
工具:DeepDive
3 知識融合
包括數(shù)據(jù)模式層(概念、概念的上下位關(guān)系、概念的屬性)的融合與數(shù)據(jù)層的融合
4 知識存儲
兩種方式:RDF存儲和圖數(shù)據(jù)庫(Graph Database)
常見的圖數(shù)據(jù)存儲——Graph DBMS
- Neo4j
原生圖存儲和處理;
支持ACID事務(wù)處理;
不適用Schema
5 知識計算
1 圖挖掘計算
- 圖遍歷:廣度優(yōu)先遍歷,深度優(yōu)先遍歷
- 最短路徑查詢:Dijkstra、Floyd
- 路徑探尋:給定兩個或多個節(jié)點(diǎn),發(fā)現(xiàn)它們之間的關(guān)聯(lián)關(guān)系
- 權(quán)威節(jié)點(diǎn)分析:PageRank算法
- 族群發(fā)現(xiàn):最大流算法
- 相似節(jié)點(diǎn)發(fā)現(xiàn):基于節(jié)點(diǎn)屬性、關(guān)系的相似度算法
2 基于本體的推理
- 基于表運(yùn)算及改進(jìn)的方法:FaCT++、Racer、Pellet Hermit等
- 基于一階查詢重寫的方法(Ontology based data access)
- 基于產(chǎn)生式規(guī)則的算法(如rete):Jena、Sesame、OWLIM等
- 基于Datalog轉(zhuǎn)換的方法如KAON、RDFox等
- 回答集程序 Answer set programming
3 基于規(guī)則的推理
工具:Drools 規(guī)則定義
6 知識應(yīng)用
- 語義搜索
基于實(shí)體鏈接的語義搜索;
基于知識圖譜的語義搜索 - 智能問答
基于信息檢索的方法
基于語義解析的方法
基于規(guī)則的專家系統(tǒng)的方法
基于深度學(xué)習(xí)的方法
優(yōu)點(diǎn):實(shí)現(xiàn)“端到端”的問答,把問題與答案均使用復(fù)雜的特征向量表示,使用深度學(xué)習(xí)來計算問題與答案的相似度。 -
可視化輔助決策
工具:D3.js,ECharts
知識圖譜總覽
知識圖譜相關(guān)書籍:
Exploiting Linked Data and Knowledge Graphs in Large Organisations

