大綱
- 什么是知識融合
- 知識融合的基本技術(shù)流程
- 典型知識融合工具簡介
- 典型案例簡介
zhishi.me
openkg.link - LIMES實戰(zhàn)演練
什么是知識融合
目標:融合個層面的知識
合并兩個知識圖譜(本體),需要確認:
等價實例;
等價類/子類;
等價屬性/子屬性
來源于不同知識庫的同一實體
知識圖譜的構(gòu)建經(jīng)常需要融合多種不同來源的數(shù)據(jù)
實體對齊是知識圖譜融合的主要工作
中文百科中的等價實例——唐三藏-玄奘-金蟬子
概念層知識融合
跨語言知識融合
知識在線融合
Google Knowlegle Vault
- 名詞術(shù)語
知識融合
本體匹配
本體對齊
Record Linkage
Entity Resolution
實體對齊 - 知識融合的主要技術(shù)挑戰(zhàn)
數(shù)據(jù)質(zhì)量的挑戰(zhàn)
數(shù)據(jù)規(guī)模的挑戰(zhàn)
知識融合競賽——OAEI
知識融合的基本技術(shù)流程
一般分為兩部,本體對齊和實體匹配

基本流程
數(shù)據(jù)預(yù)處理
語法正規(guī)化
數(shù)據(jù)正規(guī)化
記錄鏈接
- 屬性相似度
編輯距離:用最少的編輯操作將一個字符串轉(zhuǎn)成另一個;(插入,刪除,替換)3次
動態(tài)規(guī)劃算法
集合相似度計算;Dice系數(shù),Jaccard系數(shù)
基于向量的相似度計算;
TF-IDF:主要用來評估某個字或者某個詞對一個文檔的重要程度。 - 實體相似度
怎樣計算:聚合,聚類,表示學習
- 聚合
加權(quán)平均,手動制定規(guī)則,分類器:LR,決策樹,SVM和條件隨機場 - 聚類
層次聚類
相關(guān)性聚類
Canopy + K-means - 怎樣計算實體相似度:知識表示學習
知識潛入——TransE模型
實體與向量之間的關(guān)系
分塊
- 常用的分塊方法
基于Hash函數(shù)的分塊
鄰近分塊:Canopy聚類,排序鄰居算法,Red-Blue Set Cover
負載均衡
用來保證所有塊中的實體數(shù)目相當,從而保證分塊對性能的提升程度。
最簡單的方法是多次Map-Reduce操作。
結(jié)果評估
準確率,召回率,F(xiàn)值
整體算法的運行時間
典型知識融合工具簡介
- 本體對齊——Falcon-AO
自動的本體匹配系統(tǒng) //Java
相似度組合策略 - Falcon——分塊
本體劃分:概念間的結(jié)構(gòu)親近性計算
本體劃分:本體劃分算法
本體劃分:本體分塊的構(gòu)建 - 實體匹配——Dedupe
用于模糊匹配,記錄去重和實體鏈接的python庫
- 指定謂詞集合&相似度函數(shù)
- 訓(xùn)練Blocking:通過Red-Blue set cover 找到最優(yōu)謂詞集合來分塊
- 訓(xùn)練LR模型
- 實體匹配——Limes
基于度量空間的實體匹配發(fā)現(xiàn)框架,適合大規(guī)模數(shù)據(jù)鏈接 //Java - 實體匹配——Silk
Silk 是一個集成異構(gòu)數(shù)據(jù)源的開源框架 # python
整體框架:知識庫=>預(yù)匹配=>鏈接=>過濾=>輸出
典型案例
zhishi.me
等價實體
解決方案:半監(jiān)督方法,通過迭代,自動發(fā)現(xiàn)并修改特定數(shù)據(jù)集的匹配規(guī)則
Workflow - 挖掘等價屬性
- 合并現(xiàn)有已匹配的實體對的屬性值
- 匹配規(guī)則
- 用得到的匹配規(guī)則處理未標記的數(shù)據(jù)生成候選匹配對
- Combiner 用來計算候選匹配對的置信度
Workflow - the Wrapper算法
Wrapper是對EM迭代算法的封裝
似然函數(shù)
OpenKG的鏈接百科
LIMES實戰(zhàn)演練
對實體計算相似度