知識融合

大綱

  • 什么是知識融合
  • 知識融合的基本技術(shù)流程
  • 典型知識融合工具簡介
  • 典型案例簡介
    zhishi.me
    openkg.link
  • LIMES實戰(zhàn)演練

什么是知識融合

目標:融合個層面的知識
合并兩個知識圖譜(本體),需要確認:
等價實例;
等價類/子類;
等價屬性/子屬性
來源于不同知識庫的同一實體
知識圖譜的構(gòu)建經(jīng)常需要融合多種不同來源的數(shù)據(jù)
實體對齊是知識圖譜融合的主要工作
中文百科中的等價實例——唐三藏-玄奘-金蟬子
概念層知識融合
跨語言知識融合
知識在線融合
Google Knowlegle Vault

  • 名詞術(shù)語
    知識融合
    本體匹配
    本體對齊
    Record Linkage
    Entity Resolution
    實體對齊
  • 知識融合的主要技術(shù)挑戰(zhàn)
    數(shù)據(jù)質(zhì)量的挑戰(zhàn)
    數(shù)據(jù)規(guī)模的挑戰(zhàn)
    知識融合競賽——OAEI

知識融合的基本技術(shù)流程

一般分為兩部,本體對齊實體匹配

基本流程

數(shù)據(jù)預(yù)處理

語法正規(guī)化
數(shù)據(jù)正規(guī)化

記錄鏈接
  • 屬性相似度
    編輯距離:用最少的編輯操作將一個字符串轉(zhuǎn)成另一個;(插入,刪除,替換)3次
    動態(tài)規(guī)劃算法
    集合相似度計算;Dice系數(shù),Jaccard系數(shù)
    基于向量的相似度計算;
    TF-IDF:主要用來評估某個字或者某個詞對一個文檔的重要程度。
  • 實體相似度
    怎樣計算:聚合,聚類,表示學習
  1. 聚合
    加權(quán)平均,手動制定規(guī)則,分類器:LR,決策樹,SVM和條件隨機場
  2. 聚類
    層次聚類
    相關(guān)性聚類
    Canopy + K-means
  3. 怎樣計算實體相似度:知識表示學習
    知識潛入——TransE模型
    實體與向量之間的關(guān)系
分塊
  • 常用的分塊方法
    基于Hash函數(shù)的分塊
    鄰近分塊:Canopy聚類,排序鄰居算法,Red-Blue Set Cover
負載均衡

用來保證所有塊中的實體數(shù)目相當,從而保證分塊對性能的提升程度。
最簡單的方法是多次Map-Reduce操作。

結(jié)果評估

準確率,召回率,F(xiàn)值
整體算法的運行時間

典型知識融合工具簡介

  • 本體對齊——Falcon-AO
    自動的本體匹配系統(tǒng) //Java
    相似度組合策略
  • Falcon——分塊
    本體劃分:概念間的結(jié)構(gòu)親近性計算
    本體劃分:本體劃分算法
    本體劃分:本體分塊的構(gòu)建
  • 實體匹配——Dedupe
    用于模糊匹配,記錄去重和實體鏈接的python庫
  1. 指定謂詞集合&相似度函數(shù)
  2. 訓(xùn)練Blocking:通過Red-Blue set cover 找到最優(yōu)謂詞集合來分塊
  3. 訓(xùn)練LR模型
  • 實體匹配——Limes
    基于度量空間的實體匹配發(fā)現(xiàn)框架,適合大規(guī)模數(shù)據(jù)鏈接 //Java
  • 實體匹配——Silk
    Silk 是一個集成異構(gòu)數(shù)據(jù)源的開源框架 # python
    整體框架:知識庫=>預(yù)匹配=>鏈接=>過濾=>輸出

典型案例

zhishi.me

等價實體
解決方案:半監(jiān)督方法,通過迭代,自動發(fā)現(xiàn)并修改特定數(shù)據(jù)集的匹配規(guī)則
Workflow - 挖掘等價屬性

  • 合并現(xiàn)有已匹配的實體對的屬性值
  • 匹配規(guī)則
  • 用得到的匹配規(guī)則處理未標記的數(shù)據(jù)生成候選匹配對
  • Combiner 用來計算候選匹配對的置信度

Workflow - the Wrapper算法
Wrapper是對EM迭代算法的封裝
似然函數(shù)

OpenKG的鏈接百科

LIMES實戰(zhàn)演練

對實體計算相似度

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容