? ? ? ?知識(shí)圖譜的實(shí)體往往面臨數(shù)據(jù)融合的問(wèn)題,因?yàn)橹R(shí)圖譜的數(shù)據(jù)源可能有多個(gè),在不同數(shù)據(jù)源有對(duì)同一實(shí)體的不同表達(dá),即使在同一個(gè)數(shù)據(jù)源里也可能存在這種情況,需要通過(guò)一定手段將其合并。
? ? ? 知識(shí)圖譜的數(shù)據(jù)融合過(guò)程通常如下:

1,數(shù)據(jù)預(yù)處理:輸入的原始數(shù)據(jù)源往往存在臟數(shù)據(jù)和格式不一致數(shù)據(jù),需要進(jìn)行人工進(jìn)行規(guī)整,這一步過(guò)程是實(shí)際工程中比較費(fèi)時(shí)但是作用很大的工作,沒(méi)有好的數(shù)據(jù)處理后續(xù)的算法效果往往也不會(huì)好。
2,數(shù)據(jù)分組:我們的目標(biāo)是找出所有相同的實(shí)體,如果不進(jìn)行數(shù)據(jù)分組,我們的計(jì)算量會(huì)是兩兩比較,對(duì)于海量數(shù)據(jù)的時(shí)候計(jì)算量過(guò)于龐大,所以要事先進(jìn)行分組。分組的效果既要保證能夠比較均衡地分而治之,又要盡量保證不要漏分。
常見(jiàn)的方法包括通過(guò)數(shù)據(jù)本身的類目信息進(jìn)行分組,比如在融合商品數(shù)據(jù)的時(shí)候可以根據(jù)商品的類目信息進(jìn)行分組;或者根據(jù)數(shù)據(jù)的關(guān)鍵信息,比如在融合人物數(shù)據(jù)的時(shí)候可以根據(jù)其出生日期進(jìn)行分組。
3,屬性相似度:經(jīng)過(guò)上一步的分組,每個(gè)分組下的實(shí)體是有可能是相同的實(shí)體的集合,接下來(lái)需要對(duì)實(shí)體的屬性進(jìn)行計(jì)算相似度,有了實(shí)體各個(gè)屬性的相似度才容易進(jìn)行下一步的實(shí)體相似度計(jì)算。
常見(jiàn)的方法包括:
3.1)純字符串的:計(jì)算編輯距離,levenshtein distance,計(jì)算字符串A通過(guò)插入/刪除/替換操作變換到字符串B的距離;
3.2)集合類型:計(jì)算Jaccard相似度,計(jì)算集合交集個(gè)數(shù)/集合并集個(gè)數(shù);
3.3)文檔類型:通過(guò)tf-idf找出每篇文檔的關(guān)鍵詞,再通過(guò)余弦相似度計(jì)算關(guān)鍵詞集合的相似度。
4,實(shí)體相似度:
有了實(shí)體各個(gè)屬性的相似度,可以來(lái)計(jì)算實(shí)體相似度了。常見(jiàn)的方法分為兩種:
4.1)回歸:通過(guò)實(shí)體各個(gè)屬性的相似度,直接判斷實(shí)體的相似度??梢灾苯訉?duì)各個(gè)屬性相似度拍權(quán)重,也可以通過(guò)邏輯回歸的方式計(jì)算出各個(gè)屬性相似度的權(quán)重。
4.2)聚類:直接通過(guò)聚類操作,計(jì)算出相似實(shí)體??梢赃M(jìn)行層次聚類,相關(guān)性聚類,Canopy+K-means聚類等。