亚洲老司机av天堂网,亚洲人妻无码视频

? ? ? ?知識(shí)圖譜的實(shí)體往往面臨數(shù)據(jù)融合的問(wèn)題，因?yàn)橹R(shí)圖譜的數(shù)據(jù)源可能有多個(gè)，在不同數(shù)據(jù)源有對(duì)同一實(shí)體的不同表達(dá)，即使在同一個(gè)數(shù)據(jù)源里也可能存在這種情況，需要通過(guò)一定手段將其合并。

? ? ? 知識(shí)圖譜的數(shù)據(jù)融合過(guò)程通常如下：

知識(shí)融合流程圖

1，數(shù)據(jù)預(yù)處理：輸入的原始數(shù)據(jù)源往往存在臟數(shù)據(jù)和格式不一致數(shù)據(jù)，需要進(jìn)行人工進(jìn)行規(guī)整，這一步過(guò)程是實(shí)際工程中比較費(fèi)時(shí)但是作用很大的工作，沒(méi)有好的數(shù)據(jù)處理后續(xù)的算法效果往往也不會(huì)好。

2，數(shù)據(jù)分組：我們的目標(biāo)是找出所有相同的實(shí)體，如果不進(jìn)行數(shù)據(jù)分組，我們的計(jì)算量會(huì)是兩兩比較，對(duì)于海量數(shù)據(jù)的時(shí)候計(jì)算量過(guò)于龐大，所以要事先進(jìn)行分組。分組的效果既要保證能夠比較均衡地分而治之，又要盡量保證不要漏分。

常見(jiàn)的方法包括通過(guò)數(shù)據(jù)本身的類目信息進(jìn)行分組，比如在融合商品數(shù)據(jù)的時(shí)候可以根據(jù)商品的類目信息進(jìn)行分組；或者根據(jù)數(shù)據(jù)的關(guān)鍵信息，比如在融合人物數(shù)據(jù)的時(shí)候可以根據(jù)其出生日期進(jìn)行分組。

3，屬性相似度：經(jīng)過(guò)上一步的分組，每個(gè)分組下的實(shí)體是有可能是相同的實(shí)體的集合，接下來(lái)需要對(duì)實(shí)體的屬性進(jìn)行計(jì)算相似度，有了實(shí)體各個(gè)屬性的相似度才容易進(jìn)行下一步的實(shí)體相似度計(jì)算。

常見(jiàn)的方法包括：

3.1）純字符串的：計(jì)算編輯距離，levenshtein distance，計(jì)算字符串A通過(guò)插入/刪除/替換操作變換到字符串B的距離；

3.2）集合類型：計(jì)算Jaccard相似度，計(jì)算集合交集個(gè)數(shù)/集合并集個(gè)數(shù)；

3.3）文檔類型：通過(guò)tf-idf找出每篇文檔的關(guān)鍵詞，再通過(guò)余弦相似度計(jì)算關(guān)鍵詞集合的相似度。

4，實(shí)體相似度：

有了實(shí)體各個(gè)屬性的相似度，可以來(lái)計(jì)算實(shí)體相似度了。常見(jiàn)的方法分為兩種：

4.1）回歸：通過(guò)實(shí)體各個(gè)屬性的相似度，直接判斷實(shí)體的相似度?？梢灾苯訉?duì)各個(gè)屬性相似度拍權(quán)重，也可以通過(guò)邏輯回歸的方式計(jì)算出各個(gè)屬性相似度的權(quán)重。

4.2）聚類：直接通過(guò)聚類操作，計(jì)算出相似實(shí)體?？梢赃M(jìn)行層次聚類，相關(guān)性聚類，Canopy+K-means聚類等。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

知識(shí)圖譜多數(shù)據(jù)源融合

知識(shí)圖譜多數(shù)據(jù)源融合

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

知識(shí)圖譜多數(shù)據(jù)源融合

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av