
上一問中我們給大家介紹了知識圖譜的歷史,了解到知識圖譜,是結(jié)構(gòu)化的語義知識庫,是用來迅速描述物理世界中的概念及其相互關(guān)系的一種技術(shù)。通過降低數(shù)據(jù)粒度,聚合大量知識,實(shí)現(xiàn)知識的快速響應(yīng)和推理。
在我們深入了解知識圖譜的構(gòu)建之前,讓我們先來看一下它長什么樣子!

如圖所示,你可以看到,如果兩個節(jié)點(diǎn)之間存在關(guān)系,他們就會被一條無向邊連接在一起,那么這個節(jié)點(diǎn),我們就稱為實(shí)體,它們之間的這條邊,我們就稱為關(guān)系。
知識圖譜的基本單位,便是“實(shí)體?關(guān)系?實(shí)體”構(gòu)成的三元組,同時這也是知識圖譜的核心。
知識圖譜的構(gòu)建
構(gòu)建知識圖譜是一個不斷迭代更新的過程。而每一輪的迭代都是通過信息抽取、知識融合、知識加工這三個階段來完成的。

懵逼樹上懵逼果,懵逼樹下有個我。(一臉懵逼??)
哈哈不要慌,我們一起慢慢來捋一下。
首先我們有一大堆的數(shù)據(jù),這些數(shù)據(jù)可能是結(jié)構(gòu)化的、非結(jié)構(gòu)化的以及半結(jié)構(gòu)化的。結(jié)構(gòu)化數(shù)據(jù)是指可以使用關(guān)系型數(shù)據(jù)庫表示和存儲的數(shù)據(jù)。典型的例子如關(guān)系數(shù)據(jù)庫;非結(jié)構(gòu)化數(shù)據(jù),顧名思義,就是沒有固定結(jié)構(gòu)的數(shù)據(jù)。各種文檔、圖片、視頻、音頻等都屬于非結(jié)構(gòu)化數(shù)據(jù);而半結(jié)構(gòu)化數(shù)據(jù) 就是介于這兩者中間,常見的有XML、JSON、HTML和CSV文件等等。
1.信息抽取
結(jié)構(gòu)化的數(shù)據(jù)可以直接進(jìn)行知識融合。而非結(jié)構(gòu)化、或者半結(jié)構(gòu)化的數(shù)據(jù)就需要通過一系列自動化或半自動化的技術(shù)手段,提取出數(shù)據(jù)內(nèi)所有實(shí)體、屬性以及實(shí)體間的相互關(guān)系,這個過程我們稱之為信息抽取。
隨便舉個例子:王健林談兒子王思聰:他算富二代里比較有商業(yè)頭腦的。

信息抽取的結(jié)果包括:王健林、王思聰兩個實(shí)體;兩個實(shí)體之間的關(guān)系(兒子);以及王思聰這個實(shí)體從屬于富二代這個概念。
2.知識融合
如上所述,通過信息抽取,我們獲得了大量碎片化的知識表達(dá)。接下來,我們還需要對這些知識進(jìn)行整合,消除其中的矛盾和歧義,比如某些實(shí)體可能有多種表達(dá),某個特定稱謂也許對應(yīng)于多個不同的實(shí)體等等。這個過程我們稱之為知識融合。
這個過程很像我們小時候拼的拼圖。大量的知識就是拼圖碎片,他們散亂無章,其中有很多重復(fù)的,也有從其他拼圖里跑來的錯誤碎片。我們需要把他們重新歸置,剔除那些重復(fù)的、無效的信息,糾正那些錯誤的,最終拼成一副完整的畫面。

3.知識加工
在前面,我們已經(jīng)通過信息抽取,從原始語料中提取出了實(shí)體、關(guān)系與屬性等知識要素,并且經(jīng)過知識融合,消除實(shí)體指稱項(xiàng)與實(shí)體對象之間的歧義,得到一系列基本的事實(shí)表達(dá)。
然而事實(shí)本身并不等于知識。要想最終獲得結(jié)構(gòu)化,網(wǎng)絡(luò)化的知識體系,還需要經(jīng)歷知識加工的過程。
知識加工主要包括3方面內(nèi)容:本體構(gòu)建、知識推理和質(zhì)量評估。
1) 本體構(gòu)建
本體簡單來說就是一種概念框架,如“人”、“事”、“物”等。 自動化本體構(gòu)建過程包含三個階段:①實(shí)體并列關(guān)系相似度計(jì)算;②實(shí)體上下位關(guān)系抽?。虎郾倔w的生成。
舉個栗子。當(dāng)知識圖譜剛得到“阿里巴巴”、“騰訊”、“手機(jī)”這三個實(shí)體的時候,可能會認(rèn)為它們?nèi)齻€之間并沒有什么差別,但當(dāng)它去計(jì)算三個實(shí)體之間的相似度后,就會發(fā)現(xiàn),阿里巴巴和騰訊之間可能更相似,和手機(jī)差別更大一些。
這就是第①步的作用,完成了第②步實(shí)體上下位關(guān)系的抽取以后,知識圖譜就會得到里巴巴和騰訊,都是“公司”這個概念下的細(xì)分實(shí)體,它們和手機(jī)根本就不隸屬于一個類型,無法比較。
從而完成第③步本體的生成,如下圖:

2) 知識推理
在我們完成了本體構(gòu)建這一步之后,一個知識圖譜的雛形便已經(jīng)搭建好了。但到目前為止這些知識圖譜之間的大多數(shù)關(guān)系都是殘缺的,那么接下來,我們就可以使用知識推理技術(shù)去完成進(jìn)一步完善了。

這一塊的算法基本可以分為基于邏輯的推理、基于圖的推理和基于深度學(xué)習(xí)的推理三大類。
3) 質(zhì)量評估
質(zhì)量評估也是知識庫構(gòu)建技術(shù)的重要組成部分,這一部分存在的意義在于:可以對知識的可信度進(jìn)行量化,通過舍棄置信度較低的知識來保障知識庫的準(zhǔn)確率。
對于經(jīng)過融合的新知識,需要經(jīng)過質(zhì)量評估之后(部分需要人工參與甄別),才能將合格的部分加入到知識庫中,以確保知識庫的質(zhì)量。
哎麻,知識圖譜終于構(gòu)建完畢了。長舒一口氣!
先別急,還不止如此呢!經(jīng)過千辛萬苦得到的知識圖譜,接下來還要經(jīng)過接連不斷地學(xué)習(xí)和迭代更新,不停的完善和補(bǔ)充最終才能夠進(jìn)入到應(yīng)用層面。而知識圖譜的每一輪迭代都同樣需要經(jīng)過以上程序才能夠完成。
—THE END—
下期內(nèi)容:知識圖譜的應(yīng)用前景和挑戰(zhàn)如何? | “人工智能+區(qū)塊鏈”科普第8問