知識(shí)圖譜基礎(chǔ)(一)-什么是知識(shí)圖譜

筆者是一只已經(jīng)離職的AI產(chǎn)品經(jīng)理,主要擅長(zhǎng)的方向是知識(shí)圖譜與自然語(yǔ)言處理,寫(xiě)這些文章是為了總結(jié)歸納目前已經(jīng)搭建的知識(shí)體系,也在于科普。如有不對(duì),請(qǐng)指正。

知識(shí)圖譜的定義

知識(shí)圖譜在國(guó)內(nèi)屬于一個(gè)比較新興的概念,國(guó)內(nèi)目前paper都比較少,應(yīng)用方主要集中在BAT這類手握海量數(shù)據(jù)的企業(yè),這個(gè)概念是google在2012年提出的,當(dāng)時(shí)主要是為了將傳統(tǒng)的keyword-base搜索模型向基于語(yǔ)義的搜索升級(jí)。知識(shí)圖譜可以用來(lái)更好的查詢復(fù)雜的關(guān)聯(lián)信息,從語(yǔ)義層面理解用戶意圖,改進(jìn)搜索質(zhì)量。

個(gè)人認(rèn)為,知識(shí)圖譜最大的優(yōu)勢(shì)是在于對(duì)數(shù)據(jù)的描述能力非常強(qiáng)大,各種機(jī)器學(xué)習(xí)算法雖然在預(yù)測(cè)能力上很不錯(cuò),但是在描述能力上非常弱,知識(shí)圖譜剛好填補(bǔ)了這部分空缺。

知識(shí)圖譜的定義非常多,我這里提供一部分我自己的理解:

1.知識(shí)圖譜主要目標(biāo)是用來(lái)描述真實(shí)世界中存在的各種實(shí)體和概念,以及他們之間的強(qiáng)關(guān)系,我們用關(guān)系去描述兩個(gè)實(shí)體之間的關(guān)聯(lián),例如姚明和火箭隊(duì)之間的關(guān)系,他們的屬性,我們就用“屬性--值對(duì)“來(lái)刻畫(huà)它的內(nèi)在特性,比如說(shuō)我們的人物,他有年齡、身高、體重屬性。

2.知識(shí)圖譜可以通過(guò)人為構(gòu)建與定義,去描述各種概念之間的弱關(guān)系,例如:“忘了訂單號(hào)”和“找回訂單號(hào)”之間的關(guān)系

知識(shí)庫(kù)的概念

知識(shí)庫(kù)的種類

知識(shí)庫(kù)目前可以分為兩種類型:Curated KBs 和 Extracted KBs

Curated KBs:以yago2和freebase為代表,他們從維基百科和WordNet等知識(shí)庫(kù)抽取了大量的實(shí)體及實(shí)體關(guān)系,可以把它理解城一種結(jié)構(gòu)化的維基百科。

Extracted KBs:主要是以O(shè)pen Information Extraction (Open IE),? Never-Ending Language Learning (NELL)為代表,他們直接從上億個(gè)網(wǎng)頁(yè)中抽取實(shí)體關(guān)系三元組。與freebase相比,這樣得到的實(shí)體知識(shí)更具有多樣性,而它們的實(shí)體關(guān)系和實(shí)體更多的則是自然語(yǔ)言的形式,如“姚明出生于上海?!?可以被表示為(“Yao Ming”, “was also born in”, “Shanghai”)。直接從網(wǎng)頁(yè)中抽取出來(lái)的知識(shí),也會(huì)存在一定的噪聲,其精確度低于Curated KBs。

目前行業(yè)內(nèi)使用的比較多的還是Curated KBs,主要是因?yàn)?i>Curated KBs比較簡(jiǎn)單,容易構(gòu)建,噪音少。

什么是知識(shí)庫(kù)

a)“姚明出生于上?!?/p>

b)“姚明是籃球運(yùn)動(dòng)員”

c)“姚明是現(xiàn)任中國(guó)籃協(xié)主席”

以上就是一條條知識(shí),把大量的知識(shí)匯聚起來(lái)就成為了知識(shí)庫(kù)(Knowledge Base)。我們可以從wikipedia,百度百科等百科全書(shū)獲取到大量的知識(shí)。但是,這些百科全書(shū)的知識(shí)是由非結(jié)構(gòu)化的自然語(yǔ)言組建而成的,這樣的組織方式很適合人們閱讀但并不適合計(jì)算機(jī)處理。

圖1:知識(shí)圖實(shí)例

知識(shí)庫(kù)的表示形式

為了方便計(jì)算機(jī)的處理和理解,我們需要更加形式化、簡(jiǎn)潔化的方式去表示知識(shí),那就是三元組(triple)。

“姚明出生于中國(guó)上?!?可以用三元組表示為(Yao Ming, PlaceOfBirth, Shanghai)[1]。這里我們可以簡(jiǎn)單的把三元組理解為(實(shí)體entity,實(shí)體關(guān)系relation,實(shí)體entity)。如果我們把實(shí)體看作是結(jié)點(diǎn),把實(shí)體關(guān)系(包括屬性,類別等等)看作是一條邊,那么包含了大量三元組的知識(shí)庫(kù)就成為了一個(gè)龐大的知識(shí)圖。

有些時(shí)候會(huì)將實(shí)體稱為topic,如Justin Bieber。實(shí)體關(guān)系也可分為兩種,一種是屬性property,一種是關(guān)系relation。如下圖所示,屬性和關(guān)系的最大區(qū)別在于,屬性所在的三元組對(duì)應(yīng)的兩個(gè)實(shí)體,常常是一個(gè)topic和一個(gè)字符串,如屬性Type/Gender,對(duì)應(yīng)的三元組(Justin Bieber, Type, Person),而關(guān)系所在的三元組所對(duì)應(yīng)的兩個(gè)實(shí)體,常常是兩個(gè)topic。如關(guān)系PlaceOfBrith,對(duì)應(yīng)的三元組(Justin Bieber, PlaceOfBrith, London)。

圖2:Justin Bieber知識(shí)圖

(圖中藍(lán)色方塊表示topic,橙色橢圓包括屬性值,它們都屬于知識(shí)庫(kù)的實(shí)體;藍(lán)色直線表示關(guān)系,橙色直線表示屬性,它們都統(tǒng)稱為知識(shí)庫(kù)的實(shí)體關(guān)系,都可以用三元組刻畫(huà)實(shí)體和實(shí)體關(guān)系)

知識(shí)庫(kù)的數(shù)據(jù)結(jié)構(gòu)

這里只是簡(jiǎn)單介紹一下數(shù)據(jù)結(jié)構(gòu),知識(shí)表達(dá)這一塊會(huì)在《知識(shí)圖譜基礎(chǔ)(二)-知識(shí)圖譜的知識(shí)表達(dá)系統(tǒng)》中詳細(xì)講解。

讀者只要記住,freebase的基礎(chǔ)知識(shí)表達(dá)形式:(實(shí)體)-[關(guān)系]-(實(shí)體),(實(shí)體)-[關(guān)系]-(值)即可,參考圖3,姚明和葉莉的關(guān)系。

圖3 知識(shí)表達(dá)

知識(shí)圖譜的應(yīng)用

通過(guò)知識(shí)圖譜,不僅可以將互聯(lián)網(wǎng)的信息表達(dá)成更接近人類認(rèn)知世界的形式,而且提供了一種更好的組織、管理和利用海量信息的方式。下圖是筆者整理的知識(shí)圖譜有關(guān)的應(yīng)用,接下來(lái)的一些文章筆者會(huì)對(duì)下面的應(yīng)用進(jìn)行剖析。

圖4 知識(shí)圖譜的應(yīng)用

從圖4上看,知識(shí)圖譜的應(yīng)用主要集中在搜索與推薦領(lǐng)域,robot(客服機(jī)器人,私人助理)是問(wèn)答系統(tǒng),本質(zhì)上也是搜索與推薦的延伸。可能是因?yàn)橹R(shí)圖譜這項(xiàng)技術(shù)(特指freebase)誕生之初就是為了解決搜索問(wèn)題的。知識(shí)存儲(chǔ)這一塊可能是企查查和啟信寶這些企業(yè)發(fā)現(xiàn)使用圖結(jié)構(gòu)的數(shù)據(jù)比較好清洗加工。

在語(yǔ)義搜索這一塊,知識(shí)圖譜的搜索不同于常規(guī)的搜索,常規(guī)的搜索是根據(jù)keyword找到對(duì)應(yīng)的網(wǎng)頁(yè)集合,然后通過(guò)page rank等算法去給網(wǎng)頁(yè)集合內(nèi)的網(wǎng)頁(yè)進(jìn)行排名,然后展示給用戶;基于知識(shí)圖譜的搜索是在已有的圖譜知識(shí)庫(kù)中遍歷知識(shí),然后將查詢到的知識(shí)返回給用戶,通常如果路徑正確,查詢出來(lái)的知識(shí)只有1個(gè)或幾個(gè),相當(dāng)精準(zhǔn)。

問(wèn)答系統(tǒng)這一塊,系統(tǒng)同樣會(huì)首先在知識(shí)圖譜的幫助下對(duì)用戶使用自然語(yǔ)言提出的問(wèn)題進(jìn)行語(yǔ)義分析和語(yǔ)法分析,進(jìn)而將其轉(zhuǎn)化成結(jié)構(gòu)化形式的查詢語(yǔ)句,然后在知識(shí)圖譜中查詢答案。

作者:畫(huà)一個(gè)逗逗陪著我

鏈接:http://www.itdecent.cn/p/cd937f20bf55

來(lái)源:簡(jiǎn)書(shū)

簡(jiǎn)書(shū)著作權(quán)歸作者所有,任何形式的轉(zhuǎn)載都請(qǐng)聯(lián)系作者獲得授權(quán)并注明出處。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容