多角度看知識圖譜

2012年谷歌首次提出“知識圖譜”這個詞,由此知識圖譜在工業(yè)界也出現(xiàn)得越來越多,對于知識圖譜以及相關(guān)概念的理解確實也是比較繞。自己在研究大數(shù)據(jù)獨角獸Palantir之后開始接觸知識圖譜,也算對其有了一定了解,這里從三個角度總結(jié)一下怎么去理解知識圖譜。

幾個基本概念:本體、實體、知識庫、知識圖譜

1、本體是概念的集合,是大家都公認(rèn)的概念框架,一般不會改變?nèi)纭叭恕?、“事”、“物”?/p>

“地”、“組織”,在面對對象編程里面,我們把它叫做類,在數(shù)據(jù)管理里面我們把它叫做元數(shù)據(jù);

2、實體是本體、實例及關(guān)系的整合,比如“人”是本體框中的一個概念,概念中也規(guī)定了相關(guān)屬性比如“性別”,小明是一個具體的人,叫做實例,所以小明也有性別,小明以及體現(xiàn)小明的本體概念“人”以及相關(guān)屬性,叫做一個實體(簡單的說就是:本體+實例);

3、很多實體形成的數(shù)據(jù)庫叫做知識庫,如dbpedia等;

4、知識圖譜是一種圖譜組織形式,通過語義關(guān)聯(lián)把各種實體關(guān)聯(lián)起來,之前不叫做知識圖譜,而叫做語義網(wǎng)。知識圖譜把結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù)通過數(shù)據(jù)抽取、融合在一起,體現(xiàn)了數(shù)據(jù)治理、語義連接的思想,有利于大規(guī)模數(shù)據(jù)的利用和遷移。

一、從數(shù)據(jù)治理角度

我的理解是知識圖譜的構(gòu)建是基于動態(tài)本體理論的,一套完整的數(shù)據(jù)本體可以把不同的數(shù)據(jù)形式進(jìn)行串聯(lián)轉(zhuǎn)換,融合成一個綜合的數(shù)據(jù)體系去使用。如國脈數(shù)據(jù)提出的數(shù)據(jù)基因系統(tǒng),我想它應(yīng)該就是一套政務(wù)數(shù)據(jù)的本體框架(通俗點說就是數(shù)據(jù)目錄),這套框架就像是政務(wù)數(shù)據(jù)的“基因”,其它數(shù)據(jù)都是在這個的基礎(chǔ)之上建立的。在面對對象編程理論中,可以理解為“類”,在數(shù)據(jù)管理中,也可以理解為元數(shù)據(jù)。有了這套完整的本體框架,就為企業(yè)或政府的數(shù)據(jù)治理奠定了基礎(chǔ)。所謂數(shù)據(jù)治理,簡單的理解就是要站在戰(zhàn)略的高度去梳理數(shù)據(jù)和業(yè)務(wù),有什么類型的數(shù)據(jù)?怎么用?如何圍繞業(yè)務(wù)構(gòu)建標(biāo)準(zhǔn)的數(shù)據(jù)體系?等。而構(gòu)建知識圖譜的過程其實就是把各種和領(lǐng)域相關(guān)的數(shù)據(jù)進(jìn)行一定的梳理和融合,把雜亂無章的數(shù)據(jù)通過本體框架整合成結(jié)構(gòu)化的數(shù)據(jù)。浙江杭州提出的“最多跑一次”的電子政務(wù)服務(wù)理念,在具體的實施過程中也體現(xiàn)了這個觀點。

除了有利于多源異構(gòu)數(shù)據(jù)的整合,知識圖譜也有利于多模(文本、視頻、圖片)數(shù)據(jù)的整合。最近谷歌正在研究一項工作叫做多模任務(wù)學(xué)習(xí),就是要把文本、圖片、視頻多種模態(tài)一起作為輸入進(jìn)行學(xué)習(xí),這是一項比較復(fù)雜的工作。但是語義連接的作用可能就是一個解決問題的方向,比如阿里的“看圖說話”應(yīng)用,通過深度學(xué)習(xí)識別圖像中的實體和行為然后通過文本的形式呈現(xiàn)出來。既然圖像可以轉(zhuǎn)化為文本,那么視頻也可以轉(zhuǎn)化文本,所以通過深度學(xué)習(xí)把多種模態(tài)進(jìn)行轉(zhuǎn)化,利用語義進(jìn)行連接和理解,這樣說不定就可以解決相關(guān)問題。

二、語義連接角度

在機器學(xué)習(xí)過程中,特別讓人煩的就是特征工程。就算是一個已經(jīng)梳理好數(shù)據(jù)的大數(shù)據(jù)比賽,在實際的處理過程中也要考慮如何把各表的數(shù)據(jù)進(jìn)行拼接,找到合適的特征或讓算法自己找到合適的特征。所以如何把相關(guān)的數(shù)據(jù)關(guān)聯(lián)起來,也就是如何進(jìn)行數(shù)據(jù)融合,就成了使用算法的一大前提和關(guān)鍵。當(dāng)我看到知識圖譜的構(gòu)建有利于進(jìn)行數(shù)據(jù)融合時,就立刻吸引了我的興趣,但后來發(fā)現(xiàn),它和我們機器學(xué)習(xí)中的所體現(xiàn)的特征連接有點不一樣。

從多源數(shù)據(jù)的融合來說,主要有如下三種方式:

1、分階段使用:這比較好理解,就是先使用某種數(shù)據(jù),再使用某種數(shù)據(jù);

2、利用特征拼接:大部分的機器學(xué)習(xí)算法都是這么做的,可以根據(jù)具體的情況增減特征數(shù)目;

3、基于語義信息的融合:通過本體之間的關(guān)系屬性來體現(xiàn)語義信息的融合,這里面涉及到自然語言的處理、統(tǒng)計分析概率、語義網(wǎng)等。比如,“小紅的爸爸(小明)”,“小紅的媽媽的老公(小明)”這兩句話中的爸爸和老公都是指的是同一個人小明,通過上下文分析、語義分析等就會獲得這兩人為同一個人的概率為100%。舉個比較實際的知識庫推理的例子,如下圖

知識庫中本來就有的語義信息有:<王教授, belongto ,男性疾病診療中心 >以及<王 教授 ,specializein,性病前列腺炎 >。但是,知識庫中并沒有 <王教授, specializein,急性前列腺 炎>,通過知識圖譜的語義推理得到<王教授, specializein,急性前列腺炎>。

這里要說明的是,深度學(xué)習(xí)的本質(zhì)其實也是一種重度、高通量的“語義”鏈接器,只是這里的“語義”是隱藏的語義,不易理解的語義。所以有人說深度學(xué)習(xí)是一臺端到端傳遞信息的廣義翻譯機器。對于知識圖譜和深度學(xué)習(xí):深度學(xué)習(xí)是通過一個黑盒子來進(jìn)行預(yù)測,人類不好理解;而知識圖譜是通過語義分析來推理,人類好理解。融合知識圖譜與深度學(xué)習(xí),已然成為進(jìn)一步提升深度學(xué)習(xí)效果的重要思路之一。以知識圖譜為代表的符號主義,和以深度學(xué)習(xí)為代表的聯(lián)結(jié)主義,日益脫離原先各自獨立發(fā)展的軌道,走上協(xié)同并進(jìn)的新道路。目前的幾種交叉應(yīng)用如下:

1、利用深度學(xué)習(xí)來構(gòu)建知識圖譜:利用深度學(xué)習(xí)來進(jìn)行實體識別、關(guān)系識別等;

2、利用知識圖譜來管理數(shù)據(jù),深度學(xué)習(xí)來做特征工程;

3、用符號表達(dá)知識圖譜,利用深度學(xué)習(xí)對符號化的知識圖譜進(jìn)行學(xué)習(xí)將知識圖譜的語義信息輸入到深度學(xué)習(xí)模型中,將離散化的知識表示為連續(xù)化的向量,從而使得知識圖譜的先驗知識能夠稱為深度學(xué)習(xí)的輸入;

4、利用知識作為優(yōu)化目標(biāo)的約束,指導(dǎo)深度學(xué)習(xí)模型的學(xué)習(xí)過程,通常是將知識圖譜中的知識表示為優(yōu)化目標(biāo)的后驗正則項。

三、智能應(yīng)用角度

知識圖譜最早就是由Google應(yīng)用到知識搜索中取的一個名字,以前都不叫知識圖譜。對于知識圖譜的行業(yè)應(yīng)用,目前主要是以一些智能問答/聊天機器人/客服類、搜索類、企業(yè)智能類、醫(yī)療服務(wù)類、圖書情報服務(wù)類、金融服務(wù)類等為主,在搜索上有谷歌、百度、搜狗等,在問答上有出門問問、啟齒科技的客服機器人等,在決策支持上有Palantir、明略、智器云等,當(dāng)然還有一些為知識圖譜提供相關(guān)組件的語義分析公司,如達(dá)觀科技、智言科技等。

在問答和搜索應(yīng)用上,知識圖譜可以使搜索以精準(zhǔn)的結(jié)果呈現(xiàn)給你,而不是返回一堆相似的頁面讓你自己去篩選,達(dá)到“所答即所問”,比如,搜索姚明有多高,返回來的結(jié)果就是姚明具體的身高。

以前的搜索引擎返回來的基本都是已經(jīng)在網(wǎng)頁中寫好的東西,比如姚明的身高,這些都是屬于靜態(tài)的結(jié)果。而利用知識圖譜的推理功能,我們還可以獲得動態(tài)的結(jié)果,在Wolfram|Alpha知識計算引擎中,我可以輸入我們的數(shù)學(xué)題目,引擎可以直接給出答案,而這些答案顯然并不是預(yù)先寫好的。而在企業(yè)智能應(yīng)用中,因為有了知識圖譜,我可以關(guān)聯(lián)相關(guān)的數(shù)據(jù)來探測異常、控制風(fēng)險等。

之前看到有人說,作為人工智能的產(chǎn)品經(jīng)理,不能不了解知識圖譜。為何知識圖譜在人工智能時代如此重要呢?這就要從知識圖譜的相關(guān)技術(shù)實現(xiàn)來說了。知識圖譜的構(gòu)建主要包括知識獲取、知識建模、知識存儲、知識融合、知識計算、知識表現(xiàn)、知識應(yīng)用等。其中知識獲取、知識融合是較難的點,其中主要涉及到實體識別、實體鏈接等,而解決這些關(guān)鍵的前提就是NLP技術(shù)。我們知道人工智能技術(shù)主要包括圖像識別、語音識別、語義識別等,其中圖像識別、語音識別技術(shù)都取得了較大的突破,而語義識別還處于起步階段,尤其是深度學(xué)習(xí)在NLP中的應(yīng)用。很多人都說智能音箱可能成為下一個入口,如果要讓智能音箱操作電器等,這里面除了要讓音箱知道你說的是什么(利用語音識別),還要讓音箱知道你說的是什么意思(利用語義識別),由此可見語義識別以及組織語義間關(guān)系的知識圖譜的重要性。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容