【劉知遠】知識圖譜——機器大腦中的知識庫

作者:劉知遠(清華大學);整理:林穎(RPI) 本文來自Big Data Intelligence
知識就是力量?!猍英]弗蘭西斯·培根
1 什么是知識圖譜
在互聯(lián)網(wǎng)時代,搜索引擎是人們在線獲取信息和知識的重要工具。當用戶輸入一個查詢詞,搜索引擎會返回它認為與這個關(guān)鍵詞最相關(guān)的網(wǎng)頁。從誕生之日起,搜索引擎就是這樣的模式,直到2012年5月,搜索引擎巨頭谷歌在它的搜索頁面中首次引入“知識圖譜”:用戶除了得到搜索網(wǎng)頁鏈接外,還將看到與查詢詞有關(guān)的更加智能化的答案。如下圖所示,當用戶輸入“Marie Curie”(瑪麗·居里)這個查詢詞,谷歌會在右側(cè)提供了居里夫人的詳細信息,如個人簡介、出生地點、生卒年月等,甚至還包括一些與居里夫人有關(guān)的歷史人物,例如愛因斯坦、皮埃爾·居里(居里夫人的丈夫)等。


圖1-1 谷歌搜索引擎知識圖譜
谷歌知識圖譜一出激起千層浪,美國的微軟必應(yīng),中國的百度、搜狗等搜索引擎公司在短短的一年內(nèi)紛紛宣布了各自的“知識圖譜”產(chǎn)品,如百度“知心“、搜狗“知立方“等。為什么這些搜索引擎巨頭紛紛跟進知識圖譜,在這上面一擲千金,甚至把它視為搜索引擎的未來呢?這就需要從傳統(tǒng)搜索引擎的原理講起。以百度為例,在過去當我們想知道“泰山”的相關(guān)信息的時候,我們會在百度上搜索“泰山”,它會嘗試將這個字符串與百度抓取的大規(guī)模網(wǎng)頁做比對,根據(jù)網(wǎng)頁與這個查詢詞的相關(guān)程度,以及網(wǎng)頁本身的重要性,對網(wǎng)頁進行排序,作為搜索結(jié)果返回給用戶。而用戶所需的與“泰山”相關(guān)的信息,就還要他們自己動手,去訪問這些網(wǎng)頁來找了。
當然,與搜索引擎出現(xiàn)之前相比,搜索引擎由于大大縮小了用戶查找信息的范圍,隨著網(wǎng)絡(luò)信息的爆炸式增長,日益成為人們遨游信息海洋的不可或缺的工具。但是,傳統(tǒng)搜索引擎的工作方式表明,它只是機械地比對查詢詞和網(wǎng)頁之間的匹配關(guān)系,并沒有真正理解用戶要查詢的到底是什么,遠遠不夠“聰明”,當然經(jīng)常會被用戶嫌棄了。
而知識圖譜則會將“泰山”理解為一個“實體”(entity),也就是一個現(xiàn)實世界中的事物。這樣,搜索引擎會在搜索結(jié)果的右側(cè)顯示它的基本資料,例如地理位置、海拔高度、別名,以及百科鏈接等等,此外甚至還會告訴你一些相關(guān)的“實體”,如嵩山、華山、衡山和恒山等其他三山五岳等。當然,用戶輸入的查詢詞并不見得只對應(yīng)一個實體,例如當在谷歌中查詢“apple”(蘋果)時,谷歌不止展示IT巨頭“Apple-Corporation”(蘋果公司)的相關(guān)信息,還會在其下方列出“apple-plant”(蘋果-植物)的另外一種實體的信息。
從雜亂的網(wǎng)頁到結(jié)構(gòu)化的實體知識,搜索引擎利用知識圖譜能夠為用戶提供更具條理的信息,甚至順著知識圖譜可以探索更深入、廣泛和完整的知識體系,讓用戶發(fā)現(xiàn)他們意想不到的知識。谷歌高級副總裁艾米特·辛格博士一語道破知識圖譜的重要意義所在:“構(gòu)成這個世界的是實體,而非字符串(things, not strings)”。
很明顯,以谷歌為代表的搜索引擎公司希望利用知識圖譜為查詢詞賦予豐富的語義信息,建立與現(xiàn)實世界實體的關(guān)系,從而幫助用戶更快找到所需的信息。谷歌知識圖譜不僅從 Freebase和維基百科等知識庫中獲取專業(yè)信息,同時還通過分析大規(guī)模網(wǎng)頁內(nèi)容抽取知識?,F(xiàn)在谷歌的這幅知識圖譜已經(jīng)將5億個實體編織其中,建立了35 億個屬性和相互關(guān)系,并在不斷高速擴充。
谷歌知識圖譜正在不斷融入其各大產(chǎn)品中服務(wù)廣大用戶。最近,谷歌在Google Play Store的Google Play Movies & TV應(yīng)用中添加了一個新的功能,當用戶使用安卓系統(tǒng)觀看視頻時,暫停播放,視頻旁邊就會自動彈出該屏幕上人物或者配樂的信息。這些信息就是來自谷歌知識圖譜。谷歌會圈出播放器窗口所有人物的臉部,用戶可以點擊每一個人物的臉來查看相關(guān)信息。此前,Google Books 已經(jīng)應(yīng)用此功能。


圖1-2 Google利用知識圖譜標示視頻中的人物和音樂信息
2 知識圖譜的構(gòu)建
最初知識圖譜是谷歌推出的產(chǎn)品名稱,與Facebook提出的社交圖譜(Social Graph)異曲同工。由于其表意形象,現(xiàn)在知識圖譜已經(jīng)被用來泛指各種大規(guī)模知識庫。
我們應(yīng)當如何構(gòu)建知識圖譜呢?首先,我們先了解一下,知識圖譜的數(shù)據(jù)來源都有哪些。知識圖譜的最重要的數(shù)據(jù)來源之一是以維基百科、百度百科為代表的大規(guī)模知識庫,在這些由網(wǎng)民協(xié)同編輯構(gòu)建的知識庫中,包含了大量結(jié)構(gòu)化的知識,可以高效地轉(zhuǎn)化到知識圖譜中。此外,互聯(lián)網(wǎng)的海量網(wǎng)頁中也蘊藏了海量知識,雖然相對知識庫而言這些知識更顯雜亂,但通過自動化技術(shù),也可以將其抽取出來構(gòu)建知識圖譜。接下來,我們分別詳細介紹這些識圖譜數(shù)據(jù)來源。
2.1 大規(guī)模知識庫
大規(guī)模知識庫以詞條作為基本組織單位,每個詞條對應(yīng)現(xiàn)實世界的某個概念,由世界各地的編輯者義務(wù)協(xié)同編纂內(nèi)容。隨著互聯(lián)網(wǎng)的普及和Web 2.0理念深入人心,這類協(xié)同構(gòu)建的知識庫,無論是數(shù)量、質(zhì)量還是更新速度,都早已超越傳統(tǒng)由專家編輯的百科全書,成為人們獲取知識的主要來源之一。目前,維基百科已經(jīng)收錄了超過2200萬詞條,而僅英文版就收錄了超過400萬條,遠超過英文百科全書中最權(quán)威的大英百科全書的50萬條,是全球瀏覽人數(shù)排名第6的網(wǎng)站。值得一提的是,2012年大英百科全書宣布停止印刷版發(fā)行,全面轉(zhuǎn)向電子化。這也從一個側(cè)面說明在線大規(guī)模知識庫的影響力。人們在知識庫中貢獻了大量結(jié)構(gòu)化的知識。如下圖所示,是維基百科關(guān)于“清華大學”的詞條內(nèi)容??梢钥吹?,在右側(cè)有一個列表,標注了與清華有關(guān)的各類重要信息,如校訓、創(chuàng)建時間、校慶日、學校類型、校長,等等。在維基百科中,這個列表被稱為信息框(infobox),是由編輯者們共同編輯而成。信息框中的結(jié)構(gòu)化信息是知識圖譜的直接數(shù)據(jù)來源。
除了維基百科等大規(guī)模在線百科外,各大搜索引擎公司和機構(gòu)還維護和發(fā)布了其他各類大規(guī)模知識庫,例如谷歌收購的Freebase,包含3900萬個實體和18億條實體關(guān)系;DBpedia是德國萊比錫大學等機構(gòu)發(fā)起的項目,從維基百科中抽取實體關(guān)系,包括1千萬個實體和14億條實體關(guān)系;YAGO則是德國馬克斯·普朗克研究所發(fā)起的項目,也是從維基百科和WordNet等知識庫中抽取實體,到2010年該項目已包含1千萬個實體和1.2億條實體關(guān)系。此外,在眾多專門領(lǐng)域還有領(lǐng)域?qū)<艺淼念I(lǐng)域知識庫。


圖2-1 維基百科詞條“清華大學”部分內(nèi)容
2.2 互聯(lián)網(wǎng)鏈接數(shù)據(jù)
國際萬維網(wǎng)組織W3C在2007年發(fā)起了開放互聯(lián)數(shù)據(jù)項目(Linked Open Data,LOD)。該項目旨在將由互聯(lián)文檔組成的萬維網(wǎng)(Web of documents)擴展成由互聯(lián)數(shù)據(jù)組成的知識空間(Web of data)。LOD以RDF(Resource Description Framework)形式在Web上發(fā)布各種開放數(shù)據(jù)集,RDF是一種描述結(jié)構(gòu)化知識的框架,它將實體間的關(guān)系表示為 (實體1, 關(guān)系, 實體2) 的三元組。LOD還允許在不同來源的數(shù)據(jù)項之間設(shè)置RDF鏈接,實現(xiàn)語義Web知識庫。目前世界各機構(gòu)已經(jīng)基于LOD標準發(fā)布了數(shù)千個數(shù)據(jù)集,包含數(shù)千億RDF三元組。隨著LOD項目的推廣和發(fā)展,互聯(lián)網(wǎng)會有越來越多的信息以鏈接數(shù)據(jù)形式發(fā)布,然而各機構(gòu)發(fā)布的鏈接數(shù)據(jù)之間存在嚴重的異構(gòu)和冗余等問題,如何實現(xiàn)多數(shù)據(jù)源的知識融合,是LOD項目面臨的重要問題。


圖2-2 開放互聯(lián)數(shù)據(jù)項目發(fā)布數(shù)據(jù)集示意圖
2.3 互聯(lián)網(wǎng)網(wǎng)頁文本數(shù)據(jù)
與整個互聯(lián)網(wǎng)相比,維基百科等知識庫仍只能算滄海一粟。因此,人們還需要從海量互聯(lián)網(wǎng)網(wǎng)頁中直接抽取知識。與上述知識庫的構(gòu)建方式不同,很多研究者致力于直接從無結(jié)構(gòu)的互聯(lián)網(wǎng)網(wǎng)頁中抽取結(jié)構(gòu)化信息,如華盛頓大學Oren Etzioni教授主導(dǎo)的“開放信息抽取”(open information extraction,OpenIE)項目,以及卡耐基梅隆大學Tom Mitchell教授主導(dǎo)的“永不停止的語言學習”(never-ending language learning, NELL)項目。OpenIE項目所開發(fā)的演示系統(tǒng)TextRunner已經(jīng)從1億個網(wǎng)頁中抽取出了5億條事實,而NELL項目也抽取了超過5千萬條事實。
顯而易見,與從維基百科中抽取的知識庫相比,開放信息抽取從無結(jié)構(gòu)網(wǎng)頁中抽取的信息準確率還很低,其主要原因在于網(wǎng)頁形式多樣,噪音信息較多,信息可信度較低。因此,也有一些研究者嘗試限制抽取的范圍,例如只從網(wǎng)頁表格等內(nèi)容中抽取結(jié)構(gòu)信息,并利用互聯(lián)網(wǎng)的多個來源互相印證,從而大大提高抽取信息的可信度和準確率。當然這種做法也會大大降低抽取信息的覆蓋面。天下沒有免費的午餐,在大數(shù)據(jù)時代,我們需要在規(guī)模和質(zhì)量之間尋找一個最佳的平衡點。
2.4 多數(shù)據(jù)源的知識融合
從以上數(shù)據(jù)來源進行知識圖譜構(gòu)建并非孤立進行。在商用知識圖譜構(gòu)建過程中,需要實現(xiàn)多數(shù)據(jù)源的知識融合。以谷歌最新發(fā)布的Knowledge Vault (Dong, et al. 2014)技術(shù)為例,其知識圖譜的數(shù)據(jù)來源包括了文本、DOM Trees、HTML表格、RDF語義數(shù)據(jù)等多個來源。多來源數(shù)據(jù)的融合,能夠更有效地判定抽取知識的可信性。
知識融合主要包括實體融合、關(guān)系融合和實例融合。對于實體,人名、地名、機構(gòu)名往往有多個名稱。例如“中國移動通信集團公司”有“中國移動”、“中移動”、“移動通信”等名稱。我們需要將這些不同名稱規(guī)約到同一個實體下。同一個實體在不同語言、不同國家和地區(qū)往往會有不同命名,例如著名足球明星Beckham在大陸漢語中稱作“貝克漢姆”,在香港譯作“碧咸”,而在臺灣則被稱為“貝克漢”。與此對應(yīng)的,同一個名字在不同語境下可能會對應(yīng)不同實體,這是典型的一詞多義問題,例如“蘋果”有時是指一種水果,有時則指的是一家著名IT公司。在這樣復(fù)雜的多對多對應(yīng)關(guān)系中,如何實現(xiàn)實體融合是非常復(fù)雜而重要的課題。如前面開放信息抽取所述,同一種關(guān)系可能會有不同的命名,這種現(xiàn)象在不同數(shù)據(jù)源中抽取出的關(guān)系中尤其顯著。與實體融合類似,關(guān)系融合對于知識融合至關(guān)重要。在實現(xiàn)了實體和關(guān)系融合之后,我們就可以實現(xiàn)三元組實例的融合。不同數(shù)據(jù)源會抽取出相同的三元組,并給出不同的評分。根據(jù)這些評分,以及不同數(shù)據(jù)源的可信度,我們就可以實現(xiàn)三元組實例的融合與抽取。
知識融合既有重要的研究挑戰(zhàn),又需要豐富的工程經(jīng)驗。知識融合是實現(xiàn)大規(guī)模知識圖譜的必由之路。知識融合的好壞,往往決定了知識圖譜項目的成功與否,值得任何有志于大規(guī)模知識圖譜構(gòu)建與應(yīng)用的人士高度重視。
3 知識圖譜的典型應(yīng)用
知識圖譜將搜索引擎從字符串匹配推進到實體層面,可以極大地改進搜索效率和效果,為下一代搜索引擎的形態(tài)提供了巨大的想象空間。知識圖譜的應(yīng)用前景遠不止于此,目前知識圖譜已經(jīng)被廣泛應(yīng)用于以下幾個任務(wù)中。
3.1 查詢理解(Query Understanding)
谷歌等搜索引擎巨頭之所以致力于構(gòu)建大規(guī)模知識圖譜,其重要目標之一就是能夠更好地理解用戶輸入的查詢詞。用戶查詢詞是典型的短文本(short text),一個查詢詞往往僅由幾個關(guān)鍵詞構(gòu)成。傳統(tǒng)的關(guān)鍵詞匹配技術(shù)沒有理解查詢詞背后的語義信息,查詢效果可能會很差。
例如,對于查詢詞“李娜 大滿貫”,如果僅用關(guān)鍵詞匹配的方式,搜索引擎根本不懂用戶到底希望尋找哪個“李娜”,而只會機械地返回所有含有“李娜”這個關(guān)鍵詞的網(wǎng)頁。但通過利用知識圖譜識別查詢詞中的實體及其屬性,搜索引擎將能夠更好地理解用戶搜索意圖?,F(xiàn)在,我們到谷歌中查詢“李娜 大滿貫”,會發(fā)現(xiàn),首先谷歌會利用知識圖譜在頁面右側(cè)呈現(xiàn)中國網(wǎng)球運動員李娜的基本信息,我們可以知道這個李娜是指的中國網(wǎng)球女運動員。同時,谷歌不僅像傳統(tǒng)搜索引擎那樣返回匹配的網(wǎng)頁,更會直接在頁面最頂端返回李娜贏得大滿貫的次數(shù)“2”。


圖3-1 谷歌中對“李娜 大滿貫”的查詢結(jié)果
主流商用搜索引擎基本都支持這種直接返回查詢結(jié)果而非網(wǎng)頁的功能,這背后都離不開大規(guī)模知識圖譜的支持。以百度為例,下圖是百度中對“珠穆朗瑪峰高度”的查詢結(jié)果,百度直接告訴用戶珠穆朗瑪峰的高度是8844.43米。


圖3-2 百度中對“珠穆朗瑪峰高度”的查詢結(jié)果
基于知識圖譜,搜索引擎還能獲得簡單的推理能力。例如,下圖是百度中對“梁啟超的兒子的妻子”的查詢結(jié)果,百度能夠利用知識圖譜知道梁啟超的兒子是梁思成,梁思成的妻子是林徽因等人。


圖3-3 百度中對“梁啟超的兒子的妻子”的查詢結(jié)果
采用知識圖譜理解查詢意圖,不僅可以返回更符合用戶需求的查詢結(jié)果,還能更好地匹配商業(yè)廣告信息,提高廣告點擊率,增加搜索引擎受益。因此,知識圖譜對搜索引擎公司而言,是一舉多得的重要資源和技術(shù)。
3.2 自動問答(Question Answering)
人們一直在探索比關(guān)鍵詞查詢更高效的互聯(lián)網(wǎng)搜索方式。很多學者預(yù)測,下一代搜索引擎將能夠直接回答人們提出的問題,這種形式被稱為自動問答。例如著名計算機學者、美國華盛頓大學計算機科學與工程系教授、圖靈中心主任Oren Etzioni于2011年就在Nature雜志上發(fā)表文章“搜索需要一場變革“(Search Needs a Shake-Up)。該文指出,一個可以理解用戶問題,從網(wǎng)絡(luò)信息中抽取事實,并最終選出一個合適答案的搜索引擎,才能將我們帶到信息獲取的制高點。如上節(jié)所述,目前搜索引擎已經(jīng)支持對很多查詢直接返回精確答案而非海量網(wǎng)頁而已。
關(guān)于自動問答,我們將有專門的章節(jié)介紹。這里,我們需要著重指出的是,知識圖譜的重要應(yīng)用之一就是作為自動問答的知識庫。在搜狗推出中文知識圖譜服務(wù)”知立方“的時候,曾經(jīng)以回答”梁啟超的兒子的太太的情人的父親是誰?“這種近似腦筋急轉(zhuǎn)彎似的問題作為案例,來展示其知識圖譜的強大推理能力。雖然大部分用戶不會這樣拐彎抹角的提問,但人們會經(jīng)常需要尋找諸如”劉德華的妻子是誰?“、”侏羅紀公園的主演是誰?“、“姚明的身高?”以及”北京有幾個區(qū)?“等問題的答案。而這些問題都需要利用知識圖譜中實體的復(fù)雜關(guān)系推理得到。無論是理解用戶查詢意圖,還是探索新的搜索形式,都毫無例外需要進行語義理解和知識推理,而這都需要大規(guī)模、結(jié)構(gòu)化的知識圖譜的有力支持,因此知識圖譜成為各大互聯(lián)網(wǎng)公司的必爭之地。
最近,微軟聯(lián)合創(chuàng)始人Paul Allen投資創(chuàng)建了艾倫人工智能研究院(Allen Institute for Artificial Intelligence),致力于建立具有學習、推理和閱讀能力的智能系統(tǒng)。2013年底,Paul Allen任命Oren Etzioni教授擔任艾倫人工智能研究院的執(zhí)行主任,該任命所釋放的信號頗值得我們思考。
3.3 文檔表示(Document Representation)
經(jīng)典的文檔表示方案是空間向量模型(Vector Space Model),該模型將文檔表示為詞匯的向量,而且采用了詞袋(Bag-of-Words,BOW)假設(shè),不考慮文檔中詞匯的順序信息。這種文檔表示方案與上述的基于關(guān)鍵詞匹配的搜索方案相匹配,由于其表示簡單,效率較高,是目前主流搜索引擎所采用的技術(shù)。文檔表示是自然語言處理很多任務(wù)的基礎(chǔ),如文檔分類、文檔摘要、關(guān)鍵詞抽取,等等。
經(jīng)典文檔表示方案已經(jīng)在實際應(yīng)用中暴露出很多固有的嚴重缺陷,例如無法考慮詞匯之間的復(fù)雜語義關(guān)系,無法處理對短文本(如查詢詞)的稀疏問題。人們一直在嘗試解決這些問題,而知識圖譜的出現(xiàn)和發(fā)展,為文檔表示帶來新的希望,那就是基于知識的文檔表示方案。一篇文章不再只是由一組代表詞匯的字符串來表示,而是由文章中的實體及其復(fù)雜語義關(guān)系來表示(Schuhmacher, et al. 2014)。該文檔表示方案實現(xiàn)了對文檔的深度語義表示,為文檔深度理解打下基礎(chǔ)。一種最簡單的基于知識圖譜的文檔表示方案,可以將文檔表示為知識圖譜的一個子圖(sub-graph),即用該文檔中出現(xiàn)或涉及的實體及其關(guān)系所構(gòu)成的圖表示該文檔。這種知識圖譜的子圖比詞匯向量擁有更豐富的表示空間,也為文檔分類、文檔摘要和關(guān)鍵詞抽取等應(yīng)用提供了更豐富的可供計算和比較的信息。
知識圖譜為計算機智能信息處理提供了巨大的知識儲備和支持,將讓現(xiàn)在的技術(shù)從基于字符串匹配的層次提升至知識理解層次。以上介紹的幾個應(yīng)用可以說只能窺豹一斑。知識圖譜的構(gòu)建與應(yīng)用是一個龐大的系統(tǒng)工程,其所蘊藏的潛力和可能的應(yīng)用,將伴隨著相關(guān)技術(shù)的日漸成熟而不斷涌現(xiàn)。
4 知識圖譜的主要技術(shù)
大規(guī)模知識圖譜的構(gòu)建與應(yīng)用需要多種智能信息處理技術(shù)的支持,以下簡單介紹其中若干主要技術(shù)。
4.1 實體鏈指(Entity Linking)
互聯(lián)網(wǎng)網(wǎng)頁,如新聞、博客等內(nèi)容里涉及大量實體。大部分網(wǎng)頁本身并沒有關(guān)于這些實體的相關(guān)說明和背景介紹。為了幫助人們更好地了解網(wǎng)頁內(nèi)容,很多網(wǎng)站或作者會把網(wǎng)頁中出現(xiàn)的實體鏈接到相應(yīng)的知識庫詞條上,為讀者提供更詳盡的背景材料。這種做法實際上將互聯(lián)網(wǎng)網(wǎng)頁與實體之間建立了鏈接關(guān)系,因此被稱為實體鏈指。
手工建立實體鏈接關(guān)系非常費力,因此如何讓計算機自動實現(xiàn)實體鏈指,成為知識圖譜得到大規(guī)模應(yīng)用的重要技術(shù)前提。例如,谷歌等在搜索引擎結(jié)果頁面呈現(xiàn)知識圖譜時,需要該技術(shù)自動識別用戶輸入查詢詞中的實體并鏈接到知識圖譜的相應(yīng)節(jié)點上。
實體鏈指的主要任務(wù)有兩個,實體識別(Entity Recognition)與實體消歧(Entity Disambiguation),都是自然語言處理領(lǐng)域的經(jīng)典問題。
實體識別旨在從文本中發(fā)現(xiàn)命名實體,最典型的包括人名、地名、機構(gòu)名等三類實體。近年來,人們開始嘗試識別更豐富的實體類型,如電影名、產(chǎn)品名,等等。此外,由于知識圖譜不僅涉及實體,還有大量概念(concept),因此也有研究者提出對這些概念進行識別。
不同環(huán)境下的同一個實體名稱可能會對應(yīng)不同實體,例如“蘋果”可能指某種水果,某個著名IT公司,也可能是一部電影。這種一詞多義或者歧義問題普遍存在于自然語言中。將文檔中出現(xiàn)的名字鏈接到特定實體上,就是一個消歧的過程。消歧的基本思想是充分利用名字出現(xiàn)的上下文,分析不同實體可能出現(xiàn)在該處的概率。例如某個文檔如果出現(xiàn)了iphone,那么”蘋果“就有更高的概率指向知識圖譜中的叫”蘋果“的IT公司。
實體鏈指并不局限于文本與實體之間,如下圖所示,還可以包括圖像、社交媒體等數(shù)據(jù)與實體之間的關(guān)聯(lián)??梢钥吹?,實體鏈指是知識圖譜構(gòu)建與應(yīng)用的基礎(chǔ)核心技術(shù)。


圖4-1 實體鏈指實現(xiàn)實體與文本、圖像、社交媒體等數(shù)據(jù)的關(guān)聯(lián)
4.2 關(guān)系抽?。≧elation Extraction)
構(gòu)建知識圖譜的重要來源之一是從互聯(lián)網(wǎng)網(wǎng)頁文本中抽取實體關(guān)系。關(guān)系抽取是一種典型的信息抽取任務(wù)。
典型的開放信息抽取方法采用自舉(bootstrapping)的思想,按照“模板生成實例抽取”的流程不斷迭代直至收斂。例如,最初可以通過“X是Y的首都”模板抽取出(中國,首都,北京)、(美國,首都,華盛頓)等三元組實例;然后根據(jù)這些三元組中的實體對“中國-北京”和“美國-華盛頓”可以發(fā)現(xiàn)更多的匹配模板,如“Y的首都是X”、“X是Y的政治中心”等等;進而用新發(fā)現(xiàn)的模板抽取更多新的三元組實例,通過反復(fù)迭代不斷抽取新的實例與模板。這種方法直觀有效,但也面臨很多挑戰(zhàn)性問題,如在擴展過程中很容易引入噪音實例與模板,出現(xiàn)語義漂移現(xiàn)象,降低抽取準確率。研究者針對這一問題提出了很多解決方案:提出同時擴展多個互斥類別的知識,例如同時擴展人物、地點和機構(gòu),要求一個實體只能屬于一個類別;也有研究提出引入負實例來限制語義漂移。
我們還可以通過識別表達語義關(guān)系的短語來抽取實體間關(guān)系。例如,我們通過句法分析,可以從文本中發(fā)現(xiàn)“華為”與“深圳”的如下關(guān)系:(華為,總部位于,深圳)、(華為,總部設(shè)置于,深圳)、以及(華為,將其總部建于,深圳)。通過這種方法抽取出的實體間關(guān)系非常豐富而自由,一般是一個以動詞為核心的短語。該方法的優(yōu)點是,我們無需預(yù)先人工定義關(guān)系的種類,但這種自由度帶來的代價是,關(guān)系語義沒有歸一化,同一種關(guān)系可能會有多種不同的表示。例如,上述發(fā)現(xiàn)的“總部位于”、“總部設(shè)置于”以及“將其總部建于”等三個關(guān)系實際上是同一種關(guān)系。如何對這些自動發(fā)現(xiàn)的關(guān)系進行聚類規(guī)約是一個挑戰(zhàn)性問題。
我們還可以將所有關(guān)系看做分類標簽,把關(guān)系抽取轉(zhuǎn)換為對實體對的關(guān)系分類問題。這種關(guān)系抽取方案的主要挑戰(zhàn)在于缺乏標注語料。2009年斯坦福大學研究者提出遠程監(jiān)督(Distant Supervision)思想,使用知識圖譜中已有的三元組實例啟發(fā)式地標注訓練語料。遠程監(jiān)督思想的假設(shè)是,每個同時包含兩個實體的句子,都表述了這兩個實體在知識庫中的對應(yīng)關(guān)系。例如,根據(jù)知識圖譜中的三元組實例(蘋果,創(chuàng)始人,喬布斯)和(蘋果,CEO,庫克),我們可以將以下四個包含對應(yīng)實體對的句子分別標注為包含“創(chuàng)始人”和“CEO”關(guān)系:
樣例句子關(guān)系/分類標簽
蘋果-喬布斯蘋果公司的創(chuàng)始人是喬布斯。創(chuàng)始人
蘋果-喬布斯喬布斯創(chuàng)立了蘋果公司。創(chuàng)始人
蘋果-庫克蘋果公司的CEO是庫克。CEO
蘋果-庫克庫克現(xiàn)在是蘋果公司的CEO。CEO
我們將知識圖譜三元組中每個實體對看做待分類樣例,將知識圖譜中實體對關(guān)系看做分類標簽。通過從出現(xiàn)該實體對的所有句子中抽取特征,我們可以利用機器學習分類模型(如最大熵分類器、SVM等)構(gòu)建信息抽取系統(tǒng)。對于任何新的實體對,根據(jù)所出現(xiàn)該實體對的句子中抽取的特征,我們就可以利用該信息抽取系統(tǒng)自動判斷其關(guān)系。遠程監(jiān)督能夠根據(jù)知識圖譜自動構(gòu)建大規(guī)模標注語料庫,因此取得了矚目的信息抽取效果。
與自舉思想面臨的挑戰(zhàn)類似,遠程監(jiān)督方法會引入大量噪音訓練樣例,嚴重損害模型準確率。例如,對于(蘋果,創(chuàng)始人,喬布斯)我們可以從文本中匹配以下四個句子:
句子關(guān)系/分類標簽是否正確
蘋果公司的創(chuàng)始人是喬布斯。創(chuàng)始人正確
喬布斯創(chuàng)立了蘋果公司。創(chuàng)始人正確
喬布斯回到了蘋果公司。創(chuàng)始人錯誤
喬布斯曾擔任蘋果的CEO。創(chuàng)始人錯誤
在這四個句子中,前兩個句子的確表明蘋果與喬布斯之間的創(chuàng)始人關(guān)系;但是,后兩個句子則并沒有表達這樣的關(guān)系。很明顯,由于遠程監(jiān)督只能機械地匹配出現(xiàn)實體對的句子,因此會大量引入錯誤訓練樣例。為了解決這個問題,人們提出很多去除噪音實例的辦法,來提升遠程監(jiān)督性能。例如,研究發(fā)現(xiàn),一個正確訓練實例往往位于語義一致的區(qū)域,也就是其周邊的實例應(yīng)當擁有相同的關(guān)系;也有研究提出利用因子圖、矩陣分解等方法,建立數(shù)據(jù)內(nèi)部的關(guān)聯(lián)關(guān)系,有效實現(xiàn)降低噪音的目標。
關(guān)系抽取是知識圖譜構(gòu)建的核心技術(shù),它決定了知識圖譜中知識的規(guī)模和質(zhì)量。關(guān)系抽取是知識圖譜研究的熱點問題,還有很多挑戰(zhàn)性問題需要解決,包括提升從高噪音的互聯(lián)網(wǎng)數(shù)據(jù)中抽取關(guān)系的魯棒性,擴大抽取關(guān)系的類型與抽取知識的覆蓋面,等等。
4.3 知識推理(Knowledge Reasoning)
推理能力是人類智能的重要特征,能夠從已有知識中發(fā)現(xiàn)隱含知識。推理往往需要相關(guān)規(guī)則的支持,例如從“配偶”+“男性”推理出“丈夫”,從“妻子的父親”推理出“岳父”,從出生日期和當前時間推理出年齡,等等。
這些規(guī)則可以通過人們手動總結(jié)構(gòu)建,但往往費時費力,人們也很難窮舉復(fù)雜關(guān)系圖譜中的所有推理規(guī)則。因此,很多人研究如何自動挖掘相關(guān)推理規(guī)則或模式。目前主要依賴關(guān)系之間的同現(xiàn)情況,利用關(guān)聯(lián)挖掘技術(shù)來自動發(fā)現(xiàn)推理規(guī)則。
實體關(guān)系之間存在豐富的同現(xiàn)信息。如下圖,在康熙、雍正和乾隆三個人物之間,我們有(康熙,父親,雍正)、(雍正,父親,乾隆)以及(康熙,祖父,乾隆)三個實例。根據(jù)大量類似的實體X、Y、Z間出現(xiàn)的(X,父親,Y)、(Y,父親,Z)以及(X,祖父,Z)實例,我們可以統(tǒng)計出“父親+父親=>祖父”的推理規(guī)則。類似的,我們還可以根據(jù)大量(X,首都,Y)和(X,位于,Y)實例統(tǒng)計出“首都=>位于”的推理規(guī)則,根據(jù)大量(X,總統(tǒng),美國)和(X,是,美國人)統(tǒng)計出“美國總統(tǒng)=>是美國人”的推理規(guī)則。
圖4-2 知識推理舉例
知識推理可以用于發(fā)現(xiàn)實體間新的關(guān)系。例如,根據(jù)“父親+父親=>祖父”的推理規(guī)則,如果兩實體間存在“父親+父親”的關(guān)系路徑,我們就可以推理它們之間存在“祖父”的關(guān)系。利用推理規(guī)則實現(xiàn)關(guān)系抽取的經(jīng)典方法是Path Ranking Algorithm (Lao & Cohen 2010),該方法將每種不同的關(guān)系路徑作為一維特征,通過在知識圖譜中統(tǒng)計大量的關(guān)系路徑構(gòu)建關(guān)系分類的特征向量,建立關(guān)系分類器進行關(guān)系抽取,取得不錯的抽取效果,成為近年來的關(guān)系抽取的代表方法之一。但這種基于關(guān)系的同現(xiàn)統(tǒng)計的方法,面臨嚴重的數(shù)據(jù)稀疏問題。
在知識推理方面還有很多的探索工作,例如采用謂詞邏輯(Predicate Logic)等形式化方法和馬爾科夫邏輯網(wǎng)絡(luò)(Markov Logic Network)等建模工具進行知識推理研究。目前來看,這方面研究仍處于百家爭鳴階段,大家在推理表示等諸多方面仍為達成共識,未來路徑有待進一步探索。
4.4 知識表示(Knowledge Representation)
在計算機中如何對知識圖譜進行表示與存儲,是知識圖譜構(gòu)建與應(yīng)用的重要課題。
如“知識圖譜”字面所表示的含義,人們往往將知識圖譜作為復(fù)雜網(wǎng)絡(luò)進行存儲,這個網(wǎng)絡(luò)的每個節(jié)點帶有實體標簽,而每條邊帶有關(guān)系標簽?;谶@種網(wǎng)絡(luò)的表示方案,知識圖譜的相關(guān)應(yīng)用任務(wù)往往需要借助于圖算法來完成。例如,當我們嘗試計算兩實體之間的語義相關(guān)度時,我們可以通過它們在網(wǎng)絡(luò)中的最短路徑長度來衡量,兩個實體距離越近,則越相關(guān)。而面向“梁啟超的兒子的妻子”這樣的推理查詢問題時,則可以從“梁啟超”節(jié)點出發(fā),通過尋找特定的關(guān)系路徑“梁啟超->兒子->妻子->?”,來找到答案。
然而,這種基于網(wǎng)絡(luò)的表示方法面臨很多困難。首先,該表示方法面臨嚴重的數(shù)據(jù)稀疏問題,對于那些對外連接較少的實體,一些圖方法可能束手無策或效果不佳。此外,圖算法往往計算復(fù)雜度較高,無法適應(yīng)大規(guī)模知識圖譜的應(yīng)用需求。
最近,伴隨著深度學習和表示學習的革命性發(fā)展,研究者也開始探索面向知識圖譜的表示學習方案。其基本思想是,將知識圖譜中的實體和關(guān)系的語義信息用低維向量表示,這種分布式表示(Distributed Representation)方案能夠極大地幫助基于網(wǎng)絡(luò)的表示方案。其中,最簡單有效的模型是最近提出的TransE(Bordes, et al. 2013)。TransE基于實體和關(guān)系的分布式向量表示,將每個三元組實例(head,relation,tail)中的關(guān)系relation看做從實體head到實體tail的翻譯,通過不斷調(diào)整h、r和t(head、relation和tail的向量),使(h + r) 盡可能與 t 相等,即 h + r = t。該優(yōu)化目標如下圖所示。


通過TransE等模型學習得到的實體和關(guān)系向量,能夠很大程度上緩解基于網(wǎng)絡(luò)表示方案的稀疏性問題,應(yīng)用于很多重要任務(wù)中。
首先,利用分布式向量,我們可以通過歐氏距離或余弦距離等方式,很容易地計算實體間、關(guān)系間的語義相關(guān)度。這將極大的改進開放信息抽取中實體融合和關(guān)系融合的性能。通過尋找給定實體的相似實體,還可用于查詢擴展和查詢理解等應(yīng)用。
其次,知識表示向量可以用于關(guān)系抽取。以TransE為例,由于我們的優(yōu)化目標是讓 h + r = t,因此,當給定兩個實體 h 和 t 的時候,我們可以通過尋找與 t – h 最相似的 r,來尋找兩實體間的關(guān)系。(Bordes, et al. 2013)中的實驗證明,該方法的抽取性能較高。而且我們可以發(fā)現(xiàn),該方法僅需要知識圖譜作為訓練數(shù)據(jù),不需要外部的文本數(shù)據(jù),因此這又稱為知識圖譜補全(Knowledge Graph Completion),與復(fù)雜網(wǎng)絡(luò)中的鏈接預(yù)測(Link Prediction)類似,但是要復(fù)雜得多,因為在知識圖譜中每個節(jié)點和連邊上都有標簽(標記實體名和關(guān)系名)。
最后,知識表示向量還可以用于發(fā)現(xiàn)關(guān)系間的推理規(guī)則。例如,對于大量X、Y、Z間出現(xiàn)的(X,父親,Y)、(Y,父親,Z)以及(X,祖父,Z)實例,我們在TransE中會學習X+父親=Y,Y+父親=Z,以及X+祖父=Z等目標。根據(jù)前兩個等式,我們很容易得到X+父親+父親=Z,與第三個公式相比,就能夠得到“父親+父親=>祖父”的推理規(guī)則。前面我們介紹過,基于關(guān)系的同現(xiàn)統(tǒng)計學習推理規(guī)則的思想,存在嚴重的數(shù)據(jù)稀疏問題。如果利用關(guān)系向量表示提供輔助,可以顯著緩解稀疏問題。
5 前景與挑戰(zhàn)
如果未來的智能機器擁有一個大腦,知識圖譜就是這個大腦中的知識庫,對于大數(shù)據(jù)智能具有重要意義,將對自然語言處理、信息檢索和人工智能等領(lǐng)域產(chǎn)生深遠影響。
現(xiàn)在以商業(yè)搜索引擎公司為首的互聯(lián)網(wǎng)巨頭已經(jīng)意識到知識圖譜的戰(zhàn)略意義,紛紛投入重兵布局知識圖譜,并對搜索引擎形態(tài)日益產(chǎn)生重要的影響。同時,我們也強烈地感受到,知識圖譜還處于發(fā)展初期,大多數(shù)商業(yè)知識圖譜的應(yīng)用場景非常有限,例如搜狗知立方更多聚焦在娛樂和健康等領(lǐng)域。根據(jù)各搜索引擎公司提供的報告來看,為了保證知識圖譜的準確率,仍然需要在知識圖譜構(gòu)建過程中采用較多的人工干預(yù)。
可以看到,在未來的一段時間內(nèi),知識圖譜將是大數(shù)據(jù)智能的前沿研究問題,有很多重要的開放性問題亟待學術(shù)界和產(chǎn)業(yè)界協(xié)力解決。我們認為,未來知識圖譜研究有以下幾個重要挑戰(zhàn)。
知識類型與表示。知識圖譜主要采用(實體1,關(guān)系,實體2)三元組的形式來表示知識,這種方法可以較好的表示很多事實性知識。然而,人類知識類型多樣,面對很多復(fù)雜知識,三元組就束手無策了。例如,人們的購物記錄信息,新聞事件等,包含大量實體及其之間的復(fù)雜關(guān)系,更不用說人類大量的涉及主觀感受、主觀情感和模糊的知識了。有很多學者針對不同場景設(shè)計不同的知識表示方法。知識表示是知識圖譜構(gòu)建與應(yīng)用的基礎(chǔ),如何合理設(shè)計表示方案,更好地涵蓋人類不同類型的知識,是知識圖譜的重要研究問題。最近認知領(lǐng)域關(guān)于人類知識類型的探索(Tenenbaum, et al. 2011)也許會對知識表示研究有一定啟發(fā)作用。
知識獲取。如何從互聯(lián)網(wǎng)大數(shù)據(jù)萃取知識,是構(gòu)建知識圖譜的重要問題。目前已經(jīng)提出各種知識獲取方案,并已經(jīng)成功抽取大量有用的知識。但在抽取知識的準確率、覆蓋率和效率等方面,都仍不如人意,有極大的提升空間。
知識融合。來自不同數(shù)據(jù)的抽取知識可能存在大量噪音和冗余,或者使用了不同的語言。如何將這些知識有機融合起來,建立更大規(guī)模的知識圖譜,是實現(xiàn)大數(shù)據(jù)智能的必由之路。
知識應(yīng)用。目前大規(guī)模知識圖譜的應(yīng)用場景和方式還比較有限,如何有效實現(xiàn)知識圖譜的應(yīng)用,利用知識圖譜實現(xiàn)深度知識推理,提高大規(guī)模知識圖譜計算效率,需要人們不斷銳意發(fā)掘用戶需求,探索更重要的應(yīng)用場景,提出新的應(yīng)用算法。這既需要豐富的知識圖譜技術(shù)積累,也需要對人類需求的敏銳感知,找到合適的應(yīng)用之道。
6 內(nèi)容回顧與推薦閱讀
本章系統(tǒng)地介紹了知識圖譜的產(chǎn)生背景、數(shù)據(jù)來源、應(yīng)用場景和主要技術(shù)。通過本章我們主要有以下結(jié)論:
知識圖譜是下一代搜索引擎、自動問答等智能應(yīng)用的基礎(chǔ)設(shè)施。
互聯(lián)網(wǎng)大數(shù)據(jù)是知識圖譜的重要數(shù)據(jù)來源。
知識表示是知識圖譜構(gòu)建與應(yīng)用的基礎(chǔ)技術(shù)。
實體鏈指、關(guān)系抽取和知識推理是知識圖譜構(gòu)建與應(yīng)用的核心技術(shù)。
知識圖譜與本體(Ontology)和語義網(wǎng)(Semantic Web)等密切相關(guān),有興趣的讀者可以搜索與之相關(guān)的文獻閱讀。知識表示(Knowledge Representation)是人工智能的重要課題,讀者可以通過人工智能專著(Russell & Norvig 2009)了解其發(fā)展歷程。在關(guān)系抽取方面,讀者可以閱讀(Nauseates, et al. 2013)、(Nickel, et al. 2015)詳細了解相關(guān)技術(shù)。
參考文獻
(Bordes, et al. 2013) Bordes, A., Usunier, N., Garcia-Duran, A., Weston, J., & Yakhnenko, O. (2013). Translating embeddings for modeling multi-relational data. In Proceedings of NIPS.
(Dong, et al. 2014) Dong, X., Gabrilovich, E., Heitz, G., Horn, W., et al. Knowledge Vault A web-scale approach to probabilistic knowledge fusion. In Proceedings of KDD.
(Lao & Cohen 2010) Lao, N., & Cohen, W. W. (2010). Relational retrieval using a combination of path-constrained random walks. Machine learning, 81(1), 53-67.
(Nauseates, et al. 2013) Nastase, V., Nakov, P., Seaghdha, D. O., & Szpakowicz, S. (2013). Semantic relations between nominals. Synthesis Lectures on Human Language Technologies, 6(1), 1-119.
(Nickel, et al. 2015) Nickel, M., Murphy, K., Tresp, V., & Gabrilovich, E. A Review of Relational Machine Learning for Knowledge Graphs.
(Russell & Norvig 2009) Russell, S., & Norvig, P. (2009). Artificial Intelligence: A Modern Approach, 3rd Edition. Pearson Press. (中文譯名:人工智能——一種現(xiàn)代方法).
(Schuhmacher, et al. 2014) Schuhmacher, M., & Ponzetto, S. P. Knowledge-based graph document modeling. In Proceedings of the 7th ACM international conference on Web search and data mining. In Proceedings of WSDM.
(Tenenbaum, et al. 2011) Tenenbaum, J. B., Kemp, C., Griffiths, T. L., & Goodman, N. D. (2011). How to grow a mind: Statistics, structure, and abstraction. science, 331(6022), 1279-1285

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容