0.讀筆|大數(shù)據(jù)智能

1.知識圖譜:

? ? ?1).描述客觀世界中存在的實體或概念;

? ? ?2).其中每個實體或概念有一個唯一ID標(biāo)識,稱之為標(biāo)識符;(實體)

? ? ?3).每個(屬性-值)描述各個實體或概念的內(nèi)在特性,用關(guān)系來描述各個實體或者概念的關(guān)聯(lián);(關(guān)系)

? ? ?提供一種豐富的語義信息,建立與現(xiàn)實世界實體的關(guān)系;

2.知識圖譜的構(gòu)建:

? ? 1)數(shù)據(jù)源:主要是文本、dom trees,html表格、RDF語義數(shù)據(jù),用于信息抽取,多數(shù)據(jù)源也可有效的判定知識的可信性;

? ? a.大規(guī)模知識庫,比如百度百科、wiki百科、以及一些大公司資助的知識庫(谷歌收購的Freebase,德國萊比錫大學(xué)等DBpedia,德國馬克斯·普朗特研究所的YAGO等等),還有一些領(lǐng)域?qū)<艺淼念I(lǐng)域知識庫;

? ? b.互聯(lián)網(wǎng)鏈接數(shù)據(jù):就是W3C發(fā)起的項目Linked opend data (LOD) :將互聯(lián)網(wǎng)文檔組成的萬維網(wǎng)(web of document)擴展成互聯(lián)數(shù)據(jù)組成的知識空間(web of data),LOD通過RDF(resource description framework)形式在web上發(fā)布各種開放數(shù)據(jù)集;

? ? ps:RDF是一種描述結(jié)構(gòu)化數(shù)據(jù)的框架,它將實體間的關(guān)系表示為(實體1,關(guān)系,實體2)的三元組;

? ? ?RDF還允許不同來源的數(shù)據(jù)項之間設(shè)置RDF鏈接,實現(xiàn)語義web知識庫。但有一些問題:主要是很多機構(gòu)發(fā)布的數(shù)據(jù)集存在冗余和異構(gòu)等問題;

? ? c.互聯(lián)網(wǎng)網(wǎng)頁文本數(shù)據(jù):從海量的互聯(lián)網(wǎng)中直接抽取數(shù)據(jù),當(dāng)然很多就是無結(jié)構(gòu)化的數(shù)據(jù)了,很多人采取的方式是只采集表格中的數(shù)據(jù)等;

2)知識融合:

? ? 涉及‘實體融合’,‘關(guān)系融合’,‘實例融合’;(實例= 實體+關(guān)系);

? ? 其一,實體融合涉及三個處理:1.同區(qū)域下的不同實體名稱稱謂規(guī)約到同一個實體下,2.同一個稱謂在不同語言不同地區(qū)不同國家的命名;3.同一個實體名在不同的語境下會有不同的含義(例如‘蘋果’)

? ? 其二:關(guān)系融合與實體融合大體一致;

? ? 其三:實例融合在處理了實體融合和關(guān)系融合之后,就開始處理三元組實例的融合;

3.知識圖譜的主要技術(shù)點,智能信息處理技術(shù)

? ? 1)實體鏈指(Entity Linking)

? ? ?將網(wǎng)頁中出現(xiàn)的實體鏈接到相應(yīng)的知識庫詞條上,實際上是將互聯(lián)網(wǎng)網(wǎng)頁與實體之間建立了鏈接關(guān)系;

? ? ?需要做的事情:計算機自動實現(xiàn)實體鏈指,需要注意的是知識圖譜不僅包含實體,而且還還有大量概念(concept)

? ? ?具體要實現(xiàn):實體識別(entity recognition)和實體消歧(entity disambiguation)

? ? ?實體鏈指不局限于文本和實體,包括圖像,社交媒體,數(shù)據(jù)與實體的關(guān)聯(lián)。

2)關(guān)系抽?。≧elation Extraction)

? ? ?構(gòu)建知識圖譜的重要來源之一就是從互聯(lián)網(wǎng)網(wǎng)頁文本中抽取實體關(guān)系。關(guān)系抽取是一種典型的信息抽取任務(wù)。

? ? ?其典型的方法是采用自舉(bootstrapping)的思想:

? ? ?a.按照‘模板生成->實例抽取’的流程不斷迭代直至收斂。舉例說明:‘X是Y的首都’模板取出(中國,首都,北京)等三元組實例;然后根據(jù)這些三元組中的實例對‘中國-北京’可以發(fā)現(xiàn)更多的匹配模板,如‘Y的首都是X’,'X是Y的政治中心'等,進而用新發(fā)現(xiàn)的模板抽取更多新的三元組實例,通過反復(fù)迭代不斷抽取新的實例與模板。但是這種方法雖然直觀有效,但是面臨很多的挑戰(zhàn)問題,如在擴展中遇到很容易引入噪聲實例和模板,出現(xiàn)語義漂移的現(xiàn)象,降低抽取準(zhǔn)確度。當(dāng)然處理這些問題現(xiàn)象有一些方法,比如‘同時擴展多個互斥類別的知識’,‘提出引入負(fù)實例來限制語義漂移‘。

? ? ?b. 也可以通過識別表達語義關(guān)系的短語來抽取實體間的關(guān)系,通過句法分析出實體的多個關(guān)系(同一個意思的多種表達),一般是一個以動詞為核心的短語,無需人工定義關(guān)系的種類,但是這種自由度帶來的問題是沒有歸一化,自動發(fā)現(xiàn)的關(guān)系進行的聚類歸約是一個挑戰(zhàn)性問題;

? ? c.將關(guān)系看成分類標(biāo)簽,把關(guān)系抽取轉(zhuǎn)換成對實體對的關(guān)系分類問題,采用此方法的缺陷主要來源于缺乏標(biāo)注語料。斯坦福(遠(yuǎn)程監(jiān)督思想)使用知識圖譜中已有的三元組實例啟發(fā)式的標(biāo)注訓(xùn)練語料,將知識圖譜三元組中每個實體看做待分類樣例,將知識圖譜中實體對關(guān)系看做分類標(biāo)簽,通過從出現(xiàn)實體對的所有句子中抽取特征,利用機器學(xué)習(xí)分類模型(如最大熵分類、SVM等)構(gòu)建信息抽取系統(tǒng)。遠(yuǎn)程監(jiān)督能夠根據(jù)知識圖譜自動構(gòu)建大規(guī)模標(biāo)注語料庫,但是和自舉思想一樣,同樣也會出現(xiàn)大量噪聲訓(xùn)練樣例,嚴(yán)重?fù)p害模型準(zhǔn)確度。處理方法:一個正確訓(xùn)練實例往往位于語義一致的區(qū)域,也就是其周邊的實例應(yīng)用擁有相同的關(guān)系,也可以利用因子圖、矩陣分解等方法,建立數(shù)據(jù)內(nèi)部的關(guān)聯(lián)關(guān)系,以實現(xiàn)有效降低噪聲;

3)知識推理(Knowledge Reasoning)

? ? ?首先,推理能力是人類智能的重要特征,能夠從已有的知識中發(fā)現(xiàn)隱含的知識。其需要相關(guān)規(guī)則的支持;

? ? ?毋庸置疑,通過人工手工構(gòu)建,很費時間精力,如何自動挖掘相關(guān)推理規(guī)則或模式,現(xiàn)在主要依賴關(guān)系之間的同現(xiàn)情況,利用關(guān)聯(lián)挖掘技術(shù)來自動發(fā)現(xiàn)推理規(guī)則;

? ? ?實體之間有豐富的同現(xiàn)信息,比如X,Y,Z間出現(xiàn)的實例(x,父親,y),(y,父親,z)以及(x,祖父,z)統(tǒng)計出(父親+父親->祖父)。利用推理規(guī)則實現(xiàn)關(guān)系抽取的經(jīng)典方法是Path Ranking Algorithm (Lao & Cohen ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?? ?????2010),該方法將每種不同的關(guān)系路徑作為一維特征,通過在知識圖譜中統(tǒng)計大量的關(guān)系路徑構(gòu)建關(guān)系分類的特征向量,建立關(guān)系分類器進行關(guān)系抽取,取得不錯的抽取效果,成為近年來的關(guān)系抽取的代表方法之一。但這種基于關(guān)系的同現(xiàn)統(tǒng)計的方法,面臨嚴(yán)重的數(shù)據(jù)稀疏問題。 在知識推理方面還有很多的探索工作,例如采用謂詞邏輯(Predicate Logic)等形式化方法和馬爾科夫邏輯網(wǎng)絡(luò)(Markov Logic Network)等建模工具進行知識推理研究。目前來看,這方面研究仍處于百家爭鳴階段,大家在推理表示等諸多方面仍為達成共識,未來路徑有待進一步探索。

4)知識表示(knowledge Representation)

? ? ?在計算機中如何對知識圖譜進行表示與存儲,往往將知識圖譜作為復(fù)雜網(wǎng)絡(luò)進行存儲,這個網(wǎng)絡(luò)的每個節(jié)點帶有實體標(biāo)簽,而每條邊帶有關(guān)系標(biāo)簽?;谶@種網(wǎng)絡(luò)的表示方案,知識圖譜的相關(guān)應(yīng)用任務(wù)往往需要借助于 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?????圖算法來完成。該表示方法面臨嚴(yán)重的數(shù)據(jù)稀疏問題,對于那些對外連接較少的實體,一些圖方法可能束手無策或效果不佳。此外,圖算法往往計算復(fù)雜度較高,無法適應(yīng)大規(guī)模知識圖譜的應(yīng)用需求。

? ? ?方法:伴隨著深入學(xué)習(xí)和表示學(xué)習(xí)的發(fā)展,知識圖譜的實體和關(guān)系的語義信息用低維向量表示,這種分布式表示(Distributed Representation)方案能夠極大地幫助基于網(wǎng)絡(luò)的表示方案。其中,最簡單有效的模型是最近提出的TransE(Bordes, et al. 2013)。TransE基于實體和關(guān)系的分布式向量表示,將每個三元組實例(head,relation,tail)中的關(guān)系relation看做從實體head到實體tail的翻譯,通過不斷調(diào)整h、r和t(head、relation和tail的向量),使(h + r) 盡可能與 t 相等,即 h + r = t。


? ? ? 利用分布式向量,我們可以通過歐氏距離或余弦距離等方式,很容易地計算實體間、關(guān)系間的語義相關(guān)度。這將極大的改進開放信息抽取中實體融合和關(guān)系融合的性能。通過尋找給定實體的相似實體,還可用于查詢擴展和查詢理解等應(yīng)用。這種向量表示有一些作用,1.反過來,知識表示可以用于關(guān)系抽取,給定兩個實體h和t的時候,可以通過尋找與t-h最相似的r來尋找,兩個實體間的關(guān)系,實驗證明,該方法的抽取性能較高。而且我們可以發(fā)現(xiàn),該方法僅需要知識圖譜作為訓(xùn)練數(shù)據(jù),不需要外部的文本數(shù)據(jù),因此這又稱為知識圖譜補全(Knowledge Graph Completion),與復(fù)雜網(wǎng)絡(luò)中的鏈接預(yù)測(Link Prediction)類似,但是要復(fù)雜得多,因為在知識圖譜中每個節(jié)點和連邊上都有標(biāo)簽(標(biāo)記實體名和關(guān)系名)。2.知識表示向量還可以用于發(fā)現(xiàn)關(guān)系間的推理規(guī)則。例如,對于大量X、Y、Z間出現(xiàn)的(X,父親,Y)、(Y,父親,Z)以及(X,祖父,Z)實例,我們在TransE中會學(xué)習(xí)X+父親=Y,Y+父親=Z,以及X+祖父=Z等目標(biāo)。根據(jù)前兩個等式,我們很容易得到X+父親+父親=Z,與第三個公式相比,就能夠得到“父親+父親=>祖父”的推理規(guī)則。前面我們介紹過,基于關(guān)系的同現(xiàn)統(tǒng)計學(xué)習(xí)推理規(guī)則的思想,存在嚴(yán)重的數(shù)據(jù)稀疏問題。如果利用關(guān)系向量表示提供輔助,可以顯著緩解稀疏問題。

4.關(guān)注點

? ? ?根據(jù)各搜索引擎公司提供的報告來看,為了保證知識圖譜的準(zhǔn)確率,仍然需要在知識圖譜構(gòu)建過程中采用較多的人工干預(yù)。

? ? ?1.知識類型與表示。知識圖譜主要采用(實體1,關(guān)系,實體2)三元組的形式來表示知識,這種方法可以較好的表示很多事實性知識。然而,人類知識類型多樣,面對很多復(fù)雜知識,三元組就束手無策了。例如,人們的購物記錄信息,新聞事件等,包含大量實體及其之間的復(fù)雜關(guān)系,更不用說人類大量的涉及主觀感受、主觀情感和模糊的知識了。有很多學(xué)者針對不同場景設(shè)計不同的知識表示方法。知識表示是知識圖譜構(gòu)建與應(yīng)用的基礎(chǔ),如何合理設(shè)計表示方案,更好地涵蓋人類不同類型的知識,是知識圖譜的重要研究問題。最近認(rèn)知領(lǐng)域關(guān)于人類知識類型的探索(Tenenbaum, et al. 2011)也許會對知識表示研究有一定啟發(fā)作用。

? ? ?2.知識獲取。如何從互聯(lián)網(wǎng)大數(shù)據(jù)萃取知識,是構(gòu)建知識圖譜的重要問題。目前已經(jīng)提出各種知識獲取方案,并已經(jīng)成功抽取大量有用的知識。但在抽取知識的準(zhǔn)確率、覆蓋率和效率等方面,都仍不如人意,有極大的提升空間。

? ? ?3.知識融合。來自不同數(shù)據(jù)的抽取知識可能存在大量噪音和冗余,或者使用了不同的語言。如何將這些知識有機融合起來,建立更大規(guī)模的知識圖譜,是實現(xiàn)大數(shù)據(jù)智能的必由之路。

? ? ?4.知識應(yīng)用。目前大規(guī)模知識圖譜的應(yīng)用場景和方式還比較有限,如何有效實現(xiàn)知識圖譜的應(yīng)用,利用知識圖譜實現(xiàn)深度知識推理,提高大規(guī)模知識圖譜計算效率,需要人們不斷銳意發(fā)掘用戶需求,探索更重要的應(yīng)用場景,提出新的應(yīng)用算法。這既需要豐富的知識圖譜技術(shù)積累,也需要對人類需求的敏銳感知,找到合適的應(yīng)用之道。

5.總結(jié):

?? ? 知識圖譜是下一代搜索引擎、自動問答等智能應(yīng)用的基礎(chǔ)設(shè)施。

?? ? 互聯(lián)網(wǎng)大數(shù)據(jù)是知識圖譜的重要數(shù)據(jù)來源。

? ? ?知識表示是知識圖譜構(gòu)建與應(yīng)用的基礎(chǔ)技術(shù)。

? ? ?實體鏈指、關(guān)系抽取和知識推理是知識圖譜構(gòu)建與應(yīng)用的核心技術(shù)。

? ? ?知識圖譜與本體(Ontology)和語義網(wǎng)(Semantic Web)等密切相關(guān),有興趣的親可以搜索與之相關(guān)的文獻閱讀。知識表示(Knowledge Representation)是人工智能的重要課題,讀者可以通過人工智能專著(Russell & Norvig 2009)了解其發(fā)展歷程。在關(guān)系抽取方面,讀者可以閱讀(Nauseates, et al. 2013)、(Nickel, et al. 2015)詳細(xì)了解相關(guān)技術(shù)。

--畢,此部分為知識庫部分讀書筆記。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 作者:劉知遠(yuǎn)(清華大學(xué));整理:林穎(RPI) 本文來自Big Data Intelligence知識就是力量?!?..
    墨白找閱讀 11,815評論 4 54
  • 本體、知識庫、知識圖譜、知識圖譜識別之間的關(guān)系? 本體:領(lǐng)域術(shù)語集合。 知識庫:知識集合。 知識圖譜:圖狀具有關(guān)聯(lián)...
    方弟閱讀 29,147評論 6 49
  • 這篇文章主要參考了[1]劉嶠,李楊,段宏,劉瑤,秦志光. 知識圖譜構(gòu)建技術(shù)綜述[J]. 計算機研究與發(fā)展,2016...
    我偏笑_NSNirvana閱讀 53,718評論 6 125
  • 前面的文章主要從理論的角度介紹了自然語言人機對話系統(tǒng)所可能涉及到的多個領(lǐng)域的經(jīng)典模型和基礎(chǔ)知識。這篇文章,甚至之后...
    我偏笑_NSNirvana閱讀 14,433評論 2 64
  • 知識圖譜(Knowledge Graph)是當(dāng)前學(xué)術(shù)界和企業(yè)界的研究熱點。中文知識圖譜的構(gòu)建對中文信息處理和中文信...
    茍雨閱讀 7,856評論 0 11

友情鏈接更多精彩內(nèi)容