隨著互聯(lián)網(wǎng)和人工智能的發(fā)展,機器越來越多地參與到企業(yè)產(chǎn)品建設中。而知識圖譜能夠將物理世界中的知識轉化成數(shù)字世界中的符號,為機器提供行業(yè)背景知識,提高智慧程度。本篇文章是作者在建設知識圖譜路上的心得與思路整理。
1、知識圖譜背景介紹
隨著數(shù)據(jù)紅利的消耗,前期由少部分數(shù)據(jù)能夠驅動的計算智能(數(shù)值優(yōu)化、數(shù)值模擬等)到感知智能(語音識別、意圖識別、圖像識別等)已經(jīng)不能夠滿足企業(yè)的需求,知識圖譜所代表的認知智能將是下一代AI發(fā)展的焦點。
認知智能是智能化的關鍵,才能讓機器真正以人的思維來思考。
機器理解數(shù)據(jù)的本質(zhì)是:建立從數(shù)據(jù)到知識庫中實體、概念、關系的映射。
機器解釋現(xiàn)象的本質(zhì)是:利用知識庫中實體、概念、關系解釋現(xiàn)象的過程。
知識圖譜根據(jù)領域分為:1)通用領域知識圖譜 2)行業(yè)知識圖譜 3)企業(yè)知識圖譜。
目前通用領域知識圖譜比較知名的有:Wiki百科、Google百科、百度百科等。
行業(yè)知識圖譜需要根據(jù)行業(yè)特性,對比通用領域知識圖譜具有知識范圍窄、深度深、顆粒度細、專家參與程度高、應用復雜等特點,但行業(yè)知識圖譜對行業(yè)內(nèi)企業(yè)產(chǎn)生的價值無可估量。
知識圖譜的核心內(nèi)容為三元組。三元組是以〈主體(Subject),屬性(Property),客體(Object)〉形式的詞組,例如〈姚明,職業(yè),籃球運動員〉,主體與客體之間,有多對一、一對多的關系。
將全行業(yè)的全部抽取出來的三元組存儲到一起,并且整理他們之間的關系,就構成了一張行業(yè)知識圖譜。
2、三元組
三元組抽取的總體流程就是詞匯發(fā)現(xiàn)-->實體識別-->關系抽取。本文主要講解詞匯發(fā)現(xiàn)的過程,后續(xù)系列會繼續(xù)深入實體識別及關系抽取的過程。
三元組的提取模型按照監(jiān)督類型可以分為有監(jiān)督學習、無監(jiān)督學習及半監(jiān)督學習。
2.1 有監(jiān)督學習
如果在已經(jīng)有類似標注語料的情況下,可以直接使用深度學習模型進行訓練,模型精確度與語料質(zhì)量成正相關。
但是由于行業(yè)內(nèi)很少有相應的高質(zhì)量語料公開,如果要使用這種方式,需要耗費很大的人力成本進行語料標注,并且由于標注人員素質(zhì)參差不齊,會出現(xiàn)同一語料標注成不同結果的情況,造成模型訓練不收斂或者準確度不高的后果。
本篇主要內(nèi)容為在沒有大量語料及人力成本的前提下,為讀者提供一種成本較低的思路提取實體。
2.2 無監(jiān)督及半監(jiān)督學習
在無標注語料的前提下,我們來看看三元組的構成:〈實體,關系,實體〉或〈實體,屬性,值〉等??梢钥闯觯究梢苑殖蓛蓚€部分,實體識別和關系抽取。
2.2.1 實體識別
基于深度學習模型,我們可以看到業(yè)界主要分為兩種:多分類模型和序列標注模型。
分類模型主要是在Bi-LSTM的輸出結果之后,使用全連接+Softmax作為解碼器,選擇概率分布最高的結果,將每個字或詞來做分類,獨立地預測每個字符或單詞的分類,得到分類結果。
序列標注模型則是在Bi-LSTM的輸出結果之后,使用Softmax的概率分布,再加上概率轉移矩陣(即CRF)來輸出每個字或詞的結果。
序列標注模型的優(yōu)點是模型的輸出結果具有連續(xù)性,CRF會考慮前后tag之間的關系,而分類模型的結果有可能不符合常理。所以業(yè)界常用序列標注模型加上CRF的方式來做實體識別。
深度學習模型必須要經(jīng)過訓練,并且不論是分類模型還是序列標注模型,都需要提前標注語料。
使用傳統(tǒng)的機器學習方法,怎么來提取實體呢?
2.2.1.1 基于規(guī)則的詞匯挖掘
通過專家預先定義的Pattern來提取識別文檔中的高質(zhì)量詞匯,得到的詞匯質(zhì)量很高,但是使用人工定義規(guī)則成本極高,并且難以覆蓋全面。
2.2.1.2 基于統(tǒng)計學習
首先我們采用N-gram的方式來進行分詞,并且統(tǒng)計詞頻,得到候選詞列表及詞頻分數(shù)。
如果僅僅這樣,我們統(tǒng)計出來的詞組會出現(xiàn)很多類似“我們”、“今天”這種無意義詞語,所以還需要結合TF-IDF、PMI等特征工程來提取出真正意義上所需的高質(zhì)量高頻詞。
再結合候選詞詞頻及TF-IDF計算的特征進行加權得到詞語的最終得分,然后通過人工判斷的方式取topK,這樣得到的詞語質(zhì)量比較高。
常用的特征工程包含:
TF-IDF:挖掘能夠有效代表某篇文章的詞語
C-value:考慮了短語與其父短語的關系來挖掘高質(zhì)量短語? ??
NC-value:在C-value的基礎上進一步考慮了上下文來挖掘高質(zhì)量短語
PMI:挖掘組成部分一致性較高(經(jīng)常一起搭配)的短語
左(右)鄰字熵:挖掘左(右)鄰豐富的短語
3、總結
通常建設知識圖譜最難的情況就是,在沒有高質(zhì)量的標注語料下,怎樣能提取出高質(zhì)量、大范圍的專業(yè)詞匯,只有詞匯量足夠充足,才能做后續(xù)的實體識別、關系抽取工作。后續(xù)作者會持續(xù)分享接下來的同義詞發(fā)現(xiàn)、關系抽取等任務。