從零搭建行業(yè)知識圖譜及應用(一)

點擊查看原文

隨著互聯(lián)網(wǎng)和人工智能的發(fā)展,機器越來越多地參與到企業(yè)產(chǎn)品建設中。而知識圖譜能夠將物理世界中的知識轉化成數(shù)字世界中的符號,為機器提供行業(yè)背景知識,提高智慧程度。本篇文章是作者在建設知識圖譜路上的心得與思路整理。

1、知識圖譜背景介紹

隨著數(shù)據(jù)紅利的消耗,前期由少部分數(shù)據(jù)能夠驅動的計算智能(數(shù)值優(yōu)化、數(shù)值模擬等)到感知智能(語音識別、意圖識別、圖像識別等)已經(jīng)不能夠滿足企業(yè)的需求,知識圖譜所代表的認知智能將是下一代AI發(fā)展的焦點。

認知智能是智能化的關鍵,才能讓機器真正以人的思維來思考。

機器理解數(shù)據(jù)的本質(zhì)是:建立從數(shù)據(jù)到知識庫中實體、概念、關系的映射。

機器解釋現(xiàn)象的本質(zhì)是:利用知識庫中實體、概念、關系解釋現(xiàn)象的過程。

知識圖譜根據(jù)領域分為:1)通用領域知識圖譜 2)行業(yè)知識圖譜 3)企業(yè)知識圖譜。

目前通用領域知識圖譜比較知名的有:Wiki百科、Google百科、百度百科等。

行業(yè)知識圖譜需要根據(jù)行業(yè)特性,對比通用領域知識圖譜具有知識范圍窄、深度深、顆粒度細、專家參與程度高、應用復雜等特點,但行業(yè)知識圖譜對行業(yè)內(nèi)企業(yè)產(chǎn)生的價值無可估量。

知識圖譜的核心內(nèi)容為三元組。三元組是以〈主體(Subject),屬性(Property),客體(Object)〉形式的詞組,例如〈姚明,職業(yè),籃球運動員〉,主體與客體之間,有多對一、一對多的關系。

將全行業(yè)的全部抽取出來的三元組存儲到一起,并且整理他們之間的關系,就構成了一張行業(yè)知識圖譜。

2、三元組

三元組抽取的總體流程就是詞匯發(fā)現(xiàn)-->實體識別-->關系抽取。本文主要講解詞匯發(fā)現(xiàn)的過程,后續(xù)系列會繼續(xù)深入實體識別及關系抽取的過程。

三元組的提取模型按照監(jiān)督類型可以分為有監(jiān)督學習、無監(jiān)督學習及半監(jiān)督學習。

2.1 有監(jiān)督學習

如果在已經(jīng)有類似標注語料的情況下,可以直接使用深度學習模型進行訓練,模型精確度與語料質(zhì)量成正相關。

但是由于行業(yè)內(nèi)很少有相應的高質(zhì)量語料公開,如果要使用這種方式,需要耗費很大的人力成本進行語料標注,并且由于標注人員素質(zhì)參差不齊,會出現(xiàn)同一語料標注成不同結果的情況,造成模型訓練不收斂或者準確度不高的后果。

本篇主要內(nèi)容為在沒有大量語料及人力成本的前提下,為讀者提供一種成本較低的思路提取實體。

2.2 無監(jiān)督及半監(jiān)督學習

在無標注語料的前提下,我們來看看三元組的構成:〈實體,關系,實體〉或〈實體,屬性,值〉等??梢钥闯觯究梢苑殖蓛蓚€部分,實體識別和關系抽取。

2.2.1 實體識別

基于深度學習模型,我們可以看到業(yè)界主要分為兩種:多分類模型和序列標注模型。

分類模型主要是在Bi-LSTM的輸出結果之后,使用全連接+Softmax作為解碼器,選擇概率分布最高的結果,將每個字或詞來做分類,獨立地預測每個字符或單詞的分類,得到分類結果。

序列標注模型則是在Bi-LSTM的輸出結果之后,使用Softmax的概率分布,再加上概率轉移矩陣(即CRF)來輸出每個字或詞的結果。

序列標注模型的優(yōu)點是模型的輸出結果具有連續(xù)性,CRF會考慮前后tag之間的關系,而分類模型的結果有可能不符合常理。所以業(yè)界常用序列標注模型加上CRF的方式來做實體識別。

深度學習模型必須要經(jīng)過訓練,并且不論是分類模型還是序列標注模型,都需要提前標注語料。

使用傳統(tǒng)的機器學習方法,怎么來提取實體呢?

2.2.1.1 基于規(guī)則的詞匯挖掘

通過專家預先定義的Pattern來提取識別文檔中的高質(zhì)量詞匯,得到的詞匯質(zhì)量很高,但是使用人工定義規(guī)則成本極高,并且難以覆蓋全面。

2.2.1.2 基于統(tǒng)計學習

首先我們采用N-gram的方式來進行分詞,并且統(tǒng)計詞頻,得到候選詞列表及詞頻分數(shù)。

如果僅僅這樣,我們統(tǒng)計出來的詞組會出現(xiàn)很多類似“我們”、“今天”這種無意義詞語,所以還需要結合TF-IDF、PMI等特征工程來提取出真正意義上所需的高質(zhì)量高頻詞。

再結合候選詞詞頻及TF-IDF計算的特征進行加權得到詞語的最終得分,然后通過人工判斷的方式取topK,這樣得到的詞語質(zhì)量比較高。

常用的特征工程包含:

TF-IDF:挖掘能夠有效代表某篇文章的詞語

C-value:考慮了短語與其父短語的關系來挖掘高質(zhì)量短語? ??

NC-value:在C-value的基礎上進一步考慮了上下文來挖掘高質(zhì)量短語

PMI:挖掘組成部分一致性較高(經(jīng)常一起搭配)的短語

左(右)鄰字熵:挖掘左(右)鄰豐富的短語

3、總結

通常建設知識圖譜最難的情況就是,在沒有高質(zhì)量的標注語料下,怎樣能提取出高質(zhì)量、大范圍的專業(yè)詞匯,只有詞匯量足夠充足,才能做后續(xù)的實體識別、關系抽取工作。后續(xù)作者會持續(xù)分享接下來的同義詞發(fā)現(xiàn)、關系抽取等任務。

?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容