點擊查看原文

隨著互聯(lián)網(wǎng)和人工智能的發(fā)展，機器越來越多地參與到企業(yè)產(chǎn)品建設中。而知識圖譜能夠將物理世界中的知識轉化成數(shù)字世界中的符號，為機器提供行業(yè)背景知識，提高智慧程度。本篇文章是作者在建設知識圖譜路上的心得與思路整理。

1、知識圖譜背景介紹

隨著數(shù)據(jù)紅利的消耗，前期由少部分數(shù)據(jù)能夠驅動的計算智能（數(shù)值優(yōu)化、數(shù)值模擬等）到感知智能（語音識別、意圖識別、圖像識別等）已經(jīng)不能夠滿足企業(yè)的需求，知識圖譜所代表的認知智能將是下一代AI發(fā)展的焦點。

認知智能是智能化的關鍵，才能讓機器真正以人的思維來思考。

機器理解數(shù)據(jù)的本質(zhì)是：建立從數(shù)據(jù)到知識庫中實體、概念、關系的映射。

機器解釋現(xiàn)象的本質(zhì)是：利用知識庫中實體、概念、關系解釋現(xiàn)象的過程。

知識圖譜根據(jù)領域分為：1）通用領域知識圖譜 2）行業(yè)知識圖譜 3）企業(yè)知識圖譜。

目前通用領域知識圖譜比較知名的有：Wiki百科、Google百科、百度百科等。

行業(yè)知識圖譜需要根據(jù)行業(yè)特性，對比通用領域知識圖譜具有知識范圍窄、深度深、顆粒度細、專家參與程度高、應用復雜等特點，但行業(yè)知識圖譜對行業(yè)內(nèi)企業(yè)產(chǎn)生的價值無可估量。

知識圖譜的核心內(nèi)容為三元組。三元組是以〈主體（Subject），屬性（Property），客體（Object）〉形式的詞組，例如〈姚明，職業(yè)，籃球運動員〉，主體與客體之間，有多對一、一對多的關系。

將全行業(yè)的全部抽取出來的三元組存儲到一起，并且整理他們之間的關系，就構成了一張行業(yè)知識圖譜。

2、三元組

三元組抽取的總體流程就是詞匯發(fā)現(xiàn)-->實體識別-->關系抽取。本文主要講解詞匯發(fā)現(xiàn)的過程，后續(xù)系列會繼續(xù)深入實體識別及關系抽取的過程。

三元組的提取模型按照監(jiān)督類型可以分為有監(jiān)督學習、無監(jiān)督學習及半監(jiān)督學習。

2.1 有監(jiān)督學習

如果在已經(jīng)有類似標注語料的情況下，可以直接使用深度學習模型進行訓練，模型精確度與語料質(zhì)量成正相關。

但是由于行業(yè)內(nèi)很少有相應的高質(zhì)量語料公開，如果要使用這種方式，需要耗費很大的人力成本進行語料標注，并且由于標注人員素質(zhì)參差不齊，會出現(xiàn)同一語料標注成不同結果的情況，造成模型訓練不收斂或者準確度不高的后果。

本篇主要內(nèi)容為在沒有大量語料及人力成本的前提下，為讀者提供一種成本較低的思路提取實體。

2.2 無監(jiān)督及半監(jiān)督學習

在無標注語料的前提下，我們來看看三元組的構成：〈實體，關系，實體〉或〈實體，屬性，值〉等?？梢钥闯觯究梢苑殖蓛蓚€部分，實體識別和關系抽取。

2.2.1 實體識別

基于深度學習模型，我們可以看到業(yè)界主要分為兩種：多分類模型和序列標注模型。

分類模型主要是在Bi-LSTM的輸出結果之后，使用全連接+Softmax作為解碼器，選擇概率分布最高的結果，將每個字或詞來做分類，獨立地預測每個字符或單詞的分類，得到分類結果。

序列標注模型則是在Bi-LSTM的輸出結果之后，使用Softmax的概率分布，再加上概率轉移矩陣（即CRF）來輸出每個字或詞的結果。

序列標注模型的優(yōu)點是模型的輸出結果具有連續(xù)性，CRF會考慮前后tag之間的關系，而分類模型的結果有可能不符合常理。所以業(yè)界常用序列標注模型加上CRF的方式來做實體識別。

深度學習模型必須要經(jīng)過訓練，并且不論是分類模型還是序列標注模型，都需要提前標注語料。

使用傳統(tǒng)的機器學習方法，怎么來提取實體呢？

2.2.1.1 基于規(guī)則的詞匯挖掘

通過專家預先定義的Pattern來提取識別文檔中的高質(zhì)量詞匯，得到的詞匯質(zhì)量很高，但是使用人工定義規(guī)則成本極高，并且難以覆蓋全面。

2.2.1.2 基于統(tǒng)計學習

首先我們采用N-gram的方式來進行分詞，并且統(tǒng)計詞頻，得到候選詞列表及詞頻分數(shù)。

如果僅僅這樣，我們統(tǒng)計出來的詞組會出現(xiàn)很多類似“我們”、“今天”這種無意義詞語，所以還需要結合TF-IDF、PMI等特征工程來提取出真正意義上所需的高質(zhì)量高頻詞。

再結合候選詞詞頻及TF-IDF計算的特征進行加權得到詞語的最終得分，然后通過人工判斷的方式取topK，這樣得到的詞語質(zhì)量比較高。

常用的特征工程包含：

TF-IDF：挖掘能夠有效代表某篇文章的詞語

C-value：考慮了短語與其父短語的關系來挖掘高質(zhì)量短語? ??

NC-value：在C-value的基礎上進一步考慮了上下文來挖掘高質(zhì)量短語

PMI：挖掘組成部分一致性較高（經(jīng)常一起搭配）的短語

左（右）鄰字熵：挖掘左（右）鄰豐富的短語

3、總結

通常建設知識圖譜最難的情況就是，在沒有高質(zhì)量的標注語料下，怎樣能提取出高質(zhì)量、大范圍的專業(yè)詞匯，只有詞匯量足夠充足，才能做后續(xù)的實體識別、關系抽取工作。后續(xù)作者會持續(xù)分享接下來的同義詞發(fā)現(xiàn)、關系抽取等任務。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

從零搭建行業(yè)知識圖譜及應用（一）

從零搭建行業(yè)知識圖譜及應用（一）

1、知識圖譜背景介紹

2、三元組

2.1 有監(jiān)督學習

2.2 無監(jiān)督及半監(jiān)督學習

2.2.1 實體識別

2.2.1.1 基于規(guī)則的詞匯挖掘

2.2.1.2 基于統(tǒng)計學習

3、總結

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

從零搭建行業(yè)知識圖譜及應用（一）

1、知識圖譜背景介紹

2、三元組

2.1 有監(jiān)督學習

2.2 無監(jiān)督及半監(jiān)督學習

2.2.1 實體識別

2.2.1.1 基于規(guī)則的詞匯挖掘

2.2.1.2 基于統(tǒng)計學習

3、總結

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

1、知識圖譜背景介紹

2、三元組

3、總結