用知識(shí)圖譜輔助NER問題

NER全稱Named-entity recognition(命名實(shí)體識(shí)別),是指識(shí)別文本中具有特定意義的實(shí)體,主要包括人名、地名、機(jī)構(gòu)名、專有名詞等。

知識(shí)圖譜中包含了許多實(shí)體的知識(shí)信息,能夠輔助NER問題。與常規(guī)NER不同的是,使用知識(shí)圖譜除了給出實(shí)體類型之外,還能夠精確地鏈接到知識(shí)圖譜的實(shí)體id上,是一個(gè)Entity Linking(實(shí)體鏈指)問題。

使用知識(shí)圖譜進(jìn)行NER可以分為兩個(gè)步驟:1,選取候選實(shí)體集;2,鏈指到具體某個(gè)實(shí)體

1,選取候選實(shí)體集:這個(gè)步驟比較簡(jiǎn)單,可以將知識(shí)圖譜所有數(shù)據(jù)建立一個(gè)從實(shí)體名稱-->實(shí)體id的倒排表,通過查詢到倒排表就能夠完成選取候選實(shí)體集功能。這里可以解決別名&簡(jiǎn)寫問題,例如奧尼爾=大鯊魚,詹姆斯=小皇帝,將這種已知的別名信息也加入到倒排表中做為索引鍵。

2,鏈指到某個(gè)具體實(shí)體:通過第一步,在文本的每個(gè)實(shí)體會(huì)鏈接到1個(gè)或多個(gè)實(shí)體上,需要選擇其中一個(gè)最合適的。之所以可能被鏈接到多個(gè)實(shí)體,是因?yàn)閷?shí)體名稱本身就存在歧義性。例如李娜可以是一個(gè)運(yùn)動(dòng)員,也是一個(gè)歌手;李白既是一個(gè)詩(shī)人,也是一首歌。

可以利用知識(shí)圖譜中的以下信息來進(jìn)行實(shí)體消歧:

a)實(shí)體熱度:熱度分表示一個(gè)實(shí)體被大家所了解的程度,進(jìn)行消歧時(shí)優(yōu)先選擇高熱度分的實(shí)體。熱度分可以通過多種方式構(gòu)建,例如在文本中出現(xiàn)的次數(shù),百度百科中被瀏覽數(shù),音樂/電影類實(shí)體的評(píng)論數(shù)等等。

b)實(shí)體上下文:將每個(gè)實(shí)體的上下文詞做為語(yǔ)義向量,比如蘋果(公司)的上下文詞是ipad,iphone,股價(jià)等,蘋果(水果)的上下文詞是好吃,顏色等,在做實(shí)體消歧的時(shí)候根據(jù)文本上下文進(jìn)行判斷。

c)實(shí)體距離:知識(shí)圖譜中的實(shí)體通過關(guān)系(邊)進(jìn)行連接,一般來說距離越近的實(shí)體點(diǎn),其共現(xiàn)概率越大。如果已經(jīng)判斷出來文本中某個(gè)實(shí)體,可以計(jì)算其他候選實(shí)體與其距離。

后續(xù)對(duì)于NER這塊內(nèi)容可能還會(huì)深入了解,到時(shí)候再進(jìn)行補(bǔ)充更新。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 本體、知識(shí)庫(kù)、知識(shí)圖譜、知識(shí)圖譜識(shí)別之間的關(guān)系? 本體:領(lǐng)域術(shù)語(yǔ)集合。 知識(shí)庫(kù):知識(shí)集合。 知識(shí)圖譜:圖狀具有關(guān)聯(lián)...
    方弟閱讀 29,125評(píng)論 6 49
  • 這篇文章主要參考了[1]劉嶠,李楊,段宏,劉瑤,秦志光. 知識(shí)圖譜構(gòu)建技術(shù)綜述[J]. 計(jì)算機(jī)研究與發(fā)展,2016...
    我偏笑_NSNirvana閱讀 53,686評(píng)論 6 125
  • 作者:劉知遠(yuǎn)(清華大學(xué));整理:林穎(RPI) 本文來自Big Data Intelligence知識(shí)就是力量。—...
    墨白找閱讀 11,811評(píng)論 4 54
  • 知識(shí)圖譜(Knowledge Graph)是當(dāng)前學(xué)術(shù)界和企業(yè)界的研究熱點(diǎn)。中文知識(shí)圖譜的構(gòu)建對(duì)中文信息處理和中文信...
    茍雨閱讀 7,845評(píng)論 0 11
  • 前面的文章主要從理論的角度介紹了自然語(yǔ)言人機(jī)對(duì)話系統(tǒng)所可能涉及到的多個(gè)領(lǐng)域的經(jīng)典模型和基礎(chǔ)知識(shí)。這篇文章,甚至之后...
    我偏笑_NSNirvana閱讀 14,401評(píng)論 2 64

友情鏈接更多精彩內(nèi)容