NER全稱Named-entity recognition(命名實(shí)體識(shí)別),是指識(shí)別文本中具有特定意義的實(shí)體,主要包括人名、地名、機(jī)構(gòu)名、專有名詞等。
知識(shí)圖譜中包含了許多實(shí)體的知識(shí)信息,能夠輔助NER問題。與常規(guī)NER不同的是,使用知識(shí)圖譜除了給出實(shí)體類型之外,還能夠精確地鏈接到知識(shí)圖譜的實(shí)體id上,是一個(gè)Entity Linking(實(shí)體鏈指)問題。
使用知識(shí)圖譜進(jìn)行NER可以分為兩個(gè)步驟:1,選取候選實(shí)體集;2,鏈指到具體某個(gè)實(shí)體
1,選取候選實(shí)體集:這個(gè)步驟比較簡(jiǎn)單,可以將知識(shí)圖譜所有數(shù)據(jù)建立一個(gè)從實(shí)體名稱-->實(shí)體id的倒排表,通過查詢到倒排表就能夠完成選取候選實(shí)體集功能。這里可以解決別名&簡(jiǎn)寫問題,例如奧尼爾=大鯊魚,詹姆斯=小皇帝,將這種已知的別名信息也加入到倒排表中做為索引鍵。
2,鏈指到某個(gè)具體實(shí)體:通過第一步,在文本的每個(gè)實(shí)體會(huì)鏈接到1個(gè)或多個(gè)實(shí)體上,需要選擇其中一個(gè)最合適的。之所以可能被鏈接到多個(gè)實(shí)體,是因?yàn)閷?shí)體名稱本身就存在歧義性。例如李娜可以是一個(gè)運(yùn)動(dòng)員,也是一個(gè)歌手;李白既是一個(gè)詩(shī)人,也是一首歌。
可以利用知識(shí)圖譜中的以下信息來進(jìn)行實(shí)體消歧:
a)實(shí)體熱度:熱度分表示一個(gè)實(shí)體被大家所了解的程度,進(jìn)行消歧時(shí)優(yōu)先選擇高熱度分的實(shí)體。熱度分可以通過多種方式構(gòu)建,例如在文本中出現(xiàn)的次數(shù),百度百科中被瀏覽數(shù),音樂/電影類實(shí)體的評(píng)論數(shù)等等。
b)實(shí)體上下文:將每個(gè)實(shí)體的上下文詞做為語(yǔ)義向量,比如蘋果(公司)的上下文詞是ipad,iphone,股價(jià)等,蘋果(水果)的上下文詞是好吃,顏色等,在做實(shí)體消歧的時(shí)候根據(jù)文本上下文進(jìn)行判斷。
c)實(shí)體距離:知識(shí)圖譜中的實(shí)體通過關(guān)系(邊)進(jìn)行連接,一般來說距離越近的實(shí)體點(diǎn),其共現(xiàn)概率越大。如果已經(jīng)判斷出來文本中某個(gè)實(shí)體,可以計(jì)算其他候選實(shí)體與其距離。
后續(xù)對(duì)于NER這塊內(nèi)容可能還會(huì)深入了解,到時(shí)候再進(jìn)行補(bǔ)充更新。