自然語言處理基礎(chǔ)技術(shù)之命名實(shí)體識(shí)別簡(jiǎn)介

聲明:轉(zhuǎn)載請(qǐng)注明出處,謝謝:http://www.itdecent.cn/p/02b08ff8ad3c
另外,更多實(shí)時(shí)更新的個(gè)人學(xué)習(xí)筆記分享,請(qǐng)關(guān)注:


知乎https://www.zhihu.com/people/yuquanle/columns
公眾號(hào):StudyForAI
CSDN地址http://blog.csdn.net/m0_37306360


整理一波關(guān)于命名實(shí)體識(shí)別方面的知識(shí),希望對(duì)大家有幫助~~

命名實(shí)體識(shí)別定義:

  • 百度百科定義:命名實(shí)體識(shí)別(Named Entity Recognition,簡(jiǎn)稱NER),又稱作“專名識(shí)別”,是指識(shí)別文本中具有特定意義的實(shí)體,主要包括人名、地名、機(jī)構(gòu)名、專有名詞等。

  • 維基百科定義:Named-entity recognition (NER) (also known as entity identification, entity chunking and entity extraction) is a subtask of information extraction that seeks to locate and classify named entity mentions in unstructured text into pre-defined categories such as the person names, organizations, locations, medical codes, time expressions, quantities, monetary values, percentages, etc.

  • 簡(jiǎn)單的講,就是識(shí)別自然文本中的實(shí)體指稱的邊界和類別。

發(fā)展歷史:

  • 命名實(shí)體識(shí)別(Named Entity Recognition)這個(gè)術(shù)語首次出現(xiàn)在MUC-6(Message Understanding Conferences),這個(gè)會(huì)議關(guān)注的主要問題是信息抽取(Information Extraction),第六屆MUC除了信息抽取評(píng)測(cè)任務(wù)還開設(shè)了新評(píng)測(cè)任務(wù)即命名實(shí)體識(shí)別任務(wù)。除此之外,其他相關(guān)的評(píng)測(cè)會(huì)議包括CoNLL(Conference on Computational Natural Language Learning)、ACE(Automatic Content Extraction)和IEER(Information Extraction-Entity Recognition Evaluation)等。

  • 在MUC-6之前,大家主要是關(guān)注人名、地名和組織機(jī)構(gòu)名這三類專業(yè)名詞的識(shí)別。自MUC-6起,后面有很多研究對(duì)類別進(jìn)行了更細(xì)致的劃分,比如地名被進(jìn)一步細(xì)化為城市、州和國(guó)家,也有人將人名進(jìn)一步細(xì)分為政治家、藝人等小類。

  • 此外,一些評(píng)測(cè)還擴(kuò)大了專業(yè)名詞的范圍,比如CoNLL某年組織的評(píng)測(cè)中包含了產(chǎn)品名的識(shí)別。一些研究也涉及電影名、書名、項(xiàng)目名、研究領(lǐng)域名稱、電子郵件地址、電話號(hào)碼以及生物信息學(xué)領(lǐng)域的專有名詞(如蛋白質(zhì)、DNA、RNA等)。甚至有一些工作不限定“實(shí)體”的類型,而是將其當(dāng)作開放域的命名實(shí)體識(shí)別和分類。

常見方法:

早期的命名實(shí)體識(shí)別方法基本都是基于規(guī)則的。之后由于基于大規(guī)模的語料庫的統(tǒng)計(jì)方法在自然語言處理各個(gè)方面取得不錯(cuò)的效果之后,一大批機(jī)器學(xué)習(xí)的方法也出現(xiàn)在命名實(shí)體類識(shí)別任務(wù)。宗成慶老師在統(tǒng)計(jì)自然語言處理一書粗略的將這些基于機(jī)器學(xué)習(xí)的命名實(shí)體識(shí)別方法劃分為以下幾類:

  • 有監(jiān)督的學(xué)習(xí)方法:這一類方法需要利用大規(guī)模的已標(biāo)注語料對(duì)模型進(jìn)行參數(shù)訓(xùn)練。目前常用的模型或方法包括隱馬爾可夫模型、語言模型、最大熵模型、支持向量機(jī)、決策樹和條件隨機(jī)場(chǎng)等。值得一提的是,基于條件隨機(jī)場(chǎng)的方法是命名實(shí)體識(shí)別中最成功的方法。

  • 半監(jiān)督的學(xué)習(xí)方法:這一類方法利用標(biāo)注的小數(shù)據(jù)集(種子數(shù)據(jù))自舉學(xué)習(xí)。

  • 無監(jiān)督的學(xué)習(xí)方法:這一類方法利用詞匯資源(如WordNet)等進(jìn)行上下文聚類。

  • 混合方法:幾種模型相結(jié)合或利用統(tǒng)計(jì)方法和人工總結(jié)的知識(shí)庫。

值得一提的是,由于深度學(xué)習(xí)在自然語言的廣泛應(yīng)用,基于深度學(xué)習(xí)的命名實(shí)體識(shí)別方法也展現(xiàn)出不錯(cuò)的效果,此類方法基本還是把命名實(shí)體識(shí)別當(dāng)作序列標(biāo)注任務(wù)來做,比較經(jīng)典的方法是LSTM+CRF、BiLSTM+CRF。

這里有一個(gè)基于tensorflow的實(shí)現(xiàn):https://github.com/shiyybua/NER

一些相關(guān)的數(shù)據(jù)集:

命名實(shí)體識(shí)別工具:

最新研究進(jìn)展看這里:

https://github.com/yuquanle/NLP-progress/blob/master/named_entity_recognition.md

參考:

1.統(tǒng)計(jì)自然語言處理

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容