學(xué)習(xí)筆記CB003:分塊、標(biāo)記、關(guān)系抽取、文法特征結(jié)構(gòu)

分塊,根據(jù)句子的詞和詞性,按照規(guī)則組織合分塊,分塊代表實(shí)體。常見實(shí)體,組織、人員、地點(diǎn)、日期、時(shí)間。名詞短語分塊(NP-chunking),通過詞性標(biāo)記、規(guī)則識(shí)別,通過機(jī)器學(xué)習(xí)方法識(shí)別。介詞短語(PP)、動(dòng)詞短語(VP)、句子(S)。

分塊標(biāo)記,IOB標(biāo)記,I(inside,內(nèi)部)、O(outside,外部)、B(begin,開始)。樹結(jié)構(gòu)存儲(chǔ)分塊。多級(jí)分塊,多重分塊方法。級(jí)聯(lián)分塊。

關(guān)系抽取,找出實(shí)體間關(guān)系。實(shí)體識(shí)別認(rèn)知事物,關(guān)系識(shí)別掌握真相。三元組(X,a,Y),X、Y實(shí)體,a表達(dá)關(guān)系字符串。通過正則識(shí)別。from nltk.corpus import conll2000,print(conll2000.chunked_sents('train.txt')[99]) 。

文法,潛在無限句子集合緊湊特性。形式化模型,覆蓋所有結(jié)構(gòu)句子。符合多種文法句子有歧義。只能用特征方法處理。

文法特征結(jié)構(gòu),單詞最后字母、詞性標(biāo)簽、文法類別、正字拼寫、指示物、關(guān)系、施事角色、受事角色。文法特征是鍵值對(duì),特征結(jié)構(gòu)存儲(chǔ)形式是字典。句法協(xié)議、屬性、約束、術(shù)語。import nltk,fs1 = nltk.FeatStruct(TENSE='past', NUM='sg') ,fs2 = nltk.FeatStruct(POS='N', AGR=fs1) 。nltk產(chǎn)生式文法描述 /nltk_data/grammars/book_grammars 。sql0.fcfg,查找國家城市sql語句文法:

% start S

S[SEM=(?np + WHERE + ?vp)] -> NP[SEM=?np] VP[SEM=?vp]

VP[SEM=(?v + ?pp)] -> IV[SEM=?v] PP[SEM=?pp]
VP[SEM=(?v + ?ap)] -> IV[SEM=?v] AP[SEM=?ap]
NP[SEM=(?det + ?n)] -> Det[SEM=?det] N[SEM=?n]
PP[SEM=(?p + ?np)] -> P[SEM=?p] NP[SEM=?np]
AP[SEM=?pp] -> A[SEM=?a] PP[SEM=?pp]

NP[SEM='Country="greece"'] -> 'Greece'
NP[SEM='Country="china"'] -> 'China'

Det[SEM='SELECT'] -> 'Which' | 'What'

N[SEM='City FROM city_table'] -> 'cities'

IV[SEM=''] -> 'are'
A[SEM=''] -> 'located'
P[SEM=''] -> 'in'

加載文法描述

import nltk
from nltk import load_parser
cp = load_parser('grammars/book_grammars/sql0.fcfg')
query = 'What cities are located in China'
tokens = query.split()
for tree in cp.parse(tokens):
    print(tree)

參考資料:

《Python 自然語言處理》

http://www.shareditor.com/blogshow?blogId=70

http://www.shareditor.com/blogshow?blogId=71

歡迎推薦上海機(jī)器學(xué)習(xí)工作機(jī)會(huì),我的微信:qingxingfengzi

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 命名實(shí)體識(shí)別 命名實(shí)體的提出源自信息抽取問題,即從報(bào)章等非結(jié)構(gòu)化文本中抽取關(guān)于公司活動(dòng)和國防相關(guān)活動(dòng)的結(jié)構(gòu)化信息,...
    我偏笑_NSNirvana閱讀 10,933評(píng)論 1 35
  • 自然語言處理教程 原文:Natural Language Process 譯者:飛龍 協(xié)議:CC BY-NC-SA...
    布客飛龍閱讀 33,374評(píng)論 6 68
  • <<<<<....中間的部分就是沖突部分....>>>>>> 沖突: <<<<< 等號(hào)上面是自己的 ====== ...
    無悔zero閱讀 177評(píng)論 0 0
  • 1 流水線的工作枯燥無味,每天都要耗費(fèi)我生活中的八個(gè)小時(shí)。整潔明亮的車間里,數(shù)以百計(jì)像我一樣的工人看著輸送帶上分毫...
    樸夏_閱讀 892評(píng)論 43 28
  • 席泠安和司南分手了。原因是泠安永遠(yuǎn)學(xué)不會(huì)示弱,撒嬌。恰好,好友這時(shí)約她出來喝酒,然后,就是現(xiàn)在這幅場景。 泠安以一...
    蘇錦言閱讀 573評(píng)論 0 1

友情鏈接更多精彩內(nèi)容