NLP的任務(wù)

本文整理自網(wǎng)絡(luò),主要是對自然語言處理能發(fā)展和落地的方向進行總結(jié),也算是對自然語言處理常見任務(wù)的總結(jié)。

NLP的四大任務(wù)如下:

  1. 序列標(biāo)注任務(wù)
  2. 分類任務(wù)
  3. 句子關(guān)系判斷
  4. 生成式任務(wù)
image

1. 序列標(biāo)注任務(wù)

序列標(biāo)注(Sequence labeling)是我們在解決NLP問題時經(jīng)常遇到的基本問題之一。在序列標(biāo)注中,我們想對一個序列的每一個元素標(biāo)注一個標(biāo)簽。一般來說,一個序列指的是一個句子,而一個元素指的是句子中的一個詞。比如信息提取問題可以認(rèn)為是一個序列標(biāo)注問題,如提取出會議時間、地點等。

序列標(biāo)注一般可以分為兩類:

  • 原始標(biāo)注(Raw labeling):每個元素都需要被標(biāo)注為一個標(biāo)簽。
  • 聯(lián)合標(biāo)注(Joint segmentation and labeling):所有的分段被標(biāo)注為同樣的標(biāo)簽。

命名實體識別(Named entity recognition, NER)是信息提取問題的一個子任務(wù),需要將元素進行定位和分類,如人名、組織名、地點、時間、質(zhì)量等。

舉個NER和聯(lián)合標(biāo)注的例子。一個句子為:Yesterday , George Bush gave a speech. 其中包括一個命名實體:George Bush。我們希望將標(biāo)簽“人名”標(biāo)注到整個短語“George Bush”中,而不是將兩個詞分別標(biāo)注。這就是聯(lián)合標(biāo)注。

1.1 BIO標(biāo)注

解決聯(lián)合標(biāo)注問題最簡單的方法,就是將其轉(zhuǎn)化為原始標(biāo)注問題。標(biāo)準(zhǔn)做法就是使用BIO標(biāo)注。

BIO標(biāo)注:將每個元素標(biāo)注為“B-X”、“I-X”或者“O”。其中,“B-X”表示此元素所在的片段屬于X類型并且此元素在此片段的開頭,“I-X”表示此元素所在的片段屬于X類型并且此元素在此片段的中間位置,“O”表示不屬于任何類型。

比如,我們將 X 表示為名詞短語(Noun Phrase, NP),則BIO的三個標(biāo)記為:

  • B-NP:名詞短語的開頭;
  • I-NP:名詞短語的中間;
  • O:不是名詞短語;

因此可以將一段話劃分為如下結(jié)果:

image

我們可以進一步將BIO應(yīng)用到NER中,來定義所有的命名實體(人名、組織名、地點、時間等),那么我們會有許多 B 和 I 的類別,如 B-PERS、I-PERS、B-ORG、I-ORG等。然后可以得到以下結(jié)果:

[圖片上傳失敗...(image-b1cfb3-1609330627120)]

1.2 序列標(biāo)注常用模型

  • Bi-LSTM

選擇雙向LSTM的原因是:當(dāng)前詞的tag和前后文都有關(guān)。

1.3 序列標(biāo)注具體任務(wù)

(1)分詞

  • 輸入:word + tag(I:in word;E:end of word);
  • 輸出:tag of word,標(biāo)簽是E的后面加空格,就達到了分詞的目的;

(2)詞性標(biāo)注(Part-of-Speech tagging ,POS tagging)

  • 輸入:word + tag (詞性:動詞、名詞、形容詞等);
  • 輸出:詞性;
  • 模型:HMM也可以做

(3)命名實體標(biāo)注(name entity recognition, NER)

  • 輸入:word + tag(B: begin of entity,I : inside of entity,o: outside of entity);
  • 輸出:實體標(biāo)注;

(4)詞義角色標(biāo)注 (semantic role labeling, SRL) :

  • 輸入: word + 是不是謂語(B-Argo,I-Argo,BV );
  • 輸出:語義角色;

2. 分類任務(wù)

2.1 分類的具體任務(wù)

(1)文本分類、情感分類

  • 模型:LSTM,屬于 many- to - one 的問題,最后使用 Softmax輸出分類結(jié)果;

3. 句子關(guān)系判斷

3.1 具體任務(wù)

(1)句法分析、蘊含關(guān)系判斷(entailment)

  • 模型:語法分析樹,LSTM 來對每個edges 算得分,選擇得分高的edges,限制是這些edges 必須組成一個樹;
  • 模型:RNNGs 也可以做

4. 生成式任務(wù)

這類任務(wù)一般直接面向普通用戶,提供自然語言處理產(chǎn)品服務(wù)的系統(tǒng)級任務(wù),會用到多個層面的自然語言處理技術(shù)。

4.1 具體任務(wù)

(1)機器翻譯(Machine Translation,MT)

Encoder-Decoder的最經(jīng)典應(yīng)用,事實上這一結(jié)構(gòu)就是在機器翻譯領(lǐng)域最先提出的。

(2)文本摘要、總結(jié)(Text summarization/Simplication)

輸入是一段文本序列,輸出是這段文本序列的摘要序列。

(3)閱讀理解(Reading Comprehension)

將輸入的文章和問題分別編碼,再對其進行解碼得到問題的答案。

(4)語音識別

輸入是語音信號序列,輸出是文字序列。

(5)對話系統(tǒng)(Dialogue Systerm)

輸入的是一句話,輸出是對這句話的回答。

(6)問答系統(tǒng)(Question-Answering Systerm)

針對用戶提出的問題,系統(tǒng)給出相應(yīng)的答案。

(7)自動文章分級(Automatic Essay Grading)

給定一篇文章,對文章的質(zhì)量進行打分或分級。


NLP基本任務(wù):

1. 詞法分析(Lexical Analysis):對自然語言進行詞匯層面的分析,是NLP基礎(chǔ)性工作

  • 分詞(Word Segmentation/Tokenization):對沒有明顯邊界的文本進行切分,得到詞序列
  • 新詞發(fā)現(xiàn)(New Words Identification):找出文本中具有新形勢、新意義或是新用法的詞
  • 形態(tài)分析(Morphological Analysis):分析單詞的形態(tài)組成,包括詞干(Sterms)、詞根(Roots)、詞綴(Prefixes and Suffixes)等
  • 詞性標(biāo)注(Part-of-speech Tagging):確定文本中每個詞的詞性。詞性包括動詞(Verb)、名詞(Noun)、代詞(pronoun)等
  • 拼寫校正(Spelling Correction):找出拼寫錯誤的詞并進行糾正

2. 句子分析(Sentence Analysis):對自然語言進行句子層面的分析,包括句法分析和其他句子級別的分析任務(wù)

  • 組塊分析(Chunking):標(biāo)出句子中的短語塊,例如名詞短語(NP),動詞短語(VP)等
  • 超級標(biāo)簽標(biāo)注(Super Tagging):給每個句子中的每個詞標(biāo)注上超級標(biāo)簽,超級標(biāo)簽是句法樹中與該詞相關(guān)的樹形結(jié)構(gòu)
  • 成分句法分析(Constituency Parsing):分析句子的成分,給出一棵樹由終結(jié)符和非終結(jié)符構(gòu)成的句法樹
  • 依存句法分析(Dependency Parsing):分析句子中詞與詞之間的依存關(guān)系,給一棵由詞語依存關(guān)系構(gòu)成的依存句法樹
  • 語言模型(Language Modeling):對給定的一個句子進行打分,該分?jǐn)?shù)代表句子合理性(流暢度)的程度
  • 語種識別(Language Identification):給定一段文本,確定該文本屬于哪個語種
  • 句子邊界檢測(Sentence Boundary Detection):給沒有明顯句子邊界的文本加邊界

3. 語義分析(Semantic Analysis):對給定文本進行分析和理解,形成能勾夠表達語義的形式化表示或分布式表示

  • 詞義消歧(Word Sense Disambiguation):對有歧義的詞,確定其準(zhǔn)確的詞義
  • 語義角色標(biāo)注(Semantic Role Labeling):標(biāo)注句子中的語義角色類標(biāo),語義角色,語義角色包括施事、受事、影響等
  • 抽象語義表示分析(Abstract Meaning Representation Parsing):AMR是一種抽象語義表示形式,AMR parser把句子解析成AMR結(jié)構(gòu)
  • 一階謂詞邏輯演算(First Order Predicate Calculus):使用一階謂詞邏輯系統(tǒng)表達語義
  • 框架語義分析(Frame Semantic Parsing):根據(jù)框架語義學(xué)的觀點,對句子進行語義分析
  • 詞匯/句子/段落的向量化表示(Word/Sentence/Paragraph Vector):研究詞匯、句子、段落的向量化方法,向量的性質(zhì)和應(yīng)用

4. 信息抽?。↖nformation Extraction):從無結(jié)構(gòu)文本中抽取結(jié)構(gòu)化的信息

  • 命名實體識別(Named Entity Recognition):從文本中識別出命名實體,實體一般包括人名、地名、機構(gòu)名、時間、日期、貨幣、百分比等
  • 實體消歧(Entity Disambiguation):確定實體指代的現(xiàn)實世界中的對象
  • 術(shù)語抽?。═erminology/Giossary Extraction):從文本中確定術(shù)語
  • 共指消解(Coreference Resolution):確定不同實體的等價描述,包括代詞消解和名詞消解
  • 關(guān)系抽?。≧elationship Extraction):確定文本中兩個實體之間的關(guān)系類型
  • 事件抽取(Event Extraction):從無結(jié)構(gòu)的文本中抽取結(jié)構(gòu)化事件
  • 情感分析(Sentiment Analysis):對文本的主觀性情緒進行提取
  • 意圖識別(Intent Detection):對話系統(tǒng)中的一個重要模塊,對用戶給定的對話內(nèi)容進行分析,識別用戶意圖
  • 槽位填充(Slot Filling):對話系統(tǒng)中的一個重要模塊,從對話內(nèi)容中分析出于用戶意圖相關(guān)的有效信息

5. 頂層任務(wù)(High-level Tasks):直接面向普通用戶,提供自然語言處理產(chǎn)品服務(wù)的系統(tǒng)級任務(wù),會用到多個層面的自然語言處理技術(shù)

  • 機器翻譯(Machine Translation):通過計算機自動化的把一種語言翻譯成另外一種語言
  • 文本摘要(Text summarization/Simplication):對較長文本進行內(nèi)容梗概的提取
  • 問答系統(tǒng)(Question-Answering Systerm):針對用戶提出的問題,系統(tǒng)給出相應(yīng)的答案
  • 對話系統(tǒng)(Dialogue Systerm):能夠與用戶進行聊天對話,從對話中捕獲用戶的意圖,并分析執(zhí)行
  • 閱讀理解(Reading Comprehension):機器閱讀完一篇文章后,給定一些文章相關(guān)問題,機器能夠回答
  • 自動文章分級(Automatic Essay Grading):給定一篇文章,對文章的質(zhì)量進行打分或分級

Reference:

【1】序列標(biāo)注中的BIO標(biāo)注介紹,地址:https://blog.csdn.net/HappyRocking/article/details/79716212

【2】http://nlpers.blogspot.com.au/2006/11/getting-started-in-sequence-labeling.html

【3】NLP 四大任務(wù),地址:https://www.dazhuanlan.com/2019/08/21/5d5ca1e2826b9/

【4】NLP基本任務(wù),地址:https://blog.csdn.net/lz_peter/article/details/81588430

【5】微信研究員解析深度學(xué)習(xí)在NLP中的發(fā)展和應(yīng)用,地址:https://edu.csdn.net/course/play/8673

【6】從Word Embedding到Bert模型—自然語言處理中的預(yù)訓(xùn)練技術(shù)發(fā)展史 - 張俊林的文章 - 知乎 https://zhuanlan.zhihu.com/p/49271699

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容