NLP基本術(shù)語與基本概念-上

NLP.png

1. 基本術(shù)語

1.1 分詞(segment)

詞是最小的能夠獨(dú)立活動(dòng)的有意義的語言成分,英文單詞之間是以空格作為自然分界符的,而漢語是以字為基本的書寫單位,詞語之間沒有明顯的區(qū)分標(biāo)記,因此,中文詞語分析是中文分詞的基礎(chǔ)與關(guān)鍵。中文和英文都存在分詞的需求,不過相較而言,英文單詞本來就有空格進(jìn)行分割,所以處理起來相對(duì)方便。但是,由于中文是沒有分隔符的,所以分詞的問題就比較重要。分詞常用的手段是基于字典的最長串匹配,據(jù)說可以解決85%的問題,但是歧義分詞很難。舉個(gè)例子,“美國會(huì)通過對(duì)臺(tái)售武法案”,我們既可以切分為“美國/會(huì)/通過對(duì)臺(tái)售武法案”,又可以切分成“美/國會(huì)/通過對(duì)臺(tái)售武法案”。

中文分詞技術(shù)可分為三大類:

1.2 詞性標(biāo)注(part-of speech tagging/POS tagging)

基于機(jī)器學(xué)習(xí)的方法里,往往需要對(duì)詞的詞性進(jìn)行標(biāo)注。詞性一般是指動(dòng)詞、 名詞、形容詞等。標(biāo)注的目的是表征詞的一-種隱藏狀態(tài),隱藏狀態(tài)構(gòu)成的轉(zhuǎn)移就構(gòu)成了狀態(tài)轉(zhuǎn)移序列。例如:我/r愛/v北京/ns天安門/ns。其中,ns代表名詞,v代表動(dòng)詞,ns、v都是標(biāo)注,以此類推。

詞性作為對(duì)詞的一種泛化,在語言識(shí)別、句法分析、信息抽取等任務(wù)中有重要作用。
http://blog.csdn.net/truong/article/details/18847549

1.3 命名實(shí)體識(shí)別(NER, Named Entity Recognition)

命名實(shí)體是指從文本中識(shí)別具有特定類別的實(shí)體(通常是名詞),例如人名、地名、機(jī)構(gòu)名、專有名詞等。主要包含兩部分:

  • 實(shí)體邊界識(shí)別;
  • 確定實(shí)體類別(人名、地名、機(jī)構(gòu)名或其他)

命名實(shí)體識(shí)別是信息提取、問答系統(tǒng)、句法分析、機(jī)器翻譯、面向SemanticWeb的元數(shù)據(jù)標(biāo)注等應(yīng)用領(lǐng)域的重要基礎(chǔ)工具。
https://blog.csdn.net/u012879957/article/details/81777838

1.4 句法分析(syntax parsing)

句法分析往往是一種基于規(guī)則的專家系統(tǒng)。當(dāng)然也不是說它不能用統(tǒng)計(jì)學(xué)的方法進(jìn)行構(gòu)建,不過最初的時(shí)候,還是利用語言學(xué)專家的知識(shí)來構(gòu)建的。句法分析的目的是解析句子中各個(gè)成分的依賴關(guān)系。所以,往往最終生成的結(jié)果是一棵 句法分析樹。句法分析可以解決傳統(tǒng)詞袋模型不考慮上下文的問題。比如,“小李是小楊的班長”和“小楊是小李的班長”,這兩句話,用詞袋模型是完全相同的,但是句法分析可以分析出其中的主從關(guān)系,真正理清句子的關(guān)系。

1.5 指代消解(anaphora resolution)

中文中代詞出現(xiàn)的頻率很高,它的作用的是用來表征前文出現(xiàn)過的人名、地名等。例如,清華大學(xué)坐落于北京,這家大學(xué)是目前中國最好的大學(xué)之-。 在這句話中, 其實(shí)“清華大學(xué)”這個(gè)詞出現(xiàn)了兩次,“這家大學(xué)指代的就是清華大學(xué)。但是出于中文的習(xí)慣,我們不會(huì)把“清華大學(xué)”再重復(fù)一遍。
一般情況下,指代分為2種:回指和共指。

回指是指當(dāng)前的照應(yīng)語與上文出現(xiàn)的詞、短語或句子(句群)存在密切的語義關(guān)聯(lián)性,指代依存于上下文語義中,在不同的語言環(huán)境中可能指代不同的實(shí)體,具有非對(duì)稱性和非傳遞性;

共指主要是指2個(gè)名詞(包括代名詞、名詞短語)指向真實(shí)世界中的同一參照體,這種指代脫離上下文仍然成立。

目前指代消解研究主要側(cè)重于等價(jià)關(guān)系,只考慮2個(gè)詞或短語是否指示現(xiàn)實(shí)世界中同一實(shí)體的問題,即共指消解。

中文的指代主要有3種典型的形式:

  • 人稱代詞(pronoun),例如:李明怕高媽媽一人呆在家里寂寞,他便將家里的電視搬了過來。

  • 指示代詞(demonstrative),例如:很多人都想留下什么給孩子,這可以理解,但不完全正確。

  • 有定描述(definitedescription),例如:,貿(mào)易制裁已經(jīng)成為了美國政府對(duì)華的慣用大棒,這根大棒真如美國政府所希望的那樣靈驗(yàn)嗎?
    https://blog.csdn.net/tcx1992/article/details/83377233

1.6 情感識(shí)別(emotion recognition)

所謂情感識(shí)別,本質(zhì)上是分類問題,經(jīng)常被應(yīng)用在輿情分析等領(lǐng)域。情感一般可以分為兩類,即正面、負(fù)面,也可以是三類,在前面的基礎(chǔ)上,再加上中性類別。一般來說,在電商企業(yè),情感識(shí)別可以分析商品評(píng)價(jià)的好壞,以此作為下一個(gè)環(huán)節(jié)的評(píng)判依據(jù)。通常可以基于詞袋模型+分類器,或者現(xiàn)在流行的詞向量模型+RNN。經(jīng)過測試發(fā)現(xiàn),后者比前者準(zhǔn)確率略有提升。

1.7 糾錯(cuò)(correction)

自動(dòng)糾錯(cuò)在搜索技術(shù)以及輸人法中利用得很多。由于用戶的輸人出錯(cuò)的可能性比較大,出錯(cuò)的場景也比較多。所以,我們需要一個(gè)糾錯(cuò)系統(tǒng)。具體做法有很多,可以基于N-Gram進(jìn)行糾錯(cuò),也可以通過字典樹、有限狀態(tài)機(jī)等方法進(jìn)行糾錯(cuò)。

1.8 問答系統(tǒng)(QA system)

這是一種類似機(jī)器人的人工智能系統(tǒng)。比較著名的有:蘋果Siri、IBM Watson、微軟小冰等。問答系統(tǒng)往往需要語音識(shí)別、合成,自然語言理解、知識(shí)圖譜等多項(xiàng)技術(shù)的
問答系統(tǒng)(Question Answering System, QA)是信息檢索系統(tǒng)的一種高級(jí)形式,它能用準(zhǔn)確、簡潔的自然語言回答用戶用自然語言提出的問題。

  • 依據(jù)問題類型可分為:限定域和開放域兩種;
  • 依據(jù)數(shù)據(jù)類型可分為:結(jié)構(gòu)型和無結(jié)構(gòu)型(文本);
  • 依據(jù)答案類型可分為:抽取式和產(chǎn)生式兩種。

基于自由文本的問答系統(tǒng),基本上分為三個(gè)模塊:
問句分析->文檔檢索->答案抽取(驗(yàn)證)
https://blog.csdn.net/class_guy/article/details/81535287

2. 知識(shí)體系

2.1 句法語義分析:

針對(duì)目標(biāo)句子,進(jìn)行各種句法分析,如分詞、詞性標(biāo)記、命名實(shí) 體識(shí)別及鏈接、句法分析、語義角色識(shí)別和多義詞消歧等。

2.2 關(guān)鍵詞抽取:

抽取目標(biāo)文本中的主要信息,比如從一-條新聞中抽取關(guān)鍵信息。主要是了解是誰、于何時(shí)、為何、對(duì)誰、做了何事、產(chǎn)生了有什么結(jié)果。涉及實(shí)體識(shí)別、時(shí)間抽取、因果關(guān)系抽取等多項(xiàng)關(guān)鍵技術(shù)。

2.3 文本挖掘:

主要包含了對(duì)文本的聚類、分類、信息抽取、摘要、情感分析以及對(duì)挖掘的信息和知識(shí)的可視化、交互式的呈現(xiàn)界面。

2.4 機(jī)器翻譯:

將輸人的源語言文本通過自動(dòng)翻譯轉(zhuǎn)化為另種語言的文本。根據(jù)輸人數(shù)據(jù)類型的不同,可細(xì)分為文本翻譯、語音翻譯、手語翻譯、圖形翻譯等。機(jī)器翻譯從最早的基于規(guī)則到二十年前的基于統(tǒng)計(jì)的方法,再到今天的基于深度學(xué)習(xí)(編解碼)的方法,逐漸形成了一套比較嚴(yán)謹(jǐn)?shù)姆椒w系。

2.5 信息檢索:

對(duì)大規(guī)模的文檔進(jìn)行索引??珊唵螌?duì)文檔中的詞匯,賦以不同的權(quán)重來建立索引,也可使用算法模型來建立更加深層的索引。查詢時(shí),首先對(duì)輸人比進(jìn)行分析,然后在索引里面查找匹配的候選文檔,再根據(jù)一個(gè)排序機(jī)制把候選文檔排序,最后輸出排序得分最高的文檔。

2.6 問答系統(tǒng):

針對(duì)某個(gè)自然語言表達(dá)的問題,由問答系統(tǒng)給出一個(gè)精準(zhǔn)的答案。需要對(duì)自然語言查詢語句進(jìn)行語義分析,包括實(shí)體鏈接、關(guān)系識(shí)別,形成邏輯表達(dá)式,然后到知識(shí)庫中查我可能的候選答案并通過-個(gè)排序機(jī)制找出最佳的答案。

2.7 對(duì)話系統(tǒng):

系統(tǒng)通過多回合對(duì)話,跟用戶進(jìn)行聊天、回答、完成某項(xiàng)任務(wù)。主要涉及用戶意圖理解、通用聊天引擎、問答引擎、對(duì)話管理等技術(shù)。此外,為了體現(xiàn)上下文相關(guān),要具備多輪對(duì)話能力。同時(shí),為了體現(xiàn)個(gè)性化,對(duì)話系統(tǒng)還需要基于用戶畫像做個(gè)性化回復(fù)

3. NLP 主要研究方向有哪些?

  1. 信息抽?。簭慕o定文本中抽取重要的信息,比如時(shí)間、地點(diǎn)、人物、事件、原因、結(jié)果、數(shù)字、日期、貨幣、專有名詞等等。通俗說來,就是要了解誰在什么時(shí)候、什么原因、對(duì)誰、做了什么事、有什么結(jié)果。
  2. 文本生成:機(jī)器像人一樣使用自然語言進(jìn)行表達(dá)和寫作。依據(jù)輸入的不同,文本生成技術(shù)主要包括數(shù)據(jù)到文本生成和文本到文本生成。數(shù)據(jù)到文本生成是指將包含鍵值對(duì)的數(shù)據(jù)轉(zhuǎn)化為自然語言文本;文本到文本生成對(duì)輸入文本進(jìn)行轉(zhuǎn)化和處理從而產(chǎn)生新的文本。
  3. 問答系統(tǒng):對(duì)一個(gè)自然語言表達(dá)的問題,由問答系統(tǒng)給出一個(gè)精準(zhǔn)的答案。需要對(duì)自然語言查詢語句進(jìn)行某種程度的語義分析,包括實(shí)體鏈接、關(guān)系識(shí)別,形成邏輯表達(dá)式,然后到知識(shí)庫中查找可能的候選答案并通過一個(gè)排序機(jī)制找出最佳的答案。
  4. 對(duì)話系統(tǒng):系統(tǒng)通過一系列的對(duì)話,跟用戶進(jìn)行聊天、回答、完成某一項(xiàng)任務(wù)。涉及到用戶意圖理解、通用聊天引擎、問答引擎、對(duì)話管理等技術(shù)。此外,為了體現(xiàn)上下文相關(guān),要具備多輪對(duì)話能力。
  5. 文本挖掘:包括文本聚類、分類、情感分析以及對(duì)挖掘的信息和知識(shí)的可視化、交互式的表達(dá)界面。目前主流的技術(shù)都是基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的。
  6. 語音識(shí)別和生成:語音識(shí)別是將輸入計(jì)算機(jī)的語音符號(hào)識(shí)別轉(zhuǎn)換成書面語表示。語音生成又稱文語轉(zhuǎn)換、語音合成,它是指將書面文本自動(dòng)轉(zhuǎn)換成對(duì)應(yīng)的語音表征。
  7. 信息過濾:通過計(jì)算機(jī)系統(tǒng)自動(dòng)識(shí)別和過濾符合特定條件的文檔信息。通常指網(wǎng)絡(luò)有害信息的自動(dòng)識(shí)別和過濾,主要用于信息安全和防護(hù),網(wǎng)絡(luò)內(nèi)容管理等。
  8. 輿情分析:是指收集和處理海量信息,自動(dòng)化地對(duì)網(wǎng)絡(luò)輿情進(jìn)行分析,以實(shí)現(xiàn)及時(shí)應(yīng)對(duì)網(wǎng)絡(luò)輿情的目的。
  9. 信息檢索:對(duì)大規(guī)模的文檔進(jìn)行索引??珊唵螌?duì)文檔中的詞匯,賦之以不同的權(quán)重來建立索引,也可建立更加深層的索引。在查詢的時(shí)候,對(duì)輸入的查詢表達(dá)式比如一個(gè)檢索詞或者一個(gè)句子進(jìn)行分析,然后在索引里面查找匹配的候選文檔,再根據(jù)一個(gè)排序機(jī)制把候選文檔排序,最后輸出排序得分最高的文檔。
  10. 機(jī)器翻譯:把輸入的源語言文本通過自動(dòng)翻譯獲得另外一種語言的文本。機(jī)器翻譯從最早的基于規(guī)則的方法到二十年前的基于統(tǒng)計(jì)的方法,再到今天的基于神經(jīng)網(wǎng)絡(luò)(編碼 - 解碼)的方法,逐漸形成了一套比較嚴(yán)謹(jǐn)?shù)姆椒w系。

4. NLP 四大任務(wù)

  1. 序列標(biāo)注: 分詞, 詞性標(biāo)注, 命名實(shí)體識(shí)別, 語義角色標(biāo)注。 特點(diǎn)是句子中每個(gè)單詞要求模型根據(jù)上下文都要給出一個(gè)分類類別
  2. 分類任務(wù): 文本分類, 情感分析。 特點(diǎn)是不管文章有多長,總體給出一個(gè)分類類別即可。
  3. 句子關(guān)系推斷: Entailment, QA, 自然語言推理。 特點(diǎn)是給定兩個(gè)句子,模型判斷出兩個(gè)句子是否具備某種語義關(guān)系。
  4. 生成式任務(wù):機(jī)器翻譯, 文本摘要。特點(diǎn)是輸入文本內(nèi)容后,需要自主生成另外一段文字。

參考:https://mp.weixin.qq.com/s/QjpOzO8Mt17mtnC7efT8nQ

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容