NLP.png

1. 基本術(shù)語

1.1 分詞(segment)

詞是最小的能夠獨(dú)立活動(dòng)的有意義的語言成分，英文單詞之間是以空格作為自然分界符的，而漢語是以字為基本的書寫單位，詞語之間沒有明顯的區(qū)分標(biāo)記，因此，中文詞語分析是中文分詞的基礎(chǔ)與關(guān)鍵。中文和英文都存在分詞的需求，不過相較而言，英文單詞本來就有空格進(jìn)行分割，所以處理起來相對(duì)方便。但是，由于中文是沒有分隔符的，所以分詞的問題就比較重要。分詞常用的手段是基于字典的最長串匹配，據(jù)說可以解決85%的問題，但是歧義分詞很難。舉個(gè)例子，“美國會(huì)通過對(duì)臺(tái)售武法案”，我們既可以切分為“美國/會(huì)/通過對(duì)臺(tái)售武法案”，又可以切分成“美/國會(huì)/通過對(duì)臺(tái)售武法案”。

中文分詞技術(shù)可分為三大類：

基于字典、詞庫匹配的分詞方法；
基于詞頻統(tǒng)計(jì)的分詞方法
基于知識(shí)理解的分詞方法。
http://www.cnblogs.com/flish/archive/2011/08/08/2131031.html

1.2 詞性標(biāo)注(part-of speech tagging/POS tagging)

基于機(jī)器學(xué)習(xí)的方法里，往往需要對(duì)詞的詞性進(jìn)行標(biāo)注。詞性一般是指動(dòng)詞、名詞、形容詞等。標(biāo)注的目的是表征詞的一-種隱藏狀態(tài)，隱藏狀態(tài)構(gòu)成的轉(zhuǎn)移就構(gòu)成了狀態(tài)轉(zhuǎn)移序列。例如:我/r愛/v北京/ns天安門/ns。其中，ns代表名詞，v代表動(dòng)詞，ns、v都是標(biāo)注，以此類推。

詞性作為對(duì)詞的一種泛化，在語言識(shí)別、句法分析、信息抽取等任務(wù)中有重要作用。
http://blog.csdn.net/truong/article/details/18847549

1.3 命名實(shí)體識(shí)別(NER, Named Entity Recognition)

命名實(shí)體是指從文本中識(shí)別具有特定類別的實(shí)體(通常是名詞),例如人名、地名、機(jī)構(gòu)名、專有名詞等。主要包含兩部分：

實(shí)體邊界識(shí)別；
確定實(shí)體類別（人名、地名、機(jī)構(gòu)名或其他）

命名實(shí)體識(shí)別是信息提取、問答系統(tǒng)、句法分析、機(jī)器翻譯、面向SemanticWeb的元數(shù)據(jù)標(biāo)注等應(yīng)用領(lǐng)域的重要基礎(chǔ)工具。
https://blog.csdn.net/u012879957/article/details/81777838

1.4 句法分析(syntax parsing)

句法分析往往是一種基于規(guī)則的專家系統(tǒng)。當(dāng)然也不是說它不能用統(tǒng)計(jì)學(xué)的方法進(jìn)行構(gòu)建，不過最初的時(shí)候，還是利用語言學(xué)專家的知識(shí)來構(gòu)建的。句法分析的目的是解析句子中各個(gè)成分的依賴關(guān)系。所以，往往最終生成的結(jié)果是一棵句法分析樹。句法分析可以解決傳統(tǒng)詞袋模型不考慮上下文的問題。比如，“小李是小楊的班長”和“小楊是小李的班長”，這兩句話，用詞袋模型是完全相同的，但是句法分析可以分析出其中的主從關(guān)系，真正理清句子的關(guān)系。

1.5 指代消解(anaphora resolution)

中文中代詞出現(xiàn)的頻率很高，它的作用的是用來表征前文出現(xiàn)過的人名、地名等。例如，清華大學(xué)坐落于北京，這家大學(xué)是目前中國最好的大學(xué)之-。在這句話中，其實(shí)“清華大學(xué)”這個(gè)詞出現(xiàn)了兩次，“這家大學(xué)指代的就是清華大學(xué)。但是出于中文的習(xí)慣，我們不會(huì)把“清華大學(xué)”再重復(fù)一遍。
一般情況下，指代分為2種：回指和共指。

回指是指當(dāng)前的照應(yīng)語與上文出現(xiàn)的詞、短語或句子（句群）存在密切的語義關(guān)聯(lián)性，指代依存于上下文語義中，在不同的語言環(huán)境中可能指代不同的實(shí)體，具有非對(duì)稱性和非傳遞性；

共指主要是指2個(gè)名詞(包括代名詞、名詞短語)指向真實(shí)世界中的同一參照體，這種指代脫離上下文仍然成立。

目前指代消解研究主要側(cè)重于等價(jià)關(guān)系，只考慮2個(gè)詞或短語是否指示現(xiàn)實(shí)世界中同一實(shí)體的問題，即共指消解。

中文的指代主要有3種典型的形式：

人稱代詞(pronoun)，例如：李明怕高媽媽一人呆在家里寂寞，他便將家里的電視搬了過來。
指示代詞(demonstrative)，例如：很多人都想留下什么給孩子，這可以理解，但不完全正確。
有定描述(definitedescription)，例如：，貿(mào)易制裁已經(jīng)成為了美國政府對(duì)華的慣用大棒，這根大棒真如美國政府所希望的那樣靈驗(yàn)嗎?
https://blog.csdn.net/tcx1992/article/details/83377233

1.6 情感識(shí)別(emotion recognition)

所謂情感識(shí)別，本質(zhì)上是分類問題，經(jīng)常被應(yīng)用在輿情分析等領(lǐng)域。情感一般可以分為兩類，即正面、負(fù)面，也可以是三類，在前面的基礎(chǔ)上，再加上中性類別。一般來說，在電商企業(yè)，情感識(shí)別可以分析商品評(píng)價(jià)的好壞，以此作為下一個(gè)環(huán)節(jié)的評(píng)判依據(jù)。通常可以基于詞袋模型+分類器，或者現(xiàn)在流行的詞向量模型+RNN。經(jīng)過測試發(fā)現(xiàn)，后者比前者準(zhǔn)確率略有提升。

1.7 糾錯(cuò)(correction)

自動(dòng)糾錯(cuò)在搜索技術(shù)以及輸人法中利用得很多。由于用戶的輸人出錯(cuò)的可能性比較大，出錯(cuò)的場景也比較多。所以，我們需要一個(gè)糾錯(cuò)系統(tǒng)。具體做法有很多，可以基于N-Gram進(jìn)行糾錯(cuò)，也可以通過字典樹、有限狀態(tài)機(jī)等方法進(jìn)行糾錯(cuò)。

1.8 問答系統(tǒng)(QA system)

這是一種類似機(jī)器人的人工智能系統(tǒng)。比較著名的有:蘋果Siri、IBM Watson、微軟小冰等。問答系統(tǒng)往往需要語音識(shí)別、合成，自然語言理解、知識(shí)圖譜等多項(xiàng)技術(shù)的
問答系統(tǒng)（Question Answering System, QA）是信息檢索系統(tǒng)的一種高級(jí)形式，它能用準(zhǔn)確、簡潔的自然語言回答用戶用自然語言提出的問題。

依據(jù)問題類型可分為：限定域和開放域兩種；
依據(jù)數(shù)據(jù)類型可分為：結(jié)構(gòu)型和無結(jié)構(gòu)型（文本）；
依據(jù)答案類型可分為：抽取式和產(chǎn)生式兩種。

基于自由文本的問答系統(tǒng)，基本上分為三個(gè)模塊：
問句分析->文檔檢索->答案抽取（驗(yàn)證）
https://blog.csdn.net/class_guy/article/details/81535287

2. 知識(shí)體系

2.1 句法語義分析:

針對(duì)目標(biāo)句子，進(jìn)行各種句法分析，如分詞、詞性標(biāo)記、命名實(shí) 體識(shí)別及鏈接、句法分析、語義角色識(shí)別和多義詞消歧等。

2.2 關(guān)鍵詞抽取:

抽取目標(biāo)文本中的主要信息，比如從一-條新聞中抽取關(guān)鍵信息。主要是了解是誰、于何時(shí)、為何、對(duì)誰、做了何事、產(chǎn)生了有什么結(jié)果。涉及實(shí)體識(shí)別、時(shí)間抽取、因果關(guān)系抽取等多項(xiàng)關(guān)鍵技術(shù)。

2.3 文本挖掘:

主要包含了對(duì)文本的聚類、分類、信息抽取、摘要、情感分析以及對(duì)挖掘的信息和知識(shí)的可視化、交互式的呈現(xiàn)界面。

2.4 機(jī)器翻譯:

將輸人的源語言文本通過自動(dòng)翻譯轉(zhuǎn)化為另種語言的文本。根據(jù)輸人數(shù)據(jù)類型的不同，可細(xì)分為文本翻譯、語音翻譯、手語翻譯、圖形翻譯等。機(jī)器翻譯從最早的基于規(guī)則到二十年前的基于統(tǒng)計(jì)的方法，再到今天的基于深度學(xué)習(xí)(編解碼)的方法，逐漸形成了一套比較嚴(yán)謹(jǐn)?shù)姆椒w系。

2.5 信息檢索:

對(duì)大規(guī)模的文檔進(jìn)行索引?？珊唵螌?duì)文檔中的詞匯，賦以不同的權(quán)重來建立索引，也可使用算法模型來建立更加深層的索引。查詢時(shí)，首先對(duì)輸人比進(jìn)行分析，然后在索引里面查找匹配的候選文檔，再根據(jù)一個(gè)排序機(jī)制把候選文檔排序，最后輸出排序得分最高的文檔。

2.6 問答系統(tǒng):

針對(duì)某個(gè)自然語言表達(dá)的問題，由問答系統(tǒng)給出一個(gè)精準(zhǔn)的答案。需要對(duì)自然語言查詢語句進(jìn)行語義分析，包括實(shí)體鏈接、關(guān)系識(shí)別，形成邏輯表達(dá)式，然后到知識(shí)庫中查我可能的候選答案并通過-個(gè)排序機(jī)制找出最佳的答案。

2.7 對(duì)話系統(tǒng):

系統(tǒng)通過多回合對(duì)話，跟用戶進(jìn)行聊天、回答、完成某項(xiàng)任務(wù)。主要涉及用戶意圖理解、通用聊天引擎、問答引擎、對(duì)話管理等技術(shù)。此外，為了體現(xiàn)上下文相關(guān)，要具備多輪對(duì)話能力。同時(shí)，為了體現(xiàn)個(gè)性化，對(duì)話系統(tǒng)還需要基于用戶畫像做個(gè)性化回復(fù)

3. NLP 主要研究方向有哪些？

信息抽?。簭慕o定文本中抽取重要的信息，比如時(shí)間、地點(diǎn)、人物、事件、原因、結(jié)果、數(shù)字、日期、貨幣、專有名詞等等。通俗說來，就是要了解誰在什么時(shí)候、什么原因、對(duì)誰、做了什么事、有什么結(jié)果。
文本生成：機(jī)器像人一樣使用自然語言進(jìn)行表達(dá)和寫作。依據(jù)輸入的不同，文本生成技術(shù)主要包括數(shù)據(jù)到文本生成和文本到文本生成。數(shù)據(jù)到文本生成是指將包含鍵值對(duì)的數(shù)據(jù)轉(zhuǎn)化為自然語言文本；文本到文本生成對(duì)輸入文本進(jìn)行轉(zhuǎn)化和處理從而產(chǎn)生新的文本。
問答系統(tǒng)：對(duì)一個(gè)自然語言表達(dá)的問題，由問答系統(tǒng)給出一個(gè)精準(zhǔn)的答案。需要對(duì)自然語言查詢語句進(jìn)行某種程度的語義分析，包括實(shí)體鏈接、關(guān)系識(shí)別，形成邏輯表達(dá)式，然后到知識(shí)庫中查找可能的候選答案并通過一個(gè)排序機(jī)制找出最佳的答案。
對(duì)話系統(tǒng)：系統(tǒng)通過一系列的對(duì)話，跟用戶進(jìn)行聊天、回答、完成某一項(xiàng)任務(wù)。涉及到用戶意圖理解、通用聊天引擎、問答引擎、對(duì)話管理等技術(shù)。此外，為了體現(xiàn)上下文相關(guān)，要具備多輪對(duì)話能力。
文本挖掘：包括文本聚類、分類、情感分析以及對(duì)挖掘的信息和知識(shí)的可視化、交互式的表達(dá)界面。目前主流的技術(shù)都是基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的。
語音識(shí)別和生成：語音識(shí)別是將輸入計(jì)算機(jī)的語音符號(hào)識(shí)別轉(zhuǎn)換成書面語表示。語音生成又稱文語轉(zhuǎn)換、語音合成，它是指將書面文本自動(dòng)轉(zhuǎn)換成對(duì)應(yīng)的語音表征。
信息過濾：通過計(jì)算機(jī)系統(tǒng)自動(dòng)識(shí)別和過濾符合特定條件的文檔信息。通常指網(wǎng)絡(luò)有害信息的自動(dòng)識(shí)別和過濾，主要用于信息安全和防護(hù)，網(wǎng)絡(luò)內(nèi)容管理等。
輿情分析：是指收集和處理海量信息，自動(dòng)化地對(duì)網(wǎng)絡(luò)輿情進(jìn)行分析，以實(shí)現(xiàn)及時(shí)應(yīng)對(duì)網(wǎng)絡(luò)輿情的目的。
信息檢索：對(duì)大規(guī)模的文檔進(jìn)行索引?？珊唵螌?duì)文檔中的詞匯，賦之以不同的權(quán)重來建立索引，也可建立更加深層的索引。在查詢的時(shí)候，對(duì)輸入的查詢表達(dá)式比如一個(gè)檢索詞或者一個(gè)句子進(jìn)行分析，然后在索引里面查找匹配的候選文檔，再根據(jù)一個(gè)排序機(jī)制把候選文檔排序，最后輸出排序得分最高的文檔。
機(jī)器翻譯：把輸入的源語言文本通過自動(dòng)翻譯獲得另外一種語言的文本。機(jī)器翻譯從最早的基于規(guī)則的方法到二十年前的基于統(tǒng)計(jì)的方法，再到今天的基于神經(jīng)網(wǎng)絡(luò)（編碼 - 解碼）的方法，逐漸形成了一套比較嚴(yán)謹(jǐn)?shù)姆椒w系。

4. NLP 四大任務(wù)

序列標(biāo)注：分詞，詞性標(biāo)注，命名實(shí)體識(shí)別，語義角色標(biāo)注。特點(diǎn)是句子中每個(gè)單詞要求模型根據(jù)上下文都要給出一個(gè)分類類別
分類任務(wù)：文本分類，情感分析。特點(diǎn)是不管文章有多長，總體給出一個(gè)分類類別即可。
句子關(guān)系推斷： Entailment， QA，自然語言推理。特點(diǎn)是給定兩個(gè)句子，模型判斷出兩個(gè)句子是否具備某種語義關(guān)系。
生成式任務(wù)：機(jī)器翻譯，文本摘要。特點(diǎn)是輸入文本內(nèi)容后，需要自主生成另外一段文字。

參考：https://mp.weixin.qq.com/s/QjpOzO8Mt17mtnC7efT8nQ

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

NLP基本術(shù)語與基本概念-上

NLP基本術(shù)語與基本概念-上

1. 基本術(shù)語

1.1 分詞(segment)

1.2 詞性標(biāo)注(part-of speech tagging/POS tagging)

1.3 命名實(shí)體識(shí)別(NER, Named Entity Recognition)

1.4 句法分析(syntax parsing)

1.5 指代消解(anaphora resolution)

1.6 情感識(shí)別(emotion recognition)

1.7 糾錯(cuò)(correction)

1.8 問答系統(tǒng)(QA system)

2. 知識(shí)體系

2.1 句法語義分析:

2.2 關(guān)鍵詞抽取:

2.3 文本挖掘:

2.4 機(jī)器翻譯:

2.5 信息檢索:

2.6 問答系統(tǒng):

2.7 對(duì)話系統(tǒng):

3. NLP 主要研究方向有哪些？

4. NLP 四大任務(wù)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

NLP基本術(shù)語與基本概念-上

1. 基本術(shù)語

1.1 分詞(segment)

1.2 詞性標(biāo)注(part-of speech tagging/POS tagging)

1.3 命名實(shí)體識(shí)別(NER, Named Entity Recognition)

1.4 句法分析(syntax parsing)

1.5 指代消解(anaphora resolution)

1.6 情感識(shí)別(emotion recognition)

1.7 糾錯(cuò)(correction)

1.8 問答系統(tǒng)(QA system)

2. 知識(shí)體系

2.1 句法語義分析:

2.2 關(guān)鍵詞抽取:

2.3 文本挖掘:

2.4 機(jī)器翻譯:

2.5 信息檢索:

2.6 問答系統(tǒng):

2.7 對(duì)話系統(tǒng):

3. NLP 主要研究方向有哪些？

4. NLP 四大任務(wù)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

3. NLP 主要研究方向有哪些？