1.NLTK
NLTK 在使用Python處理自然語(yǔ)言的工具中處于領(lǐng)先的地位。它提供了 WordNet 這種方便處理詞匯資源的接口,以及分類、分詞、詞干提取、標(biāo)注、語(yǔ)法分析、語(yǔ)義推理等類庫(kù)。
安裝 NLTK: sudo pip install -U nltk
安裝 Numpy (可選): sudo pip install -U numpy
安裝測(cè)試:pythonthen type import nltk
Pattern 擁有一系列的自然語(yǔ)言處理工具,比如說(shuō)詞性標(biāo)注工具(Part-Of-Speech Tagger),N元搜索(n-gram search),情感分析(sentiment analysis),WordNet。它也支持機(jī)器學(xué)習(xí)的向量空間模型,聚類,向量機(jī)。
https://github.com/clips/pattern
pip install pattern
TextBlob 是一個(gè)處理文本數(shù)據(jù)的 Python 庫(kù)。它提供了一個(gè)簡(jiǎn)單的 api 來(lái)解決一些常見(jiàn)的自然語(yǔ)言處理任務(wù),例如詞性標(biāo)注、名詞短語(yǔ)抽取、情感分析、分類、翻譯等等。
http://textblob.readthedocs.org/en/dev/
pip install -U textblob
Gensim 是一個(gè) Python 庫(kù),用于對(duì)大型語(yǔ)料庫(kù)進(jìn)行主題建模、文件索引、相似度檢索等。它可以處理大于內(nèi)存的輸入數(shù)據(jù)。作者說(shuō)它是“純文本上無(wú)監(jiān)督的語(yǔ)義建模最健壯、高效、易用的軟件。”
網(wǎng)站:
https://github.com/piskvorky/gensim
安裝:
pip install -U gensim
它的全稱是:Python 自然語(yǔ)言處理庫(kù)(Python Natural Language Processing Library,音發(fā)作: pineapple) 是一個(gè)用于自然語(yǔ)言處理任務(wù)庫(kù)。它集合了各種獨(dú)立或松散互相關(guān)的,那些常見(jiàn)的、不常見(jiàn)的、對(duì)NLP 任務(wù)有用的模塊。PyNLPI 可以用來(lái)處理 N 元搜索,計(jì)算頻率表和分布,建立語(yǔ)言模型。它還可以處理向優(yōu)先隊(duì)列這種更加復(fù)雜的數(shù)據(jù)結(jié)構(gòu),或者像 Beam 搜索這種更加復(fù)雜的算法。
安裝:
Linux:sudo apt-get install pymol
Fedora:yum install pymol
這是一個(gè)商業(yè)的開(kāi)源軟件。結(jié)合了Python 和Cython 優(yōu)異的 NLP 工具。是快速的,最先進(jìn)的自然語(yǔ)言處理工具。
https://github.com/proycon/pynlpl
pip install spacy
Polyglot 支持大規(guī)模多語(yǔ)言應(yīng)用程序的處理。它支持165種語(yǔ)言的分詞,196中語(yǔ)言的辨識(shí),40種語(yǔ)言的專有名詞識(shí)別,16種語(yǔ)言的詞性標(biāo)注,136種語(yǔ)言的情感分析,137種語(yǔ)言的嵌入,135種語(yǔ)言的形態(tài)分析,以及69種語(yǔ)言的翻譯。
https://pypi.python.org/pypi/polyglot
pip install polyglot
MontyLingua 是一個(gè)免費(fèi)的、功能強(qiáng)大的、端到端的英文處理工具。在 MontyLingua 輸入原始英文文本
,輸出就會(huì)得到這段文本的語(yǔ)義解釋。它適用于信息檢索和提取,請(qǐng)求處理,問(wèn)答系統(tǒng)。從英文文本中,它能提取出主動(dòng)賓元組,形容詞、名詞和動(dòng)詞短語(yǔ),人名、地名、事件,日期和時(shí)間等語(yǔ)義信息。
http://web.media.mit.edu/~hugo/montylingua/
BLLIP Parser(也叫做 Charniak-Johnson parser)是一個(gè)集成了生成成分分析器和最大熵排序的統(tǒng)計(jì)自然語(yǔ)言分析器。它包括命令行和python接口。
Quepy 是一個(gè) Python 框架,提供了將自然語(yǔ)言問(wèn)題轉(zhuǎn)換成為數(shù)據(jù)庫(kù)查詢語(yǔ)言中的查詢。它可以方便地自定義自然語(yǔ)言中不同類型的問(wèn)題和數(shù)據(jù)庫(kù)查詢。所以,通過(guò) Quepy,僅僅修改幾行代碼,就可以構(gòu)建你自己的自然語(yǔ)言查詢數(shù)據(jù)庫(kù)系統(tǒng)。