Python 自然語(yǔ)言處理(NLP)工具庫(kù)匯總

1.NLTK

NLTK 在使用Python處理自然語(yǔ)言的工具中處于領(lǐng)先的地位。它提供了 WordNet 這種方便處理詞匯資源的接口,以及分類、分詞、詞干提取、標(biāo)注、語(yǔ)法分析、語(yǔ)義推理等類庫(kù)。

網(wǎng)站

http://www.nltk.org/

安裝

安裝 NLTK: sudo pip install -U nltk

安裝 Numpy (可選): sudo pip install -U numpy

安裝測(cè)試:pythonthen type import nltk

2.Pattern

Pattern 擁有一系列的自然語(yǔ)言處理工具,比如說(shuō)詞性標(biāo)注工具(Part-Of-Speech Tagger),N元搜索(n-gram search),情感分析(sentiment analysis),WordNet。它也支持機(jī)器學(xué)習(xí)的向量空間模型,聚類,向量機(jī)。

網(wǎng)站:

https://github.com/clips/pattern

安裝:

pip install pattern

3.TextBlob

TextBlob 是一個(gè)處理文本數(shù)據(jù)的 Python 庫(kù)。它提供了一個(gè)簡(jiǎn)單的 api 來(lái)解決一些常見(jiàn)的自然語(yǔ)言處理任務(wù),例如詞性標(biāo)注、名詞短語(yǔ)抽取、情感分析、分類、翻譯等等。

網(wǎng)站:

http://textblob.readthedocs.org/en/dev/

安裝:

pip install -U textblob

4.Gensim

Gensim 是一個(gè) Python 庫(kù),用于對(duì)大型語(yǔ)料庫(kù)進(jìn)行主題建模、文件索引、相似度檢索等。它可以處理大于內(nèi)存的輸入數(shù)據(jù)。作者說(shuō)它是“純文本上無(wú)監(jiān)督的語(yǔ)義建模最健壯、高效、易用的軟件。”

網(wǎng)站:

https://github.com/piskvorky/gensim

安裝:

pip install -U gensim

5.PyNLPI

它的全稱是:Python 自然語(yǔ)言處理庫(kù)(Python Natural Language Processing Library,音發(fā)作: pineapple) 是一個(gè)用于自然語(yǔ)言處理任務(wù)庫(kù)。它集合了各種獨(dú)立或松散互相關(guān)的,那些常見(jiàn)的、不常見(jiàn)的、對(duì)NLP 任務(wù)有用的模塊。PyNLPI 可以用來(lái)處理 N 元搜索,計(jì)算頻率表和分布,建立語(yǔ)言模型。它還可以處理向優(yōu)先隊(duì)列這種更加復(fù)雜的數(shù)據(jù)結(jié)構(gòu),或者像 Beam 搜索這種更加復(fù)雜的算法。

安裝:

Linux:sudo apt-get install pymol

Fedora:yum install pymol

6.spaCy

這是一個(gè)商業(yè)的開(kāi)源軟件。結(jié)合了Python 和Cython 優(yōu)異的 NLP 工具。是快速的,最先進(jìn)的自然語(yǔ)言處理工具。

網(wǎng)站:

https://github.com/proycon/pynlpl

安裝:

pip install spacy

7.Polyglot

Polyglot 支持大規(guī)模多語(yǔ)言應(yīng)用程序的處理。它支持165種語(yǔ)言的分詞,196中語(yǔ)言的辨識(shí),40種語(yǔ)言的專有名詞識(shí)別,16種語(yǔ)言的詞性標(biāo)注,136種語(yǔ)言的情感分析,137種語(yǔ)言的嵌入,135種語(yǔ)言的形態(tài)分析,以及69種語(yǔ)言的翻譯。

網(wǎng)站:

https://pypi.python.org/pypi/polyglot

安裝

pip install polyglot

8.MontyLingua

MontyLingua 是一個(gè)免費(fèi)的、功能強(qiáng)大的、端到端的英文處理工具。在 MontyLingua 輸入原始英文文本

,輸出就會(huì)得到這段文本的語(yǔ)義解釋。它適用于信息檢索和提取,請(qǐng)求處理,問(wèn)答系統(tǒng)。從英文文本中,它能提取出主動(dòng)賓元組,形容詞、名詞和動(dòng)詞短語(yǔ),人名、地名、事件,日期和時(shí)間等語(yǔ)義信息。

網(wǎng)站:

http://web.media.mit.edu/~hugo/montylingua/

9.BLLIP Parser

BLLIP Parser(也叫做 Charniak-Johnson parser)是一個(gè)集成了生成成分分析器和最大熵排序的統(tǒng)計(jì)自然語(yǔ)言分析器。它包括命令行python接口。

10.Quepy

Quepy 是一個(gè) Python 框架,提供了將自然語(yǔ)言問(wèn)題轉(zhuǎn)換成為數(shù)據(jù)庫(kù)查詢語(yǔ)言中的查詢。它可以方便地自定義自然語(yǔ)言中不同類型的問(wèn)題和數(shù)據(jù)庫(kù)查詢。所以,通過(guò) Quepy,僅僅修改幾行代碼,就可以構(gòu)建你自己的自然語(yǔ)言查詢數(shù)據(jù)庫(kù)系統(tǒng)。

網(wǎng)站

https://github.com/machinalis/quepy

http://quepy.machinalis.com/

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 斯坦福的corenlp,可以用來(lái)entities的提取。 http://nlp.stanford.edu/soft...
    御風(fēng)之星閱讀 4,478評(píng)論 0 0
  • # Python 資源大全中文版 我想很多程序員應(yīng)該記得 GitHub 上有一個(gè) Awesome - XXX 系列...
    aimaile閱讀 26,835評(píng)論 6 427
  • 環(huán)境管理管理Python版本和環(huán)境的工具。p–非常簡(jiǎn)單的交互式python版本管理工具。pyenv–簡(jiǎn)單的Pyth...
    MrHamster閱讀 3,956評(píng)論 1 61
  • GitHub 上有一個(gè) Awesome - XXX 系列的資源整理,資源非常豐富,涉及面非常廣。awesome-p...
    若與閱讀 19,321評(píng)論 4 417
  • 突然被叫到講臺(tái),我好激動(dòng),激動(dòng)的語(yǔ)無(wú)倫次,但我如果什么都不講,那就尷尬了。既然被突然叫到了這里,那我還是說(shuō)幾句吧。...
    小霞逛世界閱讀 317評(píng)論 0 0

友情鏈接更多精彩內(nèi)容