好久好久，沒怎么寫東西，就把從GitHub上淘來的各種各樣語言的爬蟲框架分享給大家。

Python

python自然不用多說，擁有的爬蟲框架數(shù)不勝數(shù)。

scrapy，大名鼎鼎的爬蟲框架，功能強(qiáng)大，乃入門學(xué)習(xí)的必備良藥。支持多種多樣的配置特性，唯一可惜不支持分布式的特性，于是就誕生了scrapy-redis這個(gè)以redis為隊(duì)列的分布式爬蟲框架。
pyspider，應(yīng)該是個(gè)華人寫的爬蟲框架，可支持的配置非常多，同時(shí)也支持分布式，只需要配置中間的消息隊(duì)列就可以。
portia，可視化的爬蟲框架，對(duì)于編程經(jīng)驗(yàn)少的人來說相當(dāng)適合學(xué)習(xí)。
xcrawler，輕量級(jí)的爬蟲框架。個(gè)人很簡易從讀輕量級(jí)的爬蟲框架的源代碼入手，這樣能夠由淺入深，學(xué)地更有意思。
cola，也是很強(qiáng)大的分布式爬蟲框架，只是可惜不支持python 3以上。
fetchman, 國人寫的爬蟲框架，采用grequests來并發(fā)請(qǐng)求。看過源代碼，寫的容易理解，所以對(duì)于新手來說很實(shí)用。
gain, 使用```asyncio``來異步爬取的輕量級(jí)爬蟲框架。代碼很容易理解，利于學(xué)習(xí)。

Java

Java接觸的不是很多，所以知道的爬蟲框架不多。

webmagic，這個(gè)是國人寫的爬蟲框架，很好用，也很強(qiáng)大。源代碼的閱讀體驗(yàn)也不錯(cuò)，推薦寫java的可以去熟悉熟悉。
crawler4j，比較好的爬蟲架構(gòu)，對(duì)于學(xué)習(xí)和理解爬蟲框架很有用。
SeimiCrawler，分布式爬蟲框架，也是受到scrapy啟發(fā)。支持動(dòng)態(tài)渲染的頁面爬蟲。
elves, 輕量級(jí)的爬蟲框架，國人寫的。易于學(xué)習(xí)和理解。

node接觸的更加不多，但是也淘到了不錯(cuò)的幾個(gè)框架。

C#作為筆者除了Python以外比較熟悉的語言了。但是發(fā)現(xiàn)其爬蟲框架少的可憐。哎，不禁嘆息。

DotnetSpider，整體架構(gòu)參照了WebMagic和Scrapy，是C#中比較強(qiáng)大的存在。目前已經(jīng)支持.net core 2.0，所以，喜歡C#的可以去玩玩。還是比較不錯(cuò)的支持Entity Framework。
WebCrawler，國人寫的輕量級(jí)的爬蟲框架?？梢匀W(xué)習(xí)學(xué)習(xí)~~~

就這樣吧~ 不知道下回什么時(shí)候?qū)懳恼隆＠^續(xù)去看書了?。?！再見~~想想，下回寫個(gè)什么東西玩玩呢。