好久好久,沒怎么寫東西,就把從GitHub上淘來的各種各樣語言的爬蟲框架分享給大家。
Python
python自然不用多說,擁有的爬蟲框架數(shù)不勝數(shù)。
-
scrapy,大名鼎鼎的爬蟲框架,功能強(qiáng)大,乃入門學(xué)習(xí)的必備良藥。支持多種多樣的配置特性,唯一可惜不支持分布式的特性,于是就誕生了scrapy-redis這個(gè)以
redis為隊(duì)列的分布式爬蟲框架。 - pyspider,應(yīng)該是個(gè)華人寫的爬蟲框架,可支持的配置非常多,同時(shí)也支持分布式,只需要配置中間的消息隊(duì)列就可以。
- portia,可視化的爬蟲框架,對(duì)于編程經(jīng)驗(yàn)少的人來說相當(dāng)適合學(xué)習(xí)。
- xcrawler,輕量級(jí)的爬蟲框架。個(gè)人很簡易從讀輕量級(jí)的爬蟲框架的源代碼入手,這樣能夠由淺入深,學(xué)地更有意思。
-
cola,也是很強(qiáng)大的分布式爬蟲框架,只是可惜不支持
python 3以上。 - fetchman, 國人寫的爬蟲框架,采用grequests來并發(fā)請(qǐng)求。看過源代碼,寫的容易理解,所以對(duì)于新手來說很實(shí)用。
- gain, 使用```asyncio``來異步爬取的輕量級(jí)爬蟲框架。代碼很容易理解,利于學(xué)習(xí)。
Java
Java接觸的不是很多,所以知道的爬蟲框架不多。
-
webmagic,這個(gè)是國人寫的爬蟲框架,很好用,也很強(qiáng)大。源代碼的閱讀體驗(yàn)也不錯(cuò),推薦寫
java的可以去熟悉熟悉。 - crawler4j, 比較好的爬蟲架構(gòu),對(duì)于學(xué)習(xí)和理解爬蟲框架很有用。
-
SeimiCrawler, 分布式爬蟲框架,也是受到
scrapy啟發(fā)。支持動(dòng)態(tài)渲染的頁面爬蟲。 - elves, 輕量級(jí)的爬蟲框架,國人寫的。易于學(xué)習(xí)和理解。
Node
node接觸的更加不多,但是也淘到了不錯(cuò)的幾個(gè)框架。
-
node-crawler,強(qiáng)大且流行。采用
Cheerio這個(gè)包解析網(wǎng)頁結(jié)構(gòu)。 -
webster,高性能的
NodeJs爬蟲框架,可爬取動(dòng)態(tài)渲染的內(nèi)容(通過headless Chrome)。
C#
C#作為筆者除了Python以外比較熟悉的語言了。但是發(fā)現(xiàn)其爬蟲框架少的可憐。哎,不禁嘆息。
-
DotnetSpider,整體架構(gòu)參照了
WebMagic和Scrapy,是C#中比較強(qiáng)大的存在。目前已經(jīng)支持.net core 2.0,所以,喜歡C#的可以去玩玩。還是比較不錯(cuò)的支持Entity Framework。 - WebCrawler,國人寫的輕量級(jí)的爬蟲框架??梢匀W(xué)習(xí)學(xué)習(xí)~~~
就這樣吧~ 不知道下回什么時(shí)候?qū)懳恼隆@^續(xù)去看書了?。?!再見~~想想,下回寫個(gè)什么東西玩玩呢。