從Github上淘來的爬蟲框架

好久好久,沒怎么寫東西,就把從GitHub上淘來的各種各樣語言的爬蟲框架分享給大家。

Python

python自然不用多說,擁有的爬蟲框架數(shù)不勝數(shù)。

  • scrapy,大名鼎鼎的爬蟲框架,功能強(qiáng)大,乃入門學(xué)習(xí)的必備良藥。支持多種多樣的配置特性,唯一可惜不支持分布式的特性,于是就誕生了scrapy-redis這個(gè)以redis為隊(duì)列的分布式爬蟲框架。
  • pyspider,應(yīng)該是個(gè)華人寫的爬蟲框架,可支持的配置非常多,同時(shí)也支持分布式,只需要配置中間的消息隊(duì)列就可以。
  • portia,可視化的爬蟲框架,對(duì)于編程經(jīng)驗(yàn)少的人來說相當(dāng)適合學(xué)習(xí)。
  • xcrawler,輕量級(jí)的爬蟲框架。個(gè)人很簡易從讀輕量級(jí)的爬蟲框架的源代碼入手,這樣能夠由淺入深,學(xué)地更有意思。
  • cola,也是很強(qiáng)大的分布式爬蟲框架,只是可惜不支持python 3以上。
  • fetchman, 國人寫的爬蟲框架,采用grequests來并發(fā)請(qǐng)求。看過源代碼,寫的容易理解,所以對(duì)于新手來說很實(shí)用。
  • gain, 使用```asyncio``來異步爬取的輕量級(jí)爬蟲框架。代碼很容易理解,利于學(xué)習(xí)。

Java

Java接觸的不是很多,所以知道的爬蟲框架不多。

  • webmagic,這個(gè)是國人寫的爬蟲框架,很好用,也很強(qiáng)大。源代碼的閱讀體驗(yàn)也不錯(cuò),推薦寫java的可以去熟悉熟悉。
  • crawler4j, 比較好的爬蟲架構(gòu),對(duì)于學(xué)習(xí)和理解爬蟲框架很有用。
  • SeimiCrawler, 分布式爬蟲框架,也是受到scrapy啟發(fā)。支持動(dòng)態(tài)渲染的頁面爬蟲。
  • elves, 輕量級(jí)的爬蟲框架,國人寫的。易于學(xué)習(xí)和理解。

Node

node接觸的更加不多,但是也淘到了不錯(cuò)的幾個(gè)框架。

  • node-crawler,強(qiáng)大且流行。采用Cheerio這個(gè)包解析網(wǎng)頁結(jié)構(gòu)。
  • webster,高性能的NodeJs爬蟲框架,可爬取動(dòng)態(tài)渲染的內(nèi)容(通過headless Chrome)。

C#

C#作為筆者除了Python以外比較熟悉的語言了。但是發(fā)現(xiàn)其爬蟲框架少的可憐。哎,不禁嘆息。

  • DotnetSpider,整體架構(gòu)參照了WebMagicScrapy,是C#中比較強(qiáng)大的存在。目前已經(jīng)支持.net core 2.0,所以,喜歡C#的可以去玩玩。還是比較不錯(cuò)的支持Entity Framework。
  • WebCrawler,國人寫的輕量級(jí)的爬蟲框架??梢匀W(xué)習(xí)學(xué)習(xí)~~~

就這樣吧~ 不知道下回什么時(shí)候?qū)懳恼隆@^續(xù)去看書了?。?!再見~~想想,下回寫個(gè)什么東西玩玩呢。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容