
分布式爬蟲

Scrapy-redis提供了下面四種組件(components):(四種組件意味著這四個模塊都要做相應的修改)
4.?? pipeline
RedisSpider, 它能夠支持分布式的抓取,采用的是basic spider,需要寫parse函數(shù)。其次就是不再有start_urls了,取而代之的是redis_key,scrapy-redis將key從Redis里pop出來,成為請求的url地址。
運行爬蟲: 在爬蟲服務器上。進入爬蟲文件所在的路徑,然后輸入命令:scrapy runspider [爬蟲名字]。在Redis服務器上,推入一個開始的url鏈接:redis-cli> lpush [redis_key] start_url開始爬取。
分布式爬蟲的優(yōu)點:
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。
相關閱讀更多精彩內容
- 為甚要學習scrapy_redis?? Scrapy_redis在scrapy的基礎上實現(xiàn)了更多,更強大的功能,具...
- 引言 在上篇使用Scrapy爬取知乎用戶信息我們編寫了一個單機的爬蟲,這篇記錄了使用Scrapy-Redis將其重...
- 提高閱讀能力的五個要素: 1是態(tài)度,閱讀是發(fā)自內心的喜歡,有目的,為了什么而讀書,要解決什么問題,通過讀書成長,而...