Scrapy-Redis搭建分布式爬蟲

一、Scrapy-Redis框架
github 傳送門: https://github.com/rmax/scrapy-redis
git clone https://github.com/rmax/scrapy-redis.git

1、安裝環(huán)境
Python 2.7, 3.4 or 3.5
Redis >= 2.8
Scrapy >= 1.1
redis-py >= 2.10

2、Settings文件配置

Enables scheduling storing requests queue in redis.
SCHEDULER = "scrapy_redis.scheduler.Scheduler"

Ensure all spiders share same duplicates filter through redis.
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

Store scraped item in redis for post-processing.(非必須)
ITEM_PIPELINES = {
'scrapy_redis.pipelines.RedisPipeline': 300
}

3、舉個栗子

1)spider genspider myspider www.abc.com
from scrapy_redis.spiders import RedisSpider

class MySpider(RedisSpider):
name = 'myspider'

def parse(self, response):
    # do stuff
    pass

2)spider genspider -t crawl myspider www.abc.com
class MySpider(RedisCrawlSpider):

rules = (
    Rule(LinkExtractor(), callback='parse_item'),
)

def parse_item(self, response):
    # do stuff
    pass
?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容