分布式爬蟲

Scrapy_redis在scrapy的基礎(chǔ)上實(shí)現(xiàn)了更多,更強(qiáng)大的功能,具體體現(xiàn)在:reqeust去重,爬蟲持久化,和輕松實(shí)現(xiàn)分布式,安裝命令如下:

pip3 install scrapy-redis

Scrapy-redis提供了下面四種組件:

1.Scheduler
2.Duplication Filter
3.Item Pipeline
4.Base Spider

Scrapy本身不支持爬蟲分布式,scrapy-redis 的解決是把這個(gè)Scrapy queue換成redis數(shù)據(jù)庫,從同一個(gè)redis-server存放要爬取的request,便能讓多個(gè)spider去同一個(gè)數(shù)據(jù)庫里讀取。
Scheduler

注意!

原來的Scheduler已經(jīng)無法使用,所以使用Scrapy-redis的scheduler組件。

Duplication Filter

Scrapy中用集合實(shí)現(xiàn)這個(gè)request去重功能,Scrapy中把已經(jīng)發(fā)送的request指紋放入到一個(gè)集合中,把下一個(gè)request的指紋拿到集合中比對(duì),如果該指紋存在于集合中,說明這個(gè)request發(fā)送過了,如果沒有則繼續(xù)操作。

Item Pipeline

引擎將Spider返回的爬取到的Item給Item Pipeline,scrapy-redis 的Item Pipeline將爬取到的 Item 存?redis的 items queue。

Base Spider

不在使用scrapy原有的Spider類,重寫的RedisSpider繼承了Spider和RedisMixin這兩個(gè)類,RedisMixin是用來從redis讀取url的類。

要實(shí)現(xiàn)分布式爬蟲,需要在settings中做如下設(shè)置

Scrapy settings for example project
#
# For simplicity, this file contains only the most important settings by
# default. All the other settings are documented here:
#
# http://doc.scrapy.org/topics/settings.html
#
SPIDER_MODULES = ['example.spiders']
NEWSPIDER_MODULE = 'example.spiders'

# 默認(rèn)的User-Agent
USER_AGENT = 'scrapy-redis (+https://github.com/rolando/scrapy-redis)'

#這里表示啟用scrapy-redis里的去重組件,
不再使用scrapy默認(rèn)的去重
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

#使用了scrapy-redis里面的調(diào)度器組件,不再使用scrapy默認(rèn)的調(diào)度器
SCHEDULER = "scrapy_redis.scheduler.Scheduler"

#允許暫停,redis請(qǐng)求的記錄不會(huì)丟失,不清除
Redis隊(duì)列,可以恢復(fù)和暫停
SCHEDULER_PERSIST = True

#下面這些是request的隊(duì)列模式
#一般情況下使用第一種
#scrapy-redis默認(rèn)的請(qǐng)求隊(duì)列形式(有自己的優(yōu)先級(jí)順序)
#是按照redis的有序集合排序出隊(duì)列的
#SCHEDULER_QUEUE_CLASS =             "scrapy_redis.queue.SpiderPriorityQueue"

#這個(gè)是啟用了堆的形式,請(qǐng)求先進(jìn)先出
#SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderQueue"

#使用了棧的形式,請(qǐng)求先進(jìn)后出
#SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderStack"

# scrapy_redis.pipelines.RedisPipeline 必須啟用,才能夠?qū)?shù)據(jù)存儲(chǔ)到redis數(shù)據(jù)庫中
ITEM_PIPELINES = {
'example.pipelines.ExamplePipeline': 300,
'scrapy_redis.pipelines.RedisPipeline': 400,
}

# log日志等級(jí)(可選)
# LOG_LEVEL = 'DEBUG'

# 指定要存儲(chǔ)的redis的主機(jī)的ip,
默認(rèn)存儲(chǔ)在127.0.0.1

REDIS_HOST = 'redis的主機(jī)的ip'

# 定要存儲(chǔ)的redis的主機(jī)的port,
默認(rèn)6379

REDIS_PORT = '6379'

# Introduce an artifical delay to make use of parallelism. to speed up the
# crawl.
#下載延時(shí)
DOWNLOAD_DELAY = 1
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容