三種分布式爬蟲系統(tǒng)的架構(gòu)方式

分布式爬蟲系統(tǒng)廣泛應用于大型爬蟲項目中,力求以最高的效率完成任務,這也是分布式爬蟲系統(tǒng)的意義所在。

分布式系統(tǒng)的核心在于通信,介紹三種分布式爬蟲系統(tǒng)的架構(gòu)思路,都是圍繞通信開始,也就是說有多少分布式系統(tǒng)的通信方式就有多少分布式爬蟲系統(tǒng)的架構(gòu)思路。

  1. Redis

    利用redis做分布式系統(tǒng),最經(jīng)典的就是scrapy-Redis,這是比較成熟的框架。同時我們也可以利用Redis的隊列功能或者訂閱發(fā)布功能來打造自己的分布式系統(tǒng)。

  2. image

    Redis作為通信載體的優(yōu)點是讀寫迅速,對爬蟲的速度影響可忽略不 計,使用比較普遍。

主程序示例:

import scrapyfrom scrapy.http import Requestfrom scrapy.selector import HtmlXPathSelectorfrom scrapy.dupefilter import RFPDupeFilterfrom scrapy.core.scheduler import Schedulerimport redisfrom ..items import XiaobaiItemfrom scrapy_redis.spiders import RedisSpiderclass RenjianSpider(RedisSpider):    name = 'baidu'    allowed_domains = ['baidu.com']    def parse(self, response):        news_list = response.xpath('//*[@id="content-list"]/div[@class="item"]')        for news in news_list:            content = response.xpath('.//div[@class="part1"]/a/text()').extract_first().strip()            url = response.xpath('.//div[@class="part1"]/a/@href').extract_first()            yield XiaobaiItem(url=url,content=content)        yield Request(url='http://dig..com/',callback=self.parse)

2.RabbitMQ

RabbitMQ是比較靠譜的消息中間件,得益于它的確認機制,當一條消息消費后如果設置確定模式,那么確認后才會繼續(xù)消費,如果不確定認,那么這個任務將分配給其他消費者。

image

基于這種確認機制,可以在高可靠性和高數(shù)據(jù)要求情景中,避免數(shù)據(jù)抓取的遺漏和丟失。

其設計思路應該是基于mq設計兩個接口,一個用于URL的存放,一個用戶URL的獲取,同時基于Redis的URL去重,通過類似scrapy-redis 的調(diào)度使爬蟲運行。

主程序示例:

import pikaclass RabbitMQBASE:    def __new__(cls, *args, **kw):        if not hasattr(cls, '_instance'):            org = super(RabbitMQBASE, cls)            cls._instance = org.__new__(cls)        return cls._instance    def __init__(self, use='root', pwd='111'):        user_pwd = pika.PlainCredentials(use, pwd)        self.s_conn = pika.BlockingConnection(            pika.ConnectionParameters(host='1.1.1.1', heartbeat_interval=3600, credentials=user_pwd))    def channel(self):        return self.s_conn.channel()    def close(self):        """關(guān)閉連接"""        self.s_conn.close()    @staticmethod    def callback(ch, method, properties, body):        print(" [消費者] %r" % body)class RabbitMQ(RabbitMQBASE):    """    type_:交換機類型fanout、direct、topic    exchange:交換機名字    queue_name:隊列名字,為空則隨機命名    exclusive:隊列是否持久化False持久,True不持久    key_list:消費者的交換機、隊列綁定的關(guān)鍵詞列表    key:生產(chǎn)者路由的關(guān)鍵詞    no_ack:是否確認消息True不確定,False確定    """    def __init__(self, use='root', pwd='Kw7pGR4xDD1CsP*U', type_='direct', exchange='test',                 queue_name=None, exclusive=True, key_list=['test'], key='test', no_ack=True):        RabbitMQBASE.__init__(self, use=use, pwd=pwd)        self.type_ = type_        self.exchange = exchange        self.queue_name = queue_name        self.exclusive = exclusive        self.key = key        self.key_list = key_list        self.no_ack = no_ack    def rabbit_get(self):        """消費者"""        channel = self.channel()        channel.exchange_declare(exchange=self.exchange, exchange_type=self.type_)        if self.queue_name == None:            result = channel.queue_declare(exclusive=self.exclusive)            self.queue_name = result.method.queue        if self.type_ != 'fanout':            for key in self.key_list:                channel.queue_bind(exchange=self.exchange,  # 將交換機、隊列、關(guān)鍵字綁定                                   queue=self.queue_name, routing_key=key)        channel.basic_consume(RabbitMQBASE.callback, queue=self.queue_name, no_ack=self.no_ack)        channel.start_consuming()    def rabbit_put(self, message='hello word'):        """生產(chǎn)者"""        channel = self.channel()        channel.exchange_declare(exchange=self.exchange, exchange_type=self.type_)        if self.type_ == 'fanout':            self.key = ""        channel.basic_publish(exchange=self.exchange, routing_key=self.key, body=message)        channel.close()

3.Celery

celery典型的分布式任務隊列,常用于異步操作中,如tornado、Django的異步任務中,用celery設計分布式爬蟲系統(tǒng),往往結(jié)合網(wǎng)絡框架,打造一個爬蟲任務接口,提供給其他人使用。

image

同時celery在定時任務方面有著優(yōu)勢,只需要在配置文件中設置一下,就可以定期執(zhí)行任務,不必自己寫定時操作。

celery使用消息中間件,而這個消息中間件,可以使用Redis也可以使用RabbitMQ,但他的調(diào)度不必擔心,已經(jīng)封裝。

主程序示例:

# -*- coding:utf-8 -*-from celery import Celeryapp = Celery("tasks")app.config_from_object("celeryconfig")  # 指定配置文件@app.taskdef taskA(x, y):    return x + y@app.taskdef taskB(x, y, z):    return x + y + z@app.taskdef add(x, y):    return x + y

注意:上面的程序片段只是片段,用于示例。

綜上我們應該清楚在不同的任務場景中使用甚至如何設計自己的爬蟲系統(tǒng),分布式爬蟲系統(tǒng)的核心是不同主機的通信。


ID:Python之戰(zhàn)

|作|者|公(zhong)號:python之戰(zhàn)

專注Python,專注于網(wǎng)絡爬蟲、RPA的學習-踐行-總結(jié)

喜歡研究技術(shù)瓶頸并分享,歡迎圍觀,共同學習。

獨學而無友,則孤陋而寡聞!


?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容