第九章 scrapy-redis 分布式爬蟲

scrapy-redis 分布式爬蟲

標(biāo)簽(空格分隔): python scrapy scrapy-redis


分布式爬蟲要點

  • 狀態(tài)管理器
  • 利用多機(jī)器寬帶加速爬取
  • 利用多機(jī)器的ip加速爬取
  • request隊列集中管理
  • 去重集中管理

scrapy-redis 基礎(chǔ)知識

  • 數(shù)據(jù)類型

    字符串、散列(哈希)、列表、集合、可排序集合

  • 字符串命令

    • set mykey ''cnblogs'' 創(chuàng)建變量
    • get mykey 查看變量
    • getrange mykey start end 獲取字符串,如:get name 2 5 #獲取name2~5的字符串
    • strlen mykey 獲取長度
    • incr/decr mykey 加一減一,類型是int
    • append mykey ''com'' 添加字符串,添加到末尾
  • 哈希命令

    • hset myhash name "cnblogs" 創(chuàng)建變量,myhash類似于變量名,name類似于key,"cnblogs"類似于values
    • hgetall myhash 得到key和values兩者
    • hget myhash name 得到values
    • hexists myhash name 檢查是否存在這個key
    • hdel myhash name 刪除這個key
    • hkeys myhash 查看key
    • hvals muhash 查看values
  • 列表命令

    • lpush/rpush mylist "cnblogs" 左添加/右添加值
    • lrange mylist 0 10 查看列表0~10的值
    • blpop/brpop key1[key2] timeout 左刪除/右刪除一個,timeout是如果沒有key,等待設(shè)置的時間后結(jié)束。
    • lpop/rpop key 左刪除/右刪除,沒有等待時間。
    • llen key 獲得長度
    • lindex key index 取第index元素,index是從0開始的
  • 集合命令

    • sadd myset "cnblogs" 添加內(nèi)容,返回1表示不存在,0表示存在
    • scard key 查看set中的值
    • sdiff key1 [key2] 2個set做減法,其實就是[減去了交際部分]
    • sinter key1 [key2] 2個set做加法,其實就是留下了兩者的交集
    • spop key 隨機(jī)刪除值
    • srandmember key member 隨機(jī)獲取member個值
    • smembers key 獲取全部的元素
  • 可排序集合命令

    • zadd myset 0 ‘project1’ [1 ‘project2’] 添加集合元素;中括號是沒有的,在這里是便于理解
    • zrangebyscore myset 0 100 選取分?jǐn)?shù)在0~100的元素
    • zcount key min max 選取分?jǐn)?shù)在min~max的元素的個數(shù)

scrapy-redis 使用

  • 項目引用

    • 安裝

    通過下載windows版本的redis服務(wù)器,并啟動。具體操作redis操作

redis-server.exe redis.windows.conf #啟動

  • 虛擬環(huán)境安裝引用
pip install redis
  • 項目啟動前,需啟動redis服務(wù)器

  • 原視頻UP主慕課網(wǎng)(聚焦Python分布式爬蟲必學(xué)框架Scrapy 打造搜索引擎)
  • 本篇博客撰寫人: XiaoJinZi 個人主頁 轉(zhuǎn)載請注明出處
  • 學(xué)生能力有限 附上郵箱: 986209501@qq.com 不足以及誤處請大佬指責(zé)
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容