(2018-05-20.Python從Zero到One)4、(爬蟲)scrapy 框架__1.4.9Settings

Settings

Scrapy設(shè)置(settings)提供了定制Scrapy組件的方法??梢钥刂瓢ê诵?core),插件(extension),pipeline及spider組件。比如 設(shè)置Json Pipeliine、LOG_LEVEL等。

參考文檔:http://scrapy-chs.readthedocs.io/zh_CN/1.0/topics/settings.html#topics-settings-ref

內(nèi)置設(shè)置參考手冊

  • BOT_NAME

    • 默認(rèn): 'scrapybot'

    • 當(dāng)您使用 startproject 命令創(chuàng)建項目時其也被自動賦值。

  • CONCURRENT_ITEMS

    • 默認(rèn): 100

    • Item Processor(即 Item Pipeline) 同時處理(每個response的)item的最大值。

  • CONCURRENT_REQUESTS
    • 默認(rèn): 16

    • Scrapy downloader 并發(fā)請求(concurrent requests)的最大值。

  • DEFAULT_REQUEST_HEADERS
    • 默認(rèn): 如下

      {
      'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
      'Accept-Language': 'en',
      }
      
      

      Scrapy HTTP Request使用的默認(rèn)header。

  • DEPTH_LIMIT

    • 默認(rèn): 0

    • 爬取網(wǎng)站最大允許的深度(depth)值。如果為0,則沒有限制。

  • DOWNLOAD_DELAY
    • 默認(rèn): 0

    • 下載器在下載同一個網(wǎng)站下一個頁面前需要等待的時間。該選項可以用來限制爬取速度, 減輕服務(wù)器壓力。同時也支持小數(shù):

    DOWNLOAD_DELAY = 0.25 # 250 ms of delay

    • 默認(rèn)情況下,Scrapy在兩個請求間不等待一個固定的值, 而是使用0.5到1.5之間的一個隨機值 * DOWNLOAD_DELAY 的結(jié)果作為等待間隔。
  • DOWNLOAD_TIMEOUT

    • 默認(rèn): 180

    • 下載器超時時間(單位: 秒)。

  • ITEM_PIPELINES
    • 默認(rèn): {}

    • 保存項目中啟用的pipeline及其順序的字典。該字典默認(rèn)為空,值(value)任意,不過值(value)習(xí)慣設(shè)置在0-1000范圍內(nèi),值越小優(yōu)先級越高。

      ITEM_PIPELINES = {
      'mySpider.pipelines.SomethingPipeline': 300,
      'mySpider.pipelines.ItcastJsonPipeline': 800,
      }
      
      
  • LOG_ENABLED

    • 默認(rèn): True

    • 是否啟用logging。

  • LOG_ENCODING

    • 默認(rèn): 'utf-8'

    • logging使用的編碼。

  • LOG_LEVEL

    • 默認(rèn): 'DEBUG'

    • log的最低級別??蛇x的級別有: CRITICAL、 ERROR、WARNING、INFO、DEBUG 。

  • USER_AGENT
    • 默認(rèn): "Scrapy/VERSION (+http://scrapy.org)"

    • 爬取的默認(rèn)User-Agent,除非被覆蓋。

  • PROXIES: 代理設(shè)置
    • 示例:

      PROXIES = [
        {'ip_port': '111.11.228.75:80', 'password': ''},
        {'ip_port': '120.198.243.22:80', 'password': ''},
        {'ip_port': '111.8.60.9:8123', 'password': ''},
        {'ip_port': '101.71.27.120:80', 'password': ''},
        {'ip_port': '122.96.59.104:80', 'password': ''},
        {'ip_port': '122.224.249.122:8088', 'password':''},
      ]
      
      
  • COOKIES_ENABLED = False
    • 禁用Cookies
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容