Settings
Scrapy設(shè)置(settings)提供了定制Scrapy組件的方法??梢钥刂瓢ê诵?core),插件(extension),pipeline及spider組件。比如 設(shè)置Json Pipeliine、LOG_LEVEL等。
參考文檔:http://scrapy-chs.readthedocs.io/zh_CN/1.0/topics/settings.html#topics-settings-ref
內(nèi)置設(shè)置參考手冊
-
BOT_NAME默認(rèn): 'scrapybot'
當(dāng)您使用 startproject 命令創(chuàng)建項目時其也被自動賦值。
-
CONCURRENT_ITEMS默認(rèn): 100
Item Processor(即 Item Pipeline) 同時處理(每個response的)item的最大值。
-
CONCURRENT_REQUESTS默認(rèn): 16
Scrapy downloader 并發(fā)請求(concurrent requests)的最大值。
-
DEFAULT_REQUEST_HEADERS-
默認(rèn): 如下
{ 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8', 'Accept-Language': 'en', }Scrapy HTTP Request使用的默認(rèn)header。
-
-
DEPTH_LIMIT默認(rèn): 0
爬取網(wǎng)站最大允許的深度(depth)值。如果為0,則沒有限制。
-
DOWNLOAD_DELAY默認(rèn): 0
下載器在下載同一個網(wǎng)站下一個頁面前需要等待的時間。該選項可以用來限制爬取速度, 減輕服務(wù)器壓力。同時也支持小數(shù):
DOWNLOAD_DELAY = 0.25 # 250 ms of delay- 默認(rèn)情況下,Scrapy在兩個請求間不等待一個固定的值, 而是使用0.5到1.5之間的一個隨機值 * DOWNLOAD_DELAY 的結(jié)果作為等待間隔。
-
DOWNLOAD_TIMEOUT默認(rèn): 180
下載器超時時間(單位: 秒)。
-
ITEM_PIPELINES默認(rèn): {}
-
保存項目中啟用的pipeline及其順序的字典。該字典默認(rèn)為空,值(value)任意,不過值(value)習(xí)慣設(shè)置在0-1000范圍內(nèi),值越小優(yōu)先級越高。
ITEM_PIPELINES = { 'mySpider.pipelines.SomethingPipeline': 300, 'mySpider.pipelines.ItcastJsonPipeline': 800, }
-
LOG_ENABLED默認(rèn): True
是否啟用logging。
-
LOG_ENCODING默認(rèn): 'utf-8'
logging使用的編碼。
-
LOG_LEVEL默認(rèn): 'DEBUG'
log的最低級別??蛇x的級別有: CRITICAL、 ERROR、WARNING、INFO、DEBUG 。
-
USER_AGENT默認(rèn): "Scrapy/VERSION (+http://scrapy.org)"
爬取的默認(rèn)User-Agent,除非被覆蓋。
-
PROXIES: 代理設(shè)置-
示例:
PROXIES = [ {'ip_port': '111.11.228.75:80', 'password': ''}, {'ip_port': '120.198.243.22:80', 'password': ''}, {'ip_port': '111.8.60.9:8123', 'password': ''}, {'ip_port': '101.71.27.120:80', 'password': ''}, {'ip_port': '122.96.59.104:80', 'password': ''}, {'ip_port': '122.224.249.122:8088', 'password':''}, ]
-
-
COOKIES_ENABLED = False- 禁用Cookies