pipspider
def open_spider() #爬蟲開始執(zhí)行一次
def close_spider() #完成時(shí)執(zhí)行一次
scrapy命令
scrapy startproject myproject #創(chuàng)建一個(gè)新的項(xiàng)目
scrapy genspider <name> <all_domain>
scrapy genspider -t crawl <name> <all_domain> #創(chuàng)建一個(gè)crawl類型
scrapy bench #測試電腦的爬取速度性能
middleware中間件
class RandomUserAgent(object):
def process_request(selft,request,spider):
useragent = random.choice(USER_AGENTS)
request.headers['User-Agent']=useragent
class ProxyMiddleWare(object):
def process_request(self,request,spider):
request.meta['proxy']=''
item
Item提供了類字典的API,并且可以很方便的聲明字段,很多Scrapy組件可以利用Item的其他信息。