大肉棒导航,欧美人妻3

常見反爬蟲和對(duì)應(yīng)策略

更換user-agent

更換user-agent是一種很常用的爬蟲偽裝需求，這里我們可以使用middleware進(jìn)行設(shè)置。
先在settings中設(shè)置一個(gè)downloader_middleware：

......
USER_AGENT = "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36"
DOWNLOADER_MIDDLEWARES = {
    'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware':2
}
......

    UserAgentMiddleware是scrapy自帶的組件，它會(huì)在settings中尋找USER_AGENT，并全局修改替換每一個(gè)request中的user-agent, 在settings中默認(rèn)是注釋掉的， 取消掉注釋便可使用生效。
    此外，我們還可以對(duì)這個(gè)middleware進(jìn)行改寫，使其實(shí)現(xiàn)隨機(jī)選取user-agent的功能，在這樣做之前前，建議先將默認(rèn)的UserAgent的Middleware置為None:

......

DOWNLOADER_MIDDLEWARES = {
    'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware':None
}
user_agent_list = [
"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36",
......
]
......

    之后， 我們?cè)趍iddleware這個(gè)文件中重寫一個(gè)middleware, 實(shí)現(xiàn)這些功能：

......
class RandomUserAgentMiddlware(object):
    def __int__(self,crawler):
        super(RandomUserAgentMiddleware,self).__int__()
        self.user_agent_list = crawler.settings.get("user-agent-list")

    @classmethod
    def from_crawler(cls,crawler):
        return cls(crawler)  
        
    def process_request(self,request,spider):
        request.headers.setdefault('user-agent',random())
......

關(guān)于隨機(jī)切換，這里我們也可以考慮使用fake-useragent這個(gè)開源的包來(lái)實(shí)現(xiàn)：

from fake_useragent import UserAgent
......
class RandomUserAgentMiddlware(object):
    def __int__(self,crawler):
        super(RandomUserAgentMiddleware,self).__int__()
        self.ua = UserAgent()

    @classmethod
    def from_crawler(cls,crawler):
        return cls(crawler)
        
    def process_request(self,request,spider):
        request.headers.setdefault('User-Agent',self.ua.random)
        request.meta["proxy"] = "https://:"
......

關(guān)于cookie

cookie是一種常用的反爬手段，有的網(wǎng)站會(huì)將給用戶的訪問記錄存儲(chǔ)到用戶的cookie中，等下次該用戶訪問時(shí)，會(huì)查驗(yàn)該cookie作為判斷其是否為爬蟲的依據(jù)，對(duì)于這種方式，我們可以將爬蟲程序禁止存儲(chǔ)cookie即可，例如在scrapy中，禁用cookie可以通過(guò)在settings.py中進(jìn)行如下設(shè)置：

COOKIES_ENABLED = True

關(guān)于IP代理池

首先，在settings中編寫代理：

IPPOOL=[
    {"ipaddr":"219.228.126.86:8123"},
    {"ipaddr":"61.152.81.193:9100"},
    {"ipaddr":"218.82.33.225:53853"},
    {"ipaddr":"223.167.190.17:42789"}
]

配置中間件文件：

import random
from scrapy import signals
from myproxies.settings import IPPOOL
class MyproxiesSpiderMiddleware(object):
      def __init__(self,ip=''):
          self.ip=ip       
      def process_request(self, request, spider):
          thisip=random.choice(IPPOOL)
          print("this is ip:"+thisip["ipaddr"])
          request.meta["proxy"]="http://"+thisip["ipaddr"]

在settings中設(shè)置downloader_middlewares:

DOWNLOADER_MIDDLEWARES = {
     'myproxies.middlewares.MyproxiesSpiderMiddleware':125
}

四、selenium不加載圖片的設(shè)置

......
chrome_opt = webdriver.ChromeOptions()
prefs = {"profile.managed_default_content_sttings.images":2}
chrome_opt.add_experimental_option("prefs",prefs)
browser = webdriver.Chrome(executable_path="",chrome_options = chrome_opt)
......

這樣對(duì)于一些不需要加載圖片的任務(wù)，可以減少很多對(duì)象的請(qǐng)求，可以加速頁(yè)面的加載速度。

五、無(wú)界面瀏覽器phantomjs的使用

對(duì)于我們的一些無(wú)界面服務(wù)器Centos,ubuntu，可以使用phantomjs。在selenium中它的使用和chrome基本相同。

六、將selenium集成到scrapy中

我們可以考慮將selenium集成到scrapy中，專門用于解決某些動(dòng)態(tài)頁(yè)面的加載：

#spiders/XXX.py
......
from selenium import webdriver
from scrapy.xlib.pydispatch import dispatcher
from scrapy import signals

class XXXSpider(object):
    def __init__(self):
        self.browser = webdriver,Chrome(executable_path="")
      super(XXXSpider,self).__init__()
      #通過(guò)信號(hào)量追蹤，將信號(hào)spider_closed與函數(shù)spider_closed進(jìn)行綁定
      dispatcher.connect(self.spider_closed,signals.spider_closed)
    def spider_closed(self,spider):
        print("spider closed")
        self.browser.quit()
......

#middlewares.py
from scrapy.http import HtmlResponse
......
class JSPageMiddleware(object):
  def process_request(self,request,spider):
    if spider.name == "<爬蟲名>":
      spider.browser.get(request.url)
      import time
      time.sleep(3)
    return HtmlResponse(url=spider.browser.current_url,body=spider.browser.page_source,encoding="utf-8",request=request)
......

middlewares處理過(guò)的requests接下來(lái)都會(huì)被發(fā)給downloader進(jìn)行頁(yè)面下載，由于我們的selenium已經(jīng)進(jìn)行了頁(yè)面下載，所以不需要再發(fā)給downloader了，我們直接用selenium分析頁(yè)面的結(jié)果用來(lái)構(gòu)建一個(gè)response, 返回給spider。

七、無(wú)界面運(yùn)行chrome的方法

首先安裝一個(gè)包, 當(dāng)然這個(gè)包只能在linux中使用：

pip install pyvirtualdisplay

我們?cè)谀_本中添加相關(guān)代碼：

#middlewares
from pyvirtualdisplay import Display
display = Display(visible=0,size=(800,600))
display.start()

browser = webdriver.Chrome()
......

八、其它方案

splinter、scrapy-splash、selenium-grid

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

Scrapy+redis分布式爬蟲(五、爬蟲與反爬策略)

Scrapy+redis分布式爬蟲(五、爬蟲與反爬策略)

常見反爬蟲和對(duì)應(yīng)策略

更換user-agent

關(guān)于cookie

關(guān)于IP代理池

四、selenium不加載圖片的設(shè)置

五、無(wú)界面瀏覽器phantomjs的使用

六、將selenium集成到scrapy中

七、無(wú)界面運(yùn)行chrome的方法

八、其它方案

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

Scrapy+redis分布式爬蟲(五、爬蟲與反爬策略)

常見反爬蟲和對(duì)應(yīng)策略

更換user-agent

關(guān)于cookie

關(guān)于IP代理池

四、selenium不加載圖片的設(shè)置

五、無(wú)界面瀏覽器phantomjs的使用

六、將selenium集成到scrapy中

七、無(wú)界面運(yùn)行chrome的方法

八、其它方案

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

Scrapy+redis分布式爬蟲(五、爬蟲與反爬策略)

四、selenium不加載圖片的設(shè)置

五、無(wú)界面瀏覽器phantomjs的使用

六、將selenium集成到scrapy中

八、其它方案