爬蟲遭遇StackPath反爬的應(yīng)對(duì)之策

遇到StackPath反爬時(shí)出現(xiàn)圖下提示:
  • 處理方式很簡(jiǎn)單,通過selenium獲取cookie即可。


此處目標(biāo):

代碼如下:

import time
import requests
from selenium import webdriver

UA = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36"


def get_cookie(url):
    chrome_options = webdriver.ChromeOptions()
    chrome_options.add_argument('user-agent=' + UA)
    chrome_options.add_argument('blink-settings=imagesEnabled=false')
    chrome_options.add_argument('--window-size=1920,1080')
    chrome_options.add_argument('--headless')
    chrome_options.add_argument('--disable-gpu')
    chrome_options.add_experimental_option("excludeSwitches", ["enable-automation"])
    chrome_options.add_experimental_option('useAutomationExtension', False)
    browser = webdriver.Chrome(options=chrome_options)
    browser.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {
        "source": """
        Object.defineProperty(navigator, 'webdriver', {
          get: () => undefined
        })
      """
    })
    browser.get(url)
    time.sleep(5)
    _d = {}
    for i in browser.get_cookies():
        _d[i.get('name')] = i.get('value')
    browser.close()
    return _d


headers = {
    "Host": "dailynewsegypt.com",
    "Connection": "keep-alive",
    "Cache-Control": "max-age=0",
    "Upgrade-Insecure-Requests": "1",
    "User-Agent": UA,
    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9",
    "Sec-Fetch-Site": "same-origin",
    "Sec-Fetch-Mode": "navigate",
    "Sec-Fetch-User": "?1",
    "Sec-Fetch-Dest": "document",
    "Referer": "https://dailynewsegypt.com/",
    "Accept-Encoding": "gzip, deflate, br",
    "Accept-Language": "zh-CN,zh;q=0.9,zh-TW;q=0.8,th;q=0.7,en;q=0.6",
}
url = 'https://dailynewsegypt.com/category/opinion/page/2/'
cookies = get_cookie(url)
req = requests.get(url=url, headers=headers, cookies=cookies)
time.sleep(5)
print(req.text)
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 爬蟲的基礎(chǔ)知識(shí) 爬蟲的定義 只要是瀏覽器可以做的事情,原則上,爬蟲都可以幫助我們做,即:瀏覽器不能夠做到的,爬蟲也...
    jxvl假裝閱讀 1,018評(píng)論 0 1
  • 文:八九寺真宵from:SegmentFault (侵刪) 之前提到過,有些網(wǎng)站是防爬蟲的。其實(shí)事實(shí)是,凡是有一定...
    JinxNN閱讀 350評(píng)論 0 0
  • 1. 寫一個(gè)郵箱地址的正則表達(dá)式? 2. 談一談你對(duì) Selenium 和 PhantomJS 了解 Seleni...
    HAO延WEI閱讀 4,679評(píng)論 0 32
  • 爬蟲與反爬蟲,這相愛相殺的一對(duì),簡(jiǎn)直可以寫出一部壯觀的斗爭(zhēng)史。而在大數(shù)據(jù)時(shí)代,數(shù)據(jù)就是金錢,很多企業(yè)都為自己的網(wǎng)站...
    丨程序之道丨閱讀 1,506評(píng)論 0 2
  • 1. 概述 本文主要介紹網(wǎng)絡(luò)爬蟲,采用的實(shí)現(xiàn)語言為Python,目的在于闡述網(wǎng)絡(luò)爬蟲的原理和實(shí)現(xiàn),并且對(duì)目前常見的...
    Lemon_Home閱讀 3,120評(píng)論 0 21

友情鏈接更多精彩內(nèi)容