python如何爬取愛某查類數(shù)據(jù)

最近因為公司業(yè)務(wù)需求寫了一套分布式多線程的愛某查爬蟲系統(tǒng),實現(xiàn)了對愛某查整個網(wǎng)站的全部數(shù)據(jù)各種維度的采集和存儲,經(jīng)常在論壇或爬蟲群里面看一些做技術(shù)的朋友在爬愛某查類型的網(wǎng)站的時候會遇到以下幾個問題,所以寫了這篇文章一些簡單的解決方案分享給大家。
1、目標(biāo)網(wǎng)站的難度系數(shù)比拼
比如愛某查和天某查哪一個的數(shù)據(jù)更難爬呢?其實在準(zhǔn)備爬愛某查數(shù)據(jù)的時候,我對啟某寶、企某查類似的網(wǎng)站分布從數(shù)據(jù)的完整性和數(shù)據(jù)的更新及時性分析了,結(jié)果個人覺得愛某查的數(shù)據(jù)比其他網(wǎng)站的要完整,數(shù)據(jù)維度要多一些,數(shù)據(jù)更新的時候也比較快,所以最后選擇了爬取天某查里面的企業(yè)數(shù)據(jù),難度相比也要稍等小一點。

  1. 采集速度太頻繁了,會被封IP問題 怎么解決
    當(dāng)我們的爬蟲程序向目標(biāo)網(wǎng)站發(fā)出http請求的時候,正常情況下返回200狀態(tài),說明請求合法被接受,并且會返回數(shù)據(jù),但是這次的目標(biāo)網(wǎng)站想對一般網(wǎng)站反爬要嚴(yán)厲很多,其中最普遍的一個就是如果檢查到同一個IP來不斷的采集他網(wǎng)站的數(shù)據(jù),那么他會被這個IP列入異常黑名單,您再去采集它網(wǎng)站數(shù)據(jù)的時候,那么就永遠(yuǎn)被攔截了。這種情況最簡單的就是使用爬蟲代理IP去訪問,每一次請求的時候都采用代理IP方式去請求,而且這個代理IP是隨機變動的,每次請求都不同。
  2. 爬蟲程序?qū)崿F(xiàn)數(shù)據(jù)采集的過程
    在進行爬取數(shù)據(jù)的過程中我們經(jīng)常會使用到一些庫,requests屬于第三方庫,使用起來比urllib要簡單不少,且功能更加強大,是最常用的請求庫。以下是requests加上優(yōu)質(zhì)爬蟲代理IP實現(xiàn)數(shù)據(jù)采集的過程:

! -- encoding:utf-8 --

import requests
import random

# 要訪問的目標(biāo)頁面
targetUrl = "https://aiqicha.baidu.com/"

# 要訪問的目標(biāo)HTTPS頁面
# targetUrl = "https://aiqicha.baidu.com/"

# 代理服務(wù)器(產(chǎn)品官網(wǎng) www.16yun.cn)
proxyHost = "t.16yun.cn"
proxyPort = "31111"

# 代理驗證信息
proxyUser = "16WNFAPS"
proxyPass = "458798"

proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
    "host" : proxyHost,
    "port" : proxyPort,
    "user" : proxyUser,
    "pass" : proxyPass,
}

# 設(shè)置 http和https訪問都是用HTTP代理
proxies = {
    "http"  : proxyMeta,
    "https" : proxyMeta,
}


#  設(shè)置IP切換頭
tunnel = random.randint(1,10000)
headers = {"Proxy-Tunnel": str(tunnel)}



resp = requests.get(targetUrl, proxies=proxies, headers=headers)

print resp.status_code
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容