最近因為公司業(yè)務(wù)需求寫了一套分布式多線程的愛某查爬蟲系統(tǒng)，實現(xiàn)了對愛某查整個網(wǎng)站的全部數(shù)據(jù)各種維度的采集和存儲，經(jīng)常在論壇或爬蟲群里面看一些做技術(shù)的朋友在爬愛某查類型的網(wǎng)站的時候會遇到以下幾個問題，所以寫了這篇文章一些簡單的解決方案分享給大家。
1、目標(biāo)網(wǎng)站的難度系數(shù)比拼
比如愛某查和天某查哪一個的數(shù)據(jù)更難爬呢？其實在準(zhǔn)備爬愛某查數(shù)據(jù)的時候，我對啟某寶、企某查類似的網(wǎng)站分布從數(shù)據(jù)的完整性和數(shù)據(jù)的更新及時性分析了，結(jié)果個人覺得愛某查的數(shù)據(jù)比其他網(wǎng)站的要完整，數(shù)據(jù)維度要多一些，數(shù)據(jù)更新的時候也比較快，所以最后選擇了爬取天某查里面的企業(yè)數(shù)據(jù)，難度相比也要稍等小一點。

采集速度太頻繁了，會被封IP問題怎么解決
當(dāng)我們的爬蟲程序向目標(biāo)網(wǎng)站發(fā)出http請求的時候，正常情況下返回200狀態(tài)，說明請求合法被接受，并且會返回數(shù)據(jù)，但是這次的目標(biāo)網(wǎng)站想對一般網(wǎng)站反爬要嚴(yán)厲很多，其中最普遍的一個就是如果檢查到同一個IP來不斷的采集他網(wǎng)站的數(shù)據(jù)，那么他會被這個IP列入異常黑名單，您再去采集它網(wǎng)站數(shù)據(jù)的時候，那么就永遠(yuǎn)被攔截了。這種情況最簡單的就是使用爬蟲代理IP去訪問，每一次請求的時候都采用代理IP方式去請求，而且這個代理IP是隨機變動的，每次請求都不同。
爬蟲程序?qū)崿F(xiàn)數(shù)據(jù)采集的過程
在進行爬取數(shù)據(jù)的過程中我們經(jīng)常會使用到一些庫，requests屬于第三方庫，使用起來比urllib要簡單不少，且功能更加強大，是最常用的請求庫。以下是requests加上優(yōu)質(zhì)爬蟲代理IP實現(xiàn)數(shù)據(jù)采集的過程：

! -- encoding:utf-8 --

import requests
import random

# 要訪問的目標(biāo)頁面
targetUrl = "https://aiqicha.baidu.com/"

# 要訪問的目標(biāo)HTTPS頁面
# targetUrl = "https://aiqicha.baidu.com/"

# 代理服務(wù)器(產(chǎn)品官網(wǎng) www.16yun.cn)
proxyHost = "t.16yun.cn"
proxyPort = "31111"

# 代理驗證信息
proxyUser = "16WNFAPS"
proxyPass = "458798"

proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
    "host" : proxyHost,
    "port" : proxyPort,
    "user" : proxyUser,
    "pass" : proxyPass,
}

# 設(shè)置 http和https訪問都是用HTTP代理
proxies = {
    "http"  : proxyMeta,
    "https" : proxyMeta,
}


#  設(shè)置IP切換頭
tunnel = random.randint(1,10000)
headers = {"Proxy-Tunnel": str(tunnel)}



resp = requests.get(targetUrl, proxies=proxies, headers=headers)

print resp.status_code

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

python如何爬取愛某查類數(shù)據(jù)

python如何爬取愛某查類數(shù)據(jù)

! -- encoding:utf-8 --

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

python如何爬取愛某查類數(shù)據(jù)

! -- encoding:utf-8 --

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av