青青色在线,久久九九.COM,不卡四五区

最近一直在弄爬蟲，也爬取了知名網(wǎng)站的一些數(shù)據(jù)(這里只是個(gè)人學(xué)習(xí)使用，不是商用?。?！)，大家都知道，爬蟲和反爬蟲一直以來都是相愛相殺的，爬蟲程序員希望破解反爬蟲手段，反爬蟲程序員希望建立更加有效的反爬蟲方式與之抗衡。

由于在這階段進(jìn)行的爬蟲學(xué)習(xí)中，經(jīng)常中招，所以今天就簡單的總結(jié)一下反爬蟲的方式。

一.BAN IP

網(wǎng)頁的運(yùn)維人員通過分析日志發(fā)現(xiàn)最近某一個(gè)IP訪問量特別特別大，某一段時(shí)間內(nèi)訪問了無數(shù)次的網(wǎng)頁，則運(yùn)維人員判斷此種訪問行為并非正常人的行為，于是直接在服務(wù)器上封殺了此人IP(我剛爬取的網(wǎng)站的維護(hù)人員可能對我實(shí)施了這種手段...)。

解決方法：此種方法極其容易誤傷其他正常用戶，因?yàn)槟骋黄瑓^(qū)域的其他用戶可能有著相同的IP，導(dǎo)致服務(wù)器少了許多正常用戶的訪問，所以一般運(yùn)維人員不會通過此種方法來限制爬蟲。不過面對許多大量的訪問，服務(wù)器還是會偶爾把該IP放入黑名單，過一段時(shí)間再將其放出來，但我們可以通過分布式爬蟲以及購買代理IP也能很好的解決，只不過爬蟲的成本提高了。

二.BAN USERAGENT

很多的爬蟲請求頭就是默認(rèn)的一些很明顯的爬蟲頭python-requests/2.18.4，諸如此類，當(dāng)運(yùn)維人員發(fā)現(xiàn)攜帶有這類headers的數(shù)據(jù)包，直接拒絕訪問，返回403錯誤

解決方法：直接r=requests.get(url,headers={'User-Agent':'XXXspider'})把爬蟲請求headers偽裝成其他爬蟲或者其他瀏覽器頭就行了。

案例：雪球網(wǎng)

三.BAN COOKIES

服務(wù)器對每一個(gè)訪問網(wǎng)頁的人都set-cookie，給其一個(gè)cookies，當(dāng)該cookies訪問超過某一個(gè)閥值時(shí)就BAN掉該COOKIE，過一段時(shí)間再放出來，當(dāng)然一般爬蟲都是不帶COOKIE進(jìn)行訪問的，可是網(wǎng)頁上有一部分內(nèi)容如新浪微博是需要用戶登錄才能查看更多內(nèi)容(我已經(jīng)中招了)。

解決辦法：控制訪問速度，或者某些需要登錄的如新浪微博，在某寶上買多個(gè)賬號，生成多個(gè)cookies，在每一次訪問時(shí)帶上cookies

案例：螞蜂窩

四.驗(yàn)證碼驗(yàn)證

當(dāng)某一用戶訪問次數(shù)過多后，就自動讓請求跳轉(zhuǎn)到一個(gè)驗(yàn)證碼頁面，只有在輸入正確的驗(yàn)證碼之后才能繼續(xù)訪問網(wǎng)站

解決辦法：python可以通過一些第三方庫如(pytesser,PIL)來對驗(yàn)證碼進(jìn)行處理，識別出正確的驗(yàn)證碼，復(fù)雜的驗(yàn)證碼可以通過機(jī)器學(xué)習(xí)讓爬蟲自動識別復(fù)雜驗(yàn)證碼，讓程序自動識別驗(yàn)證碼并自動輸入驗(yàn)證碼繼續(xù)抓取

案例：51Job? 安全客

五.javascript渲染

網(wǎng)頁開發(fā)者將重要信息放在網(wǎng)頁中但不寫入html標(biāo)簽中，而瀏覽器會自動渲染<script>標(biāo)簽的js代碼將信息展現(xiàn)在瀏覽器當(dāng)中，而爬蟲是不具備執(zhí)行js代碼的能力，所以無法將js事件產(chǎn)生的信息讀取出來

解決辦法：通過分析提取script中的js代碼來通過正則匹配提取信息內(nèi)容或通過webdriver+phantomjs直接進(jìn)行無頭瀏覽器渲染網(wǎng)頁。

案例：前程無憂網(wǎng)

隨便打開一個(gè)前程無憂工作界面，直接用requests.get對其進(jìn)行訪問，可以得到一頁的20個(gè)左右數(shù)據(jù)，顯然得到的不全，而用webdriver訪問同樣的頁面可以得到50個(gè)完整的工作信息。

六.ajax異步傳輸

訪問網(wǎng)頁的時(shí)候服務(wù)器將網(wǎng)頁框架返回給客戶端，在與客戶端交互的過程中通過異步ajax技術(shù)傳輸數(shù)據(jù)包到客戶端，呈現(xiàn)在網(wǎng)頁上，爬蟲直接抓取的話信息為空

解決辦法：通過fiddler或是wireshark抓包分析ajax請求的界面，然后自己通過規(guī)律仿造服務(wù)器構(gòu)造一個(gè)請求訪問服務(wù)器得到返回的真實(shí)數(shù)據(jù)包。

案例：拉勾網(wǎng)??

打開拉勾網(wǎng)的某一個(gè)工作招聘頁，可以看到許許多多的招聘信息數(shù)據(jù)，點(diǎn)擊下一頁后發(fā)現(xiàn)頁面框架不變化，url地址不變，而其中的每個(gè)招聘數(shù)據(jù)發(fā)生了變化，通過chrome開發(fā)者工具抓包找到了一個(gè)叫請求了一個(gè)叫做http://www.lagou.com/zhaopin/Java/2/?filterOption=3的網(wǎng)頁，打開改網(wǎng)頁發(fā)現(xiàn)為第二頁真正的數(shù)據(jù)源，通過仿造請求可以抓取每一頁的數(shù)據(jù)。

七.加速樂

有些網(wǎng)站使用了加速樂的服務(wù)，在訪問之前先判斷客戶端的cookie正不正確。如果不正確，返回521狀態(tài)碼，set-cookie并且返回一段js代碼通過瀏覽器執(zhí)行后又可以生成一個(gè)cookie，只有這兩個(gè)cookie一起發(fā)送給服務(wù)器，才會返回正確的網(wǎng)頁內(nèi)容。

解決辦法：將瀏覽器返回的js代碼放在一個(gè)字符串中，然后利用nodejs對這段代碼進(jìn)行反壓縮，然后對局部的信息進(jìn)行解密，得到關(guān)鍵信息放入下一次訪問請求的頭部中。

案例：加速樂

這樣的一個(gè)交互過程僅僅用python的requests庫是解決不了的，經(jīng)過查閱資料，有兩種解決辦法：

1.將返回的set-cookie獲取到之后再通過腳本執(zhí)行返回的eval加密的js代碼，將代碼中生成的cookie與之前set-cookie聯(lián)合發(fā)送給服務(wù)器就可以返回正確的內(nèi)容，即狀態(tài)碼從521變成了200。

2.將返回的set-cookie獲取到之后再通過腳本執(zhí)行返回的eval加密的js代碼，將代碼中生成的cookie與之前set-cookie聯(lián)合發(fā)送給服務(wù)器就可以返回正確的內(nèi)容，即狀態(tài)碼從521變成了200。

大家一起學(xué)習(xí)，一起進(jìn)步。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

Scrapy爬蟲教程二淺析最煩人的反爬蟲手段

Scrapy爬蟲教程二淺析最煩人的反爬蟲手段

Scrapy爬蟲教程一 Windows下安裝Scrapy的方式和問題總結(jié)

Scrapy爬蟲教程二淺析最煩人的反爬蟲手段

Scrapy爬蟲教程三詳細(xì)的Python Scrapy模擬登錄知乎

Scrapy爬蟲教程四 Scrapy+Selenium有瀏覽器界面模擬登錄知乎

Scrapy爬蟲教程五爬蟲部署

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

Scrapy爬蟲教程二 淺析最煩人的反爬蟲手段

Scrapy爬蟲教程一 Windows下安裝Scrapy的方式和問題總結(jié)

Scrapy爬蟲教程二 淺析最煩人的反爬蟲手段

Scrapy爬蟲教程三 詳細(xì)的Python Scrapy模擬登錄知乎

Scrapy爬蟲教程四 Scrapy+Selenium有瀏覽器界面模擬登錄知乎

Scrapy爬蟲教程五 爬蟲部署

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

Scrapy爬蟲教程二淺析最煩人的反爬蟲手段

Scrapy爬蟲教程二淺析最煩人的反爬蟲手段

Scrapy爬蟲教程三詳細(xì)的Python Scrapy模擬登錄知乎

Scrapy爬蟲教程五爬蟲部署