Scrapy爬蟲教程二 淺析最煩人的反爬蟲手段

Scrapy爬蟲教程一 Windows下安裝Scrapy的方式和問題總結

Scrapy爬蟲教程二 淺析最煩人的反爬蟲手段

Scrapy爬蟲教程三 詳細的Python Scrapy模擬登錄知乎

Scrapy爬蟲教程四 Scrapy+Selenium有瀏覽器界面模擬登錄知乎

Scrapy爬蟲教程五 爬蟲部署

最近一直在弄爬蟲,也爬取了知名網(wǎng)站的一些數(shù)據(jù)(這里只是個人學習使用,不是商用?。?!),大家都知道,爬蟲和反爬蟲一直以來都是相愛相殺的,爬蟲程序員希望破解反爬蟲手段,反爬蟲程序員希望建立更加有效的反爬蟲方式與之抗衡。

由于在這階段進行的爬蟲學習中,經常中招,所以今天就簡單的總結一下反爬蟲的方式。

一.BAN IP

網(wǎng)頁的運維人員通過分析日志發(fā)現(xiàn)最近某一個IP訪問量特別特別大,某一段時間內訪問了無數(shù)次的網(wǎng)頁,則運維人員判斷此種訪問行為并非正常人的行為,于是直接在服務器上封殺了此人IP(我剛爬取的網(wǎng)站的維護人員可能對我實施了這種手段...)。

解決方法:此種方法極其容易誤傷其他正常用戶,因為某一片區(qū)域的其他用戶可能有著相同的IP,導致服務器少了許多正常用戶的訪問,所以一般運維人員不會通過此種方法來限制爬蟲。不過面對許多大量的訪問,服務器還是會偶爾把該IP放入黑名單,過一段時間再將其放出來,但我們可以通過分布式爬蟲以及購買代理IP也能很好的解決,只不過爬蟲的成本提高了。

二.BAN USERAGENT

很多的爬蟲請求頭就是默認的一些很明顯的爬蟲頭python-requests/2.18.4,諸如此類,當運維人員發(fā)現(xiàn)攜帶有這類headers的數(shù)據(jù)包,直接拒絕訪問,返回403錯誤

解決方法:直接r=requests.get(url,headers={'User-Agent':'XXXspider'})把爬蟲請求headers偽裝成其他爬蟲或者其他瀏覽器頭就行了。

案例:雪球網(wǎng)

三.BAN COOKIES

服務器對每一個訪問網(wǎng)頁的人都set-cookie,給其一個cookies,當該cookies訪問超過某一個閥值時就BAN掉該COOKIE,過一段時間再放出來,當然一般爬蟲都是不帶COOKIE進行訪問的,可是網(wǎng)頁上有一部分內容如新浪微博是需要用戶登錄才能查看更多內容(我已經中招了)。

解決辦法:控制訪問速度,或者某些需要登錄的如新浪微博,在某寶上買多個賬號,生成多個cookies,在每一次訪問時帶上cookies

案例:螞蜂窩

四.驗證碼驗證

當某一用戶訪問次數(shù)過多后,就自動讓請求跳轉到一個驗證碼頁面,只有在輸入正確的驗證碼之后才能繼續(xù)訪問網(wǎng)站

解決辦法:python可以通過一些第三方庫如(pytesser,PIL)來對驗證碼進行處理,識別出正確的驗證碼,復雜的驗證碼可以通過機器學習讓爬蟲自動識別復雜驗證碼,讓程序自動識別驗證碼并自動輸入驗證碼繼續(xù)抓取

案例:51Job? 安全客

五.javascript渲染

網(wǎng)頁開發(fā)者將重要信息放在網(wǎng)頁中但不寫入html標簽中,而瀏覽器會自動渲染<script>標簽的js代碼將信息展現(xiàn)在瀏覽器當中,而爬蟲是不具備執(zhí)行js代碼的能力,所以無法將js事件產生的信息讀取出來

解決辦法:通過分析提取script中的js代碼來通過正則匹配提取信息內容或通過webdriver+phantomjs直接進行無頭瀏覽器渲染網(wǎng)頁。

案例:前程無憂網(wǎng)

隨便打開一個前程無憂工作界面,直接用requests.get對其進行訪問,可以得到一頁的20個左右數(shù)據(jù),顯然得到的不全,而用webdriver訪問同樣的頁面可以得到50個完整的工作信息。

六.ajax異步傳輸

訪問網(wǎng)頁的時候服務器將網(wǎng)頁框架返回給客戶端,在與客戶端交互的過程中通過異步ajax技術傳輸數(shù)據(jù)包到客戶端,呈現(xiàn)在網(wǎng)頁上,爬蟲直接抓取的話信息為空

解決辦法:通過fiddler或是wireshark抓包分析ajax請求的界面,然后自己通過規(guī)律仿造服務器構造一個請求訪問服務器得到返回的真實數(shù)據(jù)包。

案例:拉勾網(wǎng)??

打開拉勾網(wǎng)的某一個工作招聘頁,可以看到許許多多的招聘信息數(shù)據(jù),點擊下一頁后發(fā)現(xiàn)頁面框架不變化,url地址不變,而其中的每個招聘數(shù)據(jù)發(fā)生了變化,通過chrome開發(fā)者工具抓包找到了一個叫請求了一個叫做http://www.lagou.com/zhaopin/Java/2/?filterOption=3的網(wǎng)頁,打開改網(wǎng)頁發(fā)現(xiàn)為第二頁真正的數(shù)據(jù)源,通過仿造請求可以抓取每一頁的數(shù)據(jù)。

七.加速樂

有些網(wǎng)站使用了加速樂的服務,在訪問之前先判斷客戶端的cookie正不正確。如果不正確,返回521狀態(tài)碼,set-cookie并且返回一段js代碼通過瀏覽器執(zhí)行后又可以生成一個cookie,只有這兩個cookie一起發(fā)送給服務器,才會返回正確的網(wǎng)頁內容。

解決辦法 :將瀏覽器返回的js代碼放在一個字符串中,然后利用nodejs對這段代碼進行反壓縮,然后對局部的信息進行解密,得到關鍵信息放入下一次訪問請求的頭部中。

案例:加速樂

這樣的一個交互過程僅僅用python的requests庫是解決不了的,經過查閱資料,有兩種解決辦法:

1.將返回的set-cookie獲取到之后再通過腳本執(zhí)行返回的eval加密的js代碼,將代碼中生成的cookie與之前set-cookie聯(lián)合發(fā)送給服務器就可以返回正確的內容,即狀態(tài)碼從521變成了200。

2.將返回的set-cookie獲取到之后再通過腳本執(zhí)行返回的eval加密的js代碼,將代碼中生成的cookie與之前set-cookie聯(lián)合發(fā)送給服務器就可以返回正確的內容,即狀態(tài)碼從521變成了200。

大家一起學習,一起進步。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

  • Android 自定義View的各種姿勢1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 178,765評論 25 709
  • 爬蟲是一個比較容易上手的技術,也許花5分鐘看一篇文檔就能爬取單個網(wǎng)頁上的數(shù)據(jù)。但對于大規(guī)模爬蟲,完全就是另一回事,...
    真依然很拉風閱讀 9,823評論 5 114
  • 就在昨天,老媽和我微信視頻,說:聽說你買了一輛車。可不是嗎?我終于買了一輛自行車。哈哈哈哈,兩人不約大笑。 我買了...
    木木木俠閱讀 1,044評論 0 4
  • 金燦燦的玉米囤滿農家的庭院 紅通通的小棗晾曬在屋前院后 黑黝黝的豆兒裝好袋子聚在屋檐下 豐收!今年的秋,農家院落顯...
    豐盈倉廩閱讀 924評論 0 0
  • 寒風凜冽,寒氣襲人,枯草蕭疏,綠色盡失,今年的冬天如此蒼白凄涼且冷漠. M點燃一支煙,吞云吐霧起來,一圈圈的煙霧,...
    幽谷泉涌閱讀 967評論 0 1

友情鏈接更多精彩內容