tenliu的爬蟲-抓包分析

利用瀏覽器抓包,是爬蟲中的很實(shí)用的技能。在爬蟲編程之前,我們要對(duì)抓取的目標(biāo)頁(yè)面有所了解,比如瀏覽器的這個(gè)請(qǐng)求這個(gè)頁(yè)面中間都經(jīng)歷了什么,數(shù)據(jù)是怎么發(fā)送和返回的。

抓包的作用

我把抓包分析的作用簡(jiǎn)單列一下:

  • 分析請(qǐng)求的headers等等,可以加載到你的爬蟲中,偽裝成瀏覽器。往往可以躲過(guò)簡(jiǎn)單的反扒策略
  • 登錄狀態(tài)獲取,如果我們?cè)跒g覽器中登錄,抓包拿到cookies,加到我們的爬蟲中,往往就可以繞過(guò)登錄這道坎,爬蟲直接登堂入室,抓取更有價(jià)值的數(shù)據(jù)
  • post請(qǐng)求,例如頁(yè)面中通過(guò)post提交的表單。我們就可以抓包看到請(qǐng)求是每個(gè)參數(shù)的key和value,key是什么、value有沒有編碼等等
  • 抓接口,抓包往往可以看到服務(wù)器返回到瀏覽器的的響應(yīng)數(shù)據(jù)是什么,比如很多頁(yè)面中的數(shù)據(jù),其實(shí)是中間經(jīng)過(guò)一次接口的,接口中往往是json數(shù)據(jù)。這樣爬蟲就可以直接抓接口,而不是原網(wǎng)頁(yè)。json數(shù)據(jù)中比頁(yè)面解析提取數(shù)據(jù)來(lái)的遍歷
  • 抓包分析,有時(shí)可以繞過(guò)有些網(wǎng)站的反扒限制,甚至網(wǎng)站的驗(yàn)證碼(極少其概況下啊)
  • ···

如何抓包

案例一

瀏覽器例如Chrome、Firfox都支持抓包,我們以Chrome瀏覽器為例吧,要有一個(gè)抓包的頁(yè)面啊
http://www.tenliu.top/index.php/httpclient/?query=%E4%B8%AD%E5%9B%BD%202018%20%E8%8A%82%E5%81%87%E6%97%A5
瀏覽器中輸入這個(gè)鏈接,頁(yè)面空白處,右鍵“檢查”,點(diǎn)擊“network”,再次刷新頁(yè)面,看到如下:

爬蟲抓包分析

看似訪問(wèn)一個(gè)頁(yè)面,其實(shí)中間進(jìn)過(guò)怎么多請(qǐng)求。
其中左側(cè),每一個(gè)請(qǐng)求的Headers標(biāo)簽中內(nèi)容如下四個(gè)部分:

  • General
  • Response Header
  • Request Headers
  • Query
    其中重點(diǎn)在請(qǐng)求的headers,將里面的數(shù)據(jù)設(shè)置到你的爬蟲,就可以偽裝爬蟲,通常設(shè)置Cookie、Host、User-Agent、Referer等。

案例二

post請(qǐng)求的抓包。
還是這個(gè)頁(yè)面:

http://www.tenliu.top/index.php/httpclient/

我們看到有一個(gè)表單,可以post數(shù)據(jù)。在兩個(gè)輸入框填入內(nèi)容點(diǎn)擊提交吧,抓包看看,都是什么參數(shù)接受了你填寫的內(nèi)容。

案例三

抓包,獲取接口。
這個(gè)頁(yè)面
http://www.2345.com/corp.htm?innertab
想要獲取這個(gè)頁(yè)面上的各個(gè)行業(yè)和相應(yīng)網(wǎng)址。抓取這個(gè)鏈接,提取頁(yè)面元素。不論是用正則、xpath、beautifulsoup等等。有更好的辦法嗎?
抓包看看

爬蟲抓包分析2

通過(guò)抓包,我們得到接口:
http://www.2345.com/js/nvaurllist1202.js?v=8.13.1
抓取這個(gè)鏈接進(jìn)行數(shù)據(jù)提取,不是比原頁(yè)面簡(jiǎn)單些嗎。

更多內(nèi)容請(qǐng)?jiān)L問(wèn)我的個(gè)人博客www.tenliu.top

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容