頭大的一次爬蟲

上周四接到了一個新單,需求是爬取富途牛牛上面某些股票下面的新聞.

聽起來挺簡單的一個需求,最多就是做一個圖形化界面客戶端會廢點(diǎn)時間,其余的寫一套爬蟲直接搞定,而且客戶也不著急,前兩天也沒有著手開始研究.

昨天開始抓包,先是看了富途牛牛的網(wǎng)頁版,如果網(wǎng)頁版本有想要的資料的話,就非常簡單了,因?yàn)閔ttp的數(shù)據(jù)包都暴露在外面了,但是當(dāng)我看的時候發(fā)現(xiàn)!
image.png

被限制了.

既然網(wǎng)頁看不到了,那就看看app吧,app沒有讓我失望,
image.png

里面的新聞是可以通過下拉顯示更多的,這不就是一個ajax動態(tài)請求嘛,只要把json數(shù)據(jù)的接口拿到就ok了,這種事情也做過不少了.

于是開了fiddler抓包工具,給手機(jī)開了代理,開始抓包吧,但是無論怎么下滑刷新,任何有價值的包都沒有抓到.

這是為什么?

或許是給攔截了?持著懷疑的態(tài)度,我下了一個安卓模擬器,換了一個工具,Wireshark,工具很強(qiáng)大,不僅可以抓到http的包,udptcp的包也可以抓到,我做了篩選只看http的包,然后操作安卓模擬器上的app,發(fā)現(xiàn),依舊是那些沒有用的包.

這應(yīng)該不是我這邊的問題了,百度了很多,終于找到了一個合理的答案,那就是他這個軟件沒有走h(yuǎn)ttp協(xié)議,所以我的fiddler根本就抓不到,基于網(wǎng)絡(luò)知識,http是基于tcp協(xié)議實(shí)現(xiàn)的,或許他走的是tcp,但是我能抓到的tcp太多了,分辨不出來哪個是我需要的,而且,不像http協(xié)議那樣有完整的鏈接地址,所以暫時先不考慮了.

那就只剩下pc客戶端了,這是我沒有接觸過的領(lǐng)域,百度了一下午,因?yàn)閜c客戶端是不支持使用代理的,無法直接獲取,需要用Proxifier轉(zhuǎn)到fiddler,但是鼓搗了一下午,代理總是連接失敗,明天再試試吧~

編程真的是深似海呀~~~

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容