上周四接到了一個新單,需求是爬取富途牛牛上面某些股票下面的新聞.
聽起來挺簡單的一個需求,最多就是做一個圖形化界面客戶端會廢點(diǎn)時間,其余的寫一套爬蟲直接搞定,而且客戶也不著急,前兩天也沒有著手開始研究.
昨天開始抓包,先是看了富途牛牛的網(wǎng)頁版,如果網(wǎng)頁版本有想要的資料的話,就非常簡單了,因?yàn)閔ttp的數(shù)據(jù)包都暴露在外面了,但是當(dāng)我看的時候發(fā)現(xiàn)!
image.png
被限制了.
既然網(wǎng)頁看不到了,那就看看app吧,app沒有讓我失望,
image.png
里面的新聞是可以通過下拉顯示更多的,這不就是一個ajax動態(tài)請求嘛,只要把json數(shù)據(jù)的接口拿到就ok了,這種事情也做過不少了.
于是開了fiddler抓包工具,給手機(jī)開了代理,開始抓包吧,但是無論怎么下滑刷新,任何有價值的包都沒有抓到.
這是為什么?
或許是給攔截了?持著懷疑的態(tài)度,我下了一個安卓模擬器,換了一個工具,Wireshark,工具很強(qiáng)大,不僅可以抓到http的包,udptcp的包也可以抓到,我做了篩選只看http的包,然后操作安卓模擬器上的app,發(fā)現(xiàn),依舊是那些沒有用的包.
這應(yīng)該不是我這邊的問題了,百度了很多,終于找到了一個合理的答案,那就是他這個軟件沒有走h(yuǎn)ttp協(xié)議,所以我的fiddler根本就抓不到,基于網(wǎng)絡(luò)知識,http是基于tcp協(xié)議實(shí)現(xiàn)的,或許他走的是tcp,但是我能抓到的tcp太多了,分辨不出來哪個是我需要的,而且,不像http協(xié)議那樣有完整的鏈接地址,所以暫時先不考慮了.
那就只剩下pc客戶端了,這是我沒有接觸過的領(lǐng)域,百度了一下午,因?yàn)閜c客戶端是不支持使用代理的,無法直接獲取,需要用Proxifier轉(zhuǎn)到fiddler,但是鼓搗了一下午,代理總是連接失敗,明天再試試吧~
編程真的是深似海呀~~~