lxml.etree之tbody坑

學(xué)習(xí)lxml和xpath

以上資料借鑒而已


今天寫個簡單的靜態(tài)的爬蟲爬取IP ip網(wǎng)址

以下我們觀察一下網(wǎng)頁HTML

1504363816(1).png
//*[@id="gallery"]/div[2]/div[1]/div[2]/div[2]/table/tbody/tr[1]/td[2]

這是我用瀏覽器自帶工具提取的xpath大家應(yīng)該發(fā)現(xiàn)了其中帶有tobody,做過爬蟲的大家都知道,一般tobody是瀏覽器自動產(chǎn)生的,一般情況要去掉,為此我耽誤三個小時調(diào)試,一直匹配不到數(shù)據(jù),后來我打印了request反應(yīng)的網(wǎng)頁源碼,里面就是有tobody的


爬取的截圖.png

尼瑪

請別攔著我,我要砍死這個網(wǎng)頁的程序猿!?。。。銈冊趺床粩r我…………)
后來改了一下匹配的格式就爽了

代碼.png

代碼的路,坑坑不絕,坑坑不休------------
好了,以上就寫這么多了,當(dāng)作筆記。
對了,最后放個養(yǎng)眼的圖片

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容