Python爬蟲實戰(zhàn)之爬取網(wǎng)站全部圖片(二)

python

專欄收錄該內(nèi)容

12 篇文章5 訂閱

訂閱專欄

Python爬蟲實戰(zhàn)之爬取網(wǎng)站全部圖片(二)

Python爬蟲實戰(zhàn)之通過ajax獲得圖片地址實現(xiàn)全站圖片下載(三)

一.獲得圖片地址 和 圖片名稱

1.進入網(wǎng)址之后

按F12 ?打開開發(fā)人員工具點擊elemnts

?2.點擊下圖的小箭頭 選擇主圖中的任意一個圖片 ? 那我們這里點擊第一個 圖片

3.顯示控制臺 為了驗證xpath是否正確

? ? 4.通過xpath獲得a的href ?和 title.

(請放大看)我們看到 他提示的是有10個 我們回到網(wǎng)站中看一下 ?在主頁上數(shù)一下 他確實是10個 也就是說 我們獲得的href 和title是沒有任何問題的 那么留著為我們后面使用.

? ? 5.我們還需要訪問這個鏈接的請求頭的信息 以備后面操作的時候來使用

這里可以看到 沒有什么特別的請求頭

6.獲得每套圖里的 所有圖片.這也是我們的目的所在 不然前面那么多工序不是浪費嗎。

可以看到 我們獲得了11個鏈接地址 ? 不要被源碼中的文字所迷惑

7.獲得相應(yīng)的請求頭 ?

可以發(fā)現(xiàn) 需要注意的只有一個字段Referer 這里的地址就是我們訪問這個頁面進來的時候的那個地址 只要把那個地址給上就行了

8.對于404的處理 如果出現(xiàn)了404那就只有重新請求了

二.編寫python代碼實現(xiàn)爬取.

1.需要用到的庫有:

Requests ? lxml

2.IDE : pycharm

3.python 版本: 2.7.15

下載地址:歐億博客 | 一個專注于深度研究的博客

————————————————

版權(quán)聲明:本文為CSDN博主「HarlanHong」的原創(chuàng)文章,遵循CC 4.0 BY-SA版權(quán)協(xié)議,轉(zhuǎn)載請附上原文出處鏈接及本聲明。

原文鏈接:https://blog.csdn.net/qq_33958297/article/details/82314402

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容