python
專欄收錄該內(nèi)容
12 篇文章5 訂閱
訂閱專欄
Python爬蟲實戰(zhàn)之爬取網(wǎng)站全部圖片(二)
Python爬蟲實戰(zhàn)之通過ajax獲得圖片地址實現(xiàn)全站圖片下載(三)
一.獲得圖片地址 和 圖片名稱
1.進入網(wǎng)址之后
按F12 ?打開開發(fā)人員工具點擊elemnts
?2.點擊下圖的小箭頭 選擇主圖中的任意一個圖片 ? 那我們這里點擊第一個 圖片
3.顯示控制臺 為了驗證xpath是否正確
? ? 4.通過xpath獲得a的href ?和 title.
(請放大看)我們看到 他提示的是有10個 我們回到網(wǎng)站中看一下 ?在主頁上數(shù)一下 他確實是10個 也就是說 我們獲得的href 和title是沒有任何問題的 那么留著為我們后面使用.
? ? 5.我們還需要訪問這個鏈接的請求頭的信息 以備后面操作的時候來使用
這里可以看到 沒有什么特別的請求頭
6.獲得每套圖里的 所有圖片.這也是我們的目的所在 不然前面那么多工序不是浪費嗎。
可以看到 我們獲得了11個鏈接地址 ? 不要被源碼中的文字所迷惑
7.獲得相應(yīng)的請求頭 ?
可以發(fā)現(xiàn) 需要注意的只有一個字段Referer 這里的地址就是我們訪問這個頁面進來的時候的那個地址 只要把那個地址給上就行了
8.對于404的處理 如果出現(xiàn)了404那就只有重新請求了
二.編寫python代碼實現(xiàn)爬取.
1.需要用到的庫有:
Requests ? lxml
2.IDE : pycharm
3.python 版本: 2.7.15
下載地址:歐億博客 | 一個專注于深度研究的博客
————————————————
版權(quán)聲明:本文為CSDN博主「HarlanHong」的原創(chuàng)文章,遵循CC 4.0 BY-SA版權(quán)協(xié)議,轉(zhuǎn)載請附上原文出處鏈接及本聲明。
原文鏈接:https://blog.csdn.net/qq_33958297/article/details/82314402