????今天在Bing搜索界面看到一張背景圖片很好看,遂決定下載下來(lái)保存。發(fā)現(xiàn)網(wǎng)頁(yè)屏蔽了右鍵"另存為"功能,看來(lái)只能通過(guò)其他方法下載了。
第一種方法:審查網(wǎng)絡(luò)元素 通過(guò)URL下載
方法:找到圖片超鏈接,再打開(kāi)新的網(wǎng)頁(yè)進(jìn)行下載。
- 打開(kāi) 開(kāi)發(fā)者模式 或者按 F12 ,可以看到網(wǎng)絡(luò)(NetWork)菜單;
- 刷新頁(yè)面,使用F5 或者 直接刷新;刷新后篩選圖片選項(xiàng),查看當(dāng)前頁(yè)面圖片:
選擇圖片類(lèi)型 - 找到圖片素材,右鍵選擇復(fù)制URL,并在新的網(wǎng)頁(yè)訪問(wèn)并下載:
找到圖片URL,新頁(yè)面下載即可
第二種方法:Python爬取網(wǎng)頁(yè)元素
之前一直想了解怎樣用Python爬取網(wǎng)頁(yè)內(nèi)容,使用什么方法,能爬取到什么信息以及怎樣處理這一堆代碼呢?
那么在這之前就需要了解,網(wǎng)頁(yè)分類(lèi)以及爬蟲(chóng)基本流程有哪些?
網(wǎng)頁(yè)分類(lèi)
網(wǎng)頁(yè)分為靜態(tài)網(wǎng)頁(yè)和動(dòng)態(tài)網(wǎng)頁(yè);
(1)靜態(tài)網(wǎng)頁(yè) 要獲取網(wǎng)頁(yè)數(shù)據(jù)只需要給服務(wù)器發(fā)送該網(wǎng)頁(yè)url地址就行;
(2)動(dòng)態(tài)網(wǎng)頁(yè) 因?yàn)槭?strong>存儲(chǔ)在后端的數(shù)據(jù)庫(kù)里。所以要獲取動(dòng)態(tài)網(wǎng)頁(yè)的網(wǎng)頁(yè)數(shù)據(jù),我們需要向服務(wù)器發(fā)送請(qǐng)求文件的url地址,而不是該網(wǎng)頁(yè)的url地址。
爬蟲(chóng)基本流程
1) 使用Requests庫(kù)獲取目標(biāo)鏈接URL的html文檔;
2) 使用瀏覽器開(kāi)發(fā)者模式,打開(kāi)網(wǎng)頁(yè)源代碼分析其中的元素節(jié)點(diǎn);
3) 通過(guò)Beautiful Soup庫(kù)或正則表達(dá)式獲得想要的數(shù)據(jù);
4) 將獲取的數(shù)據(jù)保存到本地或者數(shù)據(jù)庫(kù);
操作步驟
- 首先需要安裝Python環(huán)境,可參考廖雪峰Python教程;
- 在cmd-命令提示符中,輸入pip install requests安裝Requests庫(kù);
- 使用 Pycharm文本編輯器 或 記事本 輸入以下代碼:
#-*- coding:UTF-8 -*-
import requests #引入Requests庫(kù)
if __name__ == '__main__':
target = 'https://cn.bing.com/'
req = requests.get(url = target) # 獲取目標(biāo)URL
print(req.text) # 打印目標(biāo)任務(wù)text
- Run執(zhí)行以上代碼,獲得與剛剛第一種方法一樣的圖片鏈接:

至此,第一個(gè)網(wǎng)頁(yè)爬蟲(chóng)成功~
凡事不將就,深究原理及實(shí)現(xiàn)過(guò)程是件開(kāi)心的事,希望你能一直保持學(xué)習(xí)的熱情~沖鴨!小野s

