Python爬圖片--爬蟲初體驗

1. 環(huán)境準備

1.1 安裝python
1.2 安裝pip: easy_install pip
1.3 安裝requests庫:python -m pip install requests
1.4 eclipse安裝pydev插件

2. 過程

主要用到urllib中的request模塊,請求目標地址,并將獲取到的內(nèi)容解碼成HTML,然后通過正則匹配獲取圖片的地址,最后通過urlretrieve方法將獲取到的圖片下載到本地

3. 代碼部分

#!/usr/local/bin/python3.6
# encoding: utf-8

from urllib import request
import re

def main(): 
# 獲取網(wǎng)頁并解碼
    response = request.urlopen("https://www.douban.com/photos/album/1652957514/");
    html = response.read()
    html = html.decode("utf-8")
# 正則匹配圖片,獲取圖片地址的list,正則中()是最終需要匹配返回的內(nèi)容
    reg = '<img\swidth="\d+"\ssrc="(https://img3.doubanio.com[/\w\.]*)'
    imgre = re.compile(reg)
    imgs = re.findall(imgre, html)
# 將圖片下載到本地,由于獲取到的某些地址無法訪問會有報錯,因此此處需要catch一下異常
    x=0
    for img in imgs:
#         print(img)   
    try:
        request.urlretrieve(img, 'C:\work\Python\spider\%s.gif' % x)
#             request.urlopen(img)
        x += 1
    except Exception as e:
        print(e)
    

if __name__ == '__main__':
     main()

參考

以上內(nèi)容只是個人練習(xí)記錄,參考以下博客,博客內(nèi)容更加詳細
https://blog.csdn.net/cloudox_/article/details/53465923
https://blog.csdn.net/c406495762/article/details/58716886

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容