爬取網(wǎng)站下載大量圖片

遇到的問題以及解決

  1. 下載方式
    通過導入urllib.request
    利用該函數(shù)urllib.request.urlretrieve()

  2. 網(wǎng)站403 封IP 反爬取
    利用header 偽裝
    添加網(wǎng)站Host
    通過sleep()函數(shù) 增加爬取之間間隔

  3. 遇到圖片具有非法字符路徑時
    通過 replace函數(shù) 替換

  4. clear()清空List

  5. 亂碼問題

import requests
url = 'http://search.51job.com/jobsearch/search_result.php?fromJs=1&jobarea=090200%2C00&funtype=0000&industrytype=00&keyword=python&keywordtype=2&lang=c&stype=2&postchannel=0000&fromType=1&confirmdate=9'
r = requests.get(url)
r.encoding = 'GBK'
print r.text
最后編輯于
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容