遇到的問題以及解決
下載方式
通過導入urllib.request
利用該函數(shù)urllib.request.urlretrieve()網(wǎng)站403 封IP 反爬取
利用header 偽裝
添加網(wǎng)站Host
通過sleep()函數(shù) 增加爬取之間間隔遇到圖片具有非法字符路徑時
通過 replace函數(shù) 替換clear()清空List
亂碼問題
import requests
url = 'http://search.51job.com/jobsearch/search_result.php?fromJs=1&jobarea=090200%2C00&funtype=0000&industrytype=00&keyword=python&keywordtype=2&lang=c&stype=2&postchannel=0000&fromType=1&confirmdate=9'
r = requests.get(url)
r.encoding = 'GBK'
print r.text