Python爬蟲(四)發(fā)送帶Headers的請(qǐng)求

如果你嘗試了我在Python爬蟲(二)Requests庫題中講述的response方式,發(fā)現(xiàn)有可能會(huì)獲取不到網(wǎng)頁源碼(登陸知乎一定可以獲取不到)。

不帶headers的requests.get.png
這是因?yàn)槭裁??之前的文章里講過,有很多網(wǎng)站為了防止爬蟲程序爬網(wǎng)站造成網(wǎng)站癱瘓,所以我們的程序在模擬瀏覽器訪問這些網(wǎng)站時(shí),需要攜帶一些headers頭部信息才能訪問,最常見的有User-Agent、referer、cookie參數(shù)。
寫一個(gè)簡(jiǎn)單的例子:

import requests
url = 'https://www.zhihu.com.'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.119 Safari/537.36'}
response = requests.get(url, headers=headers)
# response.encoding = 'utf-8'
print(response.text)
帶headers的requests.get.png

如果User-Agent還是不能夠獲取正確解碼后的字符串,我們還可以再headers字典中,加入referer、cookie參數(shù)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容