requests使用get/post抓取數(shù)據(jù)踩過的坑

不知道初入門python爬蟲的朋友是否有過跟我一樣的經(jīng)歷,書是早幾年的,書上的示例代碼可能已經(jīng)不適用了,需要做一些調(diào)整,才能將程序跑通。本人在學(xué)習(xí)python前三章的內(nèi)容,就沒少碰到這樣的尷尬事,為此耗費(fèi)了較多精力搜索、查閱相關(guān)資料。

前三章主要講如何通過python的requests庫使用get/post方法爬取網(wǎng)頁或者API數(shù)據(jù)。本文說說我在這方面踩的坑。

1)安裝requests庫

書上的建議在pycharm中安裝requests庫,即打卡pycharm,單擊“file”(文件菜單),選擇“default settings”(默認(rèn)設(shè)置)命令,如下圖

圖1

選擇“project interpreter”(項(xiàng)目編輯器)命令,確認(rèn)當(dāng)前選擇的編譯器,然后單擊右上角的加號,如下圖

圖2

在搜索框輸入:requests(注意,一定要輸入完整,不然容易出錯),勾選“Install to user's site packages directory”(安裝到用戶的站點(diǎn)庫目錄)選項(xiàng),如果不勾選該選項(xiàng)則會安裝在臨時目錄中,然后單擊左下角的“Install Package”(安裝庫)按鈕,如下圖

圖3

到這一步就悲劇了,跟書上展示的完全不一樣,此路不通。而書中的下一步應(yīng)該如下圖一般

截取自其它網(wǎng)頁

本人從網(wǎng)上查閱了很多資料,至今都無法修復(fù)圖3中“nothing to show”的情況,如果你有相應(yīng)的解決辦法,歡迎一起討論哦。

2)get/post方法調(diào)用

I、get方法獲取數(shù)據(jù)

書上只簡單的給了一個示例,示例如下

# 使用GET方式抓取數(shù)據(jù)

import requests# 導(dǎo)入requests包

url ='http://www.cntour.cn/'

strhtml = requests.get(url)# GET方式獲取網(wǎng)頁數(shù)據(jù)

print(strhtml.text)

注:requests.get(url)只適用于不需要表頭參數(shù)的信息獲取,當(dāng)API接口對表頭數(shù)據(jù)有要求時,該方法已不使用,如下圖API接口

阿里云市場上的天氣信息API接口
接口的python示例代碼

python3已經(jīng)刪除了urllib2的調(diào)用,若用requests調(diào)用接口,該代碼要更改為

#獲取城市列表

import requests#導(dǎo)入requests包

import json#導(dǎo)入json包

host ='http://weather-ali.juheapi.com'

path ='/weather/citys'

method ='GET'

appcode ='65070e518c474ff68837606434083cfa'

querys ='dtype=json'

bodys = {}

url = host + path +'?' + querys

headers = {'Authorization':'APPCODE ' + appcode}? ? ? ?#設(shè)置http包頭

response = requests.get(url,headers=headers)? ? ? ? #調(diào)用http接口

# print(response)

data = response.text#獲取response文本

# print(data)

data = json.loads(data)? ? ? ?#將str字符串轉(zhuǎn)換成dict字典

del data['resultcode']? ? ? ? ? #通過del刪除字典的前兩個元素

del data['reason']

print(data)

for item in data['result']:

? ? ?print(type(item))

? ? print(item)

注:API接口調(diào)用時,必傳表頭信息,表頭信息的設(shè)置和接口的調(diào)用如下兩行代碼所示

headers = {'Authorization':'APPCODE ' + appcode}? ? ? ?#設(shè)置http包頭

response = requests.get(url,headers=headers)? ? ? ? #調(diào)用http接口

II、post方法爬取百度翻譯上的信息

輸入網(wǎng)址“https://fanyi.baidu.com/?aldtype=16047#zh/en/”,按F12進(jìn)入谷歌開發(fā)者模式,在待翻譯框中輸入“我愛中國”,顯示如下

圖4
圖5

post方法獲取網(wǎng)站信息,信息的爬取是動態(tài)的,代碼中需要包含Request URL、Request Headers、Form Data的信息,三者缺一不可。代碼如下:

# 使用POST抓取數(shù)據(jù)

import requests

import json

def get_translate_date(word =None):

? ? ? url ='https://fanyi.baidu.com/v2transapi'

? ? ? chinese = word

? ? ? form_data =? ? ? ? ? ? ? ? ? ? ? ? {'from':'zh','to':'en','query':chinese,'transtype':'realtime','simple_means_flag':'3','sign':'731618.1034963','token':'595cdd9cc5535f5221b042f98a8dff9e'}

? ? ? request_headers = {'Accept':'*/*','Accept-Encoding':'gzip, deflate, br','Accept-Language':'zh-CN,zh;q=0.9','Connection':'keep-alive', \

'Content-Length':'154','Content-Type':'application/x-www-form-urlencoded; charset=UTF-8','Cookie':'REALTIME_TRANS_SWITCH=1; FANYI_WORD_SWITCH=1; HISTORY_SWITCH=1; SOUND_SPD_SWITCH=1; SOUND_PREFER_SWITCH=1; BIDUPSID=44BBBD72ED6CC7036FE60E4B97D24B27; PSTM=1494408740; hasSeenTips=1; MCITY=-179%3A; BDUSS=9NU1RzQ3pMc2p0Y1FrNlhCR3N5dDZ6ekl0cXdZUHJKQ3VUN1dtRjgydHRZRUJjQUFBQUFBJCQAAAAAAAAAAAEAAADNlc0beWV6aTA4MDYxNzE3AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAG3TGFxt0xhcQW; BAIDUID=5AACF8785E214AF7E5AD9394BE0D9F82:FG=1; BDORZ=B490B5EBF6F3CD402E515D22BCDA1598; H_PS_PSSID=1446_21125_28607_28584_26350_28603_20718; BDRCVFR[feWj1Vr5u3D]=I67x6TjHwwYf0; delPer=0; PSINO=5; locale=zh; Hm_lvt_64ecd82404c51e03dc91cb9e8c025574=1552198524; Hm_lpvt_64ecd82404c51e03dc91cb9e8c025574=1552198524; to_lang_often=%5B%7B%22value%22%3A%22zh%22%2C%22text%22%3A%22%u4E2D%u6587%22%7D%2C%7B%22value%22%3A%22en%22%2C%22text%22%3A%22%u82F1%u8BED%22%7D%5D; from_lang_often=%5B%7B%22value%22%3A%22en%22%2C%22text%22%3A%22%u82F1%u8BED%22%7D%2C%7B%22value%22%3A%22zh%22%2C%22text%22%3A%22%u4E2D%u6587%22%7D%5D', \

'Host':'fanyi.baidu.com','Origin':'https://fanyi.baidu.com','Referer':'https://fanyi.baidu.com/?aldtype=16047','User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Mobile Safari/537.36', \

'X-Requested-With':'XMLHttpRequest'}

# 請求表單數(shù)據(jù)

? ? response = requests.post(url,data = form_data,headers = request_headers)

# 將JSON格式字符串轉(zhuǎn)字典

? ? content = json.loads(response.text)

# 打印翻譯后的數(shù)據(jù)

? ? print(content['trans_result']['data'][0]['dst'])

if __name__ =='__main__':

? ? get_translate_date('我愛中國')

注:輸入的中文不同,F(xiàn)orm Data中的sign和token會不同,本人暫未解決該問題,期待與大家一起討論批量出入中文時,該如何動態(tài)獲取Form Data中的sign和token

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容