requests庫(kù)

0.更換pip源到國(guó)內(nèi)鏡像

官網(wǎng)下載資源太慢了,經(jīng)常出現(xiàn)socket.timeout

永久更換

windows下,直接在user目錄中創(chuàng)建一個(gè)pip目錄,如:C:\Users\xx\pip,然后新建文件pip.ini,在pip.ini文件中輸入以下內(nèi)容(以清華鏡像為例):

[global]

index-url = https://pypi.tuna.tsinghua.edu.cn/simple

[install]

trusted-host = https://pypi.tuna.tsinghua.edu.cn

(創(chuàng)建ini文件可以用sublime text3)

將pip源換為國(guó)內(nèi)鏡像文件具體方法

1.requests庫(kù)安裝

windows+R

cmd

pip install requests

2.requests庫(kù)方法

requests庫(kù)的7種方法

3.爬取網(wǎng)絡(luò)的通用代碼框架

爬取網(wǎng)絡(luò)的通用代碼框架

主要驗(yàn)證爬取有沒(méi)有成功,狀態(tài)碼200成功,404失敗。

r.encoding根據(jù)header中的charset猜測(cè)

r.apparent_encoding根據(jù)內(nèi)容分析

ISO-8859-1

utf-8

requests.ConnectionError連接遠(yuǎn)程服務(wù)器超時(shí)異常

requests.Timeout請(qǐng)求URL超時(shí),產(chǎn)生超時(shí)異常

r.raise_for_status()

4.HTTP協(xié)議

URL格式 http://host[:port][path]

host:合法的Internet主機(jī)域名或IP地址

port:端口號(hào),缺省端口為80

path:請(qǐng)求資源的路徑

post,put和patch的區(qū)別

POST:資源后附加新數(shù)據(jù)

PUT:覆蓋

PATCH:替換

區(qū)分requests.head和r.headers

5.robots協(xié)議

Robots Exclusion Standard網(wǎng)絡(luò)爬蟲(chóng)排除標(biāo)準(zhǔn)

根目錄網(wǎng)頁(yè)后面加/robots.txt

*表示所有

/表示根目錄

類(lèi)人類(lèi)行為可不參考robots協(xié)議


6.實(shí)例

r.encoding為503,可能為user-agent不對(duì),可通過(guò)鍵字對(duì)進(jìn)行替換

kv={'user-agent':‘Mozilla/5.0’}

r.requests.get(url,headers=kv)

百度關(guān)鍵詞檢索

kv={‘wd’:“Python”}

r=r.requests.get("http://www.baidu.com/s",params=kv)

字典類(lèi)型dictionary

格式:d={"中國(guó)":“北京”,“美國(guó):“華盛頓””}

方法:

del d[k]

k in d

d.keys()

d.values()

d.items()

其中,k為key,括號(hào)不可省略

d.get(k,<default>)

d.pop(k,<default>)

7.爬取表格

中文對(duì)齊問(wèn)題(中英文混合輸出)

chr(12288)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容