0.更換pip源到國(guó)內(nèi)鏡像
官網(wǎng)下載資源太慢了,經(jīng)常出現(xiàn)socket.timeout
永久更換
windows下,直接在user目錄中創(chuàng)建一個(gè)pip目錄,如:C:\Users\xx\pip,然后新建文件pip.ini,在pip.ini文件中輸入以下內(nèi)容(以清華鏡像為例):
[global]
index-url = https://pypi.tuna.tsinghua.edu.cn/simple
[install]
trusted-host = https://pypi.tuna.tsinghua.edu.cn
(創(chuàng)建ini文件可以用sublime text3)
1.requests庫(kù)安裝
windows+R
cmd
pip install requests
2.requests庫(kù)方法

3.爬取網(wǎng)絡(luò)的通用代碼框架

主要驗(yàn)證爬取有沒(méi)有成功,狀態(tài)碼200成功,404失敗。
r.encoding根據(jù)header中的charset猜測(cè)
r.apparent_encoding根據(jù)內(nèi)容分析
ISO-8859-1
utf-8
requests.ConnectionError連接遠(yuǎn)程服務(wù)器超時(shí)異常
requests.Timeout請(qǐng)求URL超時(shí),產(chǎn)生超時(shí)異常
r.raise_for_status()
4.HTTP協(xié)議
URL格式 http://host[:port][path]
host:合法的Internet主機(jī)域名或IP地址
port:端口號(hào),缺省端口為80
path:請(qǐng)求資源的路徑
post,put和patch的區(qū)別
POST:資源后附加新數(shù)據(jù)
PUT:覆蓋
PATCH:替換
區(qū)分requests.head和r.headers
5.robots協(xié)議
Robots Exclusion Standard網(wǎng)絡(luò)爬蟲(chóng)排除標(biāo)準(zhǔn)
根目錄網(wǎng)頁(yè)后面加/robots.txt
*表示所有
/表示根目錄
類(lèi)人類(lèi)行為可不參考robots協(xié)議
6.實(shí)例
r.encoding為503,可能為user-agent不對(duì),可通過(guò)鍵字對(duì)進(jìn)行替換
kv={'user-agent':‘Mozilla/5.0’}
r.requests.get(url,headers=kv)
百度關(guān)鍵詞檢索
kv={‘wd’:“Python”}
r=r.requests.get("http://www.baidu.com/s",params=kv)
字典類(lèi)型dictionary
格式:d={"中國(guó)":“北京”,“美國(guó):“華盛頓””}
方法:
del d[k]
k in d
d.keys()
d.values()
d.items()
其中,k為key,括號(hào)不可省略
d.get(k,<default>)
d.pop(k,<default>)
7.爬取表格
中文對(duì)齊問(wèn)題(中英文混合輸出)
chr(12288)