337p亚洲色噜噜噜,日韩人妻丝袜美腿三级

歡迎大家關注公眾號【哈希大數(shù)據(jù)】
前言
首先簡單介紹Python網(wǎng)絡爬蟲用到哪些軟件以及其如何配置
如果只做爬蟲采用如下方式就OK啦：
1.建議大家使用Python3最新版本，可直接到官網(wǎng)下載安裝。
2.編譯工具建議大家用pycharm。Python和pycharm的詳細安裝步驟可參考：http://blog.csdn.net/qq_29883591/article/details/52664478（謝謝陌上行走的分享）
但如果后面還要做數(shù)據(jù)分析等更進一步的工作，建議大家直接配置anaconda和pycharm，anaconda已經(jīng)集成了Python和非常多科學計算需要的包，所以不用再安裝Python。安裝步驟可參考：
http://blog.csdn.net/qq_36790747/article/details/63257244（感謝Theigrams的分享）
在完成以上配置后，下面正式進入Requests庫的學習。

Requests庫的安裝與測試
Windows平臺：首先介紹一種簡單的安裝包的方法，打開cmd,執(zhí)行pip install requests 命令，如下圖:

image

此外如果第一種方法出現(xiàn)如timeout等問題，我們還可以采用手動方法安裝，步驟如下：
1、登陸該網(wǎng)站（https://www.lfd.uci.edu/~gohlke/pythonlibs/）下載你所需要的第三包的whl文件（用Ctrl+F命令搜索你想安裝的第三方包），建議存儲在Python安裝目錄中的\Lib\site-packages目錄下。
2、下載完成后打開命令行，輸入pip install 文件絕對路徑，然后點擊回車就OK啦

image

安裝完成后，新建一個存放爬蟲程序的文件夾，我們打開pycharm，如下圖所示打開剛才所建文件夾，然后如下圖所示，在文件夾中新建一個Python文件。

image

下面首先測試requests庫是否安裝成功。

在文件中輸入：

import requests
r = requests.get("http://www.baidu.com")
print(r.status_code)
print(r.text)

對于入門的小白來說，希望大家能夠養(yǎng)成自己手動碼代碼的習慣不要直接復制粘貼。
點擊下圖中的綠色按鈕進行執(zhí)行，得到結(jié)果如下圖所示，表明已經(jīng)可以正常獲取百度的首頁內(nèi)容。

image

Requests庫的主要方法介紹
對應于request的6種請求，Requests庫對應給出了6種方法。

20180517204931.png

以上請求的返回結(jié)果就是Response（響應），如r = requests.get("http://www.baidu.com")，r便是響應，它包含響應狀態(tài)：r.status_code,響應頭：r.headers和響應體：r.text或r.content或r.json()，分別代表響應內(nèi)容的字符串格式，二進制格式和json格式。此外它還包含r.encoding:從HTTP header中獲得的響應內(nèi)容編碼方式同時程序也是利用該格式對獲取到的內(nèi)容進行解碼的，r.apparent_encoding:從內(nèi)容中分析出的響應內(nèi)容編碼方式。
異常情況處理
在第一部分最后的測試中，我們可以看到返回的狀態(tài)碼是200，表明響應成功，但返回的內(nèi)容存在亂碼：

image.png

說明解析的解碼方式不對。對此我們可以采用r.encoding = r.apparent_encoding 來解決。

image

此外在爬取過程中會存在很多種異常情況，為了使我們的代碼更健壯，做好異常處理很重要。

Requests庫主要有以下異常：

該表引自嵩天老師Python網(wǎng)絡爬蟲與信息提取

我們還要注意，只有當狀態(tài)碼為200時，我們才可能獲取到想要的內(nèi)容，為什么是可能呢這里留個懸念咱們之后再講。所以我們開始需要對狀態(tài)碼做if判斷，但Python提供了raise_for_status()方法，使用該方法會自動判斷狀態(tài)碼是否等于200，不需要if判斷。
Python中做異常處理很方便，可使用try-except語句，以下為簡單的try...except...else的語法：
try:<語句>#運行別的代碼except<name1>：<語句>#如果在try部份引發(fā)了'name1'異常，執(zhí)行該部分語句except<name2>，<數(shù)據(jù)>:<語句>#如果引發(fā)了'name2'異常，獲得附加的數(shù)據(jù)，執(zhí)行該部分語句else:<語句>#如果沒有異常發(fā)生執(zhí)行該部分語句
如果不知道具體會出現(xiàn)什么異常時，可以不寫異常的名字，Python會自動幫你捕捉發(fā)生的異常，但這樣會比較慢，所以如果知道會出現(xiàn)的異常，請寫到程序中。
健壯的代碼實例

一個較為健壯的利用Requests庫獲取網(wǎng)頁內(nèi)容的代碼為：

import requests
url = "http://www.baidu.com"
try: 
r = requests.get(url) r.raise_for_status() 
r.encoding = r.apparent_encoding # 如果出現(xiàn)HTML出現(xiàn)亂碼再加入該語句 
print(r.text)
except Exception as e: print("爬取失敗，錯誤為：" + e)

小結(jié)

簡單介紹了Python、anaconda、pycharm的安裝與配置
介紹兩種Python安裝第三方包的方法，pip install <包名> 以及手動安裝
簡單介紹Requests庫中6種請求方法
如何處理爬取過程的異常情況
給出了一個簡單的抓取網(wǎng)頁的樣例程序

本次分享到此結(jié)束，下次分享將對正則表達式進行較為詳細的介紹。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

【小白學爬蟲連載（2）】--Requests庫介紹

【小白學爬蟲連載（2）】--Requests庫介紹

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

【小白學爬蟲連載（2）】--Requests庫介紹

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av