import urllib2
response = urllib2.urlopen("http://taobao.com")
print response.read()
綜上:三行代碼就能簡單地將淘寶網頁爬取出來,這是根據url路由爬取的,比較粗暴
分析:
1.此代碼需在python2環(huán)境下編寫
2.urllib2是python2內置的一個系統(tǒng)工具庫
urllib2功能 (5大功能)
1.獲取web頁面
2.在遠程服務器上驗證
3.額外數據提交,像一些:表單提交(GET和POST)
4.異常處理
5.非http協(xié)議通信(像ftp協(xié)議通信等等)
urllib2中urlopen方法的分析:
urlopen() 對象主要用于打開 括號里指定的網站 所對應的內容
urlopen中有三個參數:
1.url :指路徑,必須填充的內容* 列如:http://www.taobao.com
2.data:指訪問url時要傳送的數據,默認為空
3.timeout:設置超時時間,一般為默認
對于response的處理
1.直接打印response
print response
#結果如下
#<addinfourl at 84866632L whose fp = <socket._fileobject object at 0x00000000050831B0>>
若直接打印,結果是url路由,是路徑內容
所以需要借助 response 里的 read()方法 ,利用該方法,返回的是網頁內容,所以是
print response.read()
*稍微小心地爬取數據 (request的分析)
request請求
import urllib2
request = urllib2.Request("http://www.taobao.com")
response = urllib2.urlopen(request)
print response.read()
綜上:該代碼是第一個代碼的擴充,由只有響應(response),增加進去一個請求(request)
在代碼的第二行,是一個請求對象,提出請求,響應請求,
**request對象是利用內存來存放我們客戶對服務器端提出的請求的一段信息的相關內容