python中urllib2庫(kù)使用

1、urlopen函數(shù)
urllib2.urlopen(url[, data[, timeout[, cafile[, capath[, cadefault[, context]]]]])
注:
url表示目標(biāo)網(wǎng)頁(yè)地址,可以是字符串,也可以是請(qǐng)求對(duì)象Request
req= urllib2.Request(url, data,headers) response = urllib2.urlopen(req,timeout=3)
data表示post方式提交給目標(biāo)服務(wù)器的參數(shù)
data = urllib.urlencode(data)

import urllib,urllib2  
action_url="http://www.xxxxxx.com/post"#用于測(cè)試post的網(wǎng)址,返回提交的數(shù)據(jù)  
values={'name':"alice",'age':20}  
data=urllib.urlencode(values)#對(duì)表單數(shù)據(jù)編碼  
rqst=urllib2.Request(action_url,data)  
response=urllib2.urlopen(rqst)#模擬提交表單數(shù)據(jù)到url并獲得響應(yīng)  

timeout表示超時(shí)時(shí)間設(shè)置。
返回值
response.read()返回頁(yè)面內(nèi)容
response.info()返回網(wǎng)頁(yè)信息
response.geturl()返回連接地址
這個(gè)函數(shù)可以像urllib.urlopen()那樣以u(píng)rl做參數(shù)。也能以Request實(shí)例為參數(shù),即用一個(gè)Request對(duì)象(下文構(gòu)造方法)來(lái)映射你提出的HTTP請(qǐng)求,在它最簡(jiǎn)單的使用形式中你將用你要請(qǐng)求的地址創(chuàng)建一個(gè)Request對(duì)象,這個(gè)Request對(duì)象中可以設(shè)置傳輸數(shù)據(jù)、headers等。通過(guò)調(diào)用urlopen并傳入Request對(duì)象,將返回一個(gè)file-like對(duì)象。urllib2還提供了接口來(lái)處理一般情況,例如:基礎(chǔ)驗(yàn)證,cookies,代理和其他,它們通過(guò)handlers和openers的對(duì)象實(shí)現(xiàn)。
2、Request函數(shù)
urllib2.Request(url[, data][, headers][, origin_req_host][, unverifiable])
用于構(gòu)造Request對(duì)象,可以傳遞data數(shù)據(jù),添加請(qǐng)求頭(headers)等,構(gòu)造好后作為urllib2.urlopen()的參數(shù)。
注:
url表示目標(biāo)網(wǎng)頁(yè)地址,可以是字符串,也可以是請(qǐng)求對(duì)象Request
data表示post方式提交給目標(biāo)服務(wù)器的參數(shù)
headers表示用戶標(biāo)識(shí),是一個(gè)字典類型的數(shù)據(jù),有些不允許腳本的抓取,所以需要用戶代理,像火狐瀏覽器的代理就是類似:Mozilla/5.0 (X11; U; Linux i686)Gecko/20071127 Firefox/2.0.0.11
瀏覽器的標(biāo)準(zhǔn)UA格式為:瀏覽器標(biāo)識(shí) (操作系統(tǒng)標(biāo)識(shí); 加密等級(jí)標(biāo)識(shí); 瀏覽器語(yǔ)言) 渲染引擎標(biāo)識(shí) 版本信息 ,headers默認(rèn)是Python-urllib/2.6
origin_req_host表示請(qǐng)求方的主機(jī)域名或者ip地址。
headers = {'User-Agent':'Mozilla/5.0 (X11; U; Linux i686)Gecko/20071127 Firefox/2.0.0.11'}

import urllib   
import urllib2   
url = 'http://www.weibo.cn/'   
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'   
h = { 'User-Agent' : user_agent }   
req = urllib2.Request(url,headers=h)   
response = urllib2.urlopen(req)   
print response.read() 

3、build_opener()
build_opener([handler1 [ handler2, ... ]])

  • urllib2.urlopen()函數(shù)不支持驗(yàn)證、cookie或者其它HTTP高級(jí)功能。要支持這些功能,必須使用build_opener()函數(shù)創(chuàng)建自定義Opener對(duì)象。
    參數(shù)handler是Handler實(shí)例,常用的有HTTPBasicAuthHandler、HTTPCookieProcessor、ProxyHandler等。
    build_opener ()返回的對(duì)象具有open()方法,與urlopen()函數(shù)的功能相同。
    如果要修改http報(bào)頭,可以用:
import urllib2  
opener = urllib2.build_opener()  
opener.addheaders = [('User-agent', 'Mozilla/5.0')]  
opener.open('http://www.example.com/')  
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 一、概述 urllib2是Python的一個(gè)針對(duì)URLs的庫(kù)。他以u(píng)rlopen函數(shù)的形式提供了一個(gè)非常簡(jiǎn)單的...
    MiracleJQ閱讀 1,557評(píng)論 0 5
  • urllib2是Python的一個(gè)獲取URLs的組件。他以u(píng)rlopen函數(shù)的形式提供了一個(gè)非常簡(jiǎn)單的接口,具有利...
    查無(wú)此人asdasd閱讀 1,624評(píng)論 0 3
  • 一、網(wǎng)絡(luò)爬蟲的定義 網(wǎng)絡(luò)爬蟲,即Web Spider,是一個(gè)很形象的名字。把互聯(lián)網(wǎng)比喻成一個(gè)蜘蛛網(wǎng),那么Spide...
    隨風(fēng)化作雨閱讀 1,277評(píng)論 0 0
  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理,服務(wù)發(fā)現(xiàn),斷路器,智...
    卡卡羅2017閱讀 136,554評(píng)論 19 139
  • 我覺得很有必要說(shuō)一說(shuō)這些天遇到的不幸,吐吐槽也是好的。運(yùn)氣好的時(shí)候,可以剛到十字路口交通燈立馬為我開路。運(yùn)氣差的時(shí)...
    一直特立獨(dú)行的餅閱讀 332評(píng)論 0 0

友情鏈接更多精彩內(nèi)容