2018-04-10粗魯地爬取網頁

import urllib2
response = urllib2.urlopen("http://taobao.com")
print response.read()

綜上:三行代碼就能簡單地將淘寶網頁爬取出來,這是根據url路由爬取的,比較粗暴
分析:
1.此代碼需在python2環(huán)境下編寫
2.urllib2是python2內置的一個系統(tǒng)工具庫

urllib2功能 (5大功能)

1.獲取web頁面
2.在遠程服務器上驗證
3.額外數據提交,像一些:表單提交(GET和POST)
4.異常處理
5.非http協(xié)議通信(像ftp協(xié)議通信等等)

urllib2中urlopen方法的分析:

urlopen() 對象主要用于打開 括號里指定的網站 所對應的內容
urlopen中有三個參數:
1.url :指路徑,必須填充的內容* 列如:http://www.taobao.com
2.data:指訪問url時要傳送的數據,默認為空
3.timeout:設置超時時間,一般為默認

對于response的處理

1.直接打印response

print response
#結果如下
#<addinfourl at 84866632L whose fp = <socket._fileobject object at 0x00000000050831B0>>

若直接打印,結果是url路由,是路徑內容
所以需要借助 response 里的 read()方法 ,利用該方法,返回的是網頁內容,所以是

print response.read()

*稍微小心地爬取數據 (request的分析)

request請求

import urllib2
request = urllib2.Request("http://www.taobao.com")
response = urllib2.urlopen(request)
print response.read()

綜上:該代碼是第一個代碼的擴充,由只有響應(response),增加進去一個請求(request)
在代碼的第二行,是一個請求對象,提出請求,響應請求,
**request對象是利用內存來存放我們客戶對服務器端提出的請求的一段信息的相關內容

注:由于我們爬取數據時,不一定非要爬取整個網頁,可以視情況爬取某一部分或者某些內容,此時可以通過提交請求得到。

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

  • 1. 網頁抓取 所謂網頁抓取,就是把URL地址中指定的網絡資源從網絡流中抓取出來。在Python中有很多庫可以用來...
    rhlp閱讀 1,135評論 0 0
  • Spring Cloud為開發(fā)人員提供了快速構建分布式系統(tǒng)中一些常見模式的工具(例如配置管理,服務發(fā)現,斷路器,智...
    卡卡羅2017閱讀 136,534評論 19 139
  • 首先列舉一下本人總結的相關文章,這些覆蓋了入門網絡爬蟲需要的基本概念和技巧:寧哥的小站-網絡爬蟲當我們在瀏覽器中輸...
    Python程序媛閱讀 339評論 0 0
  • Python學習網絡爬蟲主要分3個大的版塊:抓取,分析,存儲 另外,比較常用的爬蟲框架Scrapy,這里最后也詳細...
    楚江數據閱讀 1,525評論 0 6
  • 一、網絡爬蟲的定義 網絡爬蟲,即Web Spider,是一個很形象的名字。把互聯(lián)網比喻成一個蜘蛛網,那么Spide...
    隨風化作雨閱讀 1,269評論 0 0

友情鏈接更多精彩內容