Python爬網(wǎng)頁

重點回顧

  1. requests庫的get方法怎么用
  1. 真實網(wǎng)頁中定位元素位置的方法? 一句話:找唯一特征
  2. 使用headers,假裝是人類 。構造headers字典。
  3. 連續(xù)爬多頁內(nèi)容。
  4. 被反爬了怎么辦?使用手機頁面

想獲取已登錄狀態(tài)下的信息:

構建headers字典(內(nèi)容包括user-agent和cookie)
步驟如下:

  1. cookie信息:審查>network>doc>name>headers>代表身份的cookies信息填寫進去(向服務器證明我們是已經(jīng)登錄的狀態(tài))
  2. user-agent:路徑同上,最下方

獲取多頁的內(nèi)容

url="http://bj.lianjia.com/ershoufang/fengtai/pg2/"

urls=["http://bj.lianjia.com/ershoufang/fengtai/{}/".format(str(i)) for i inrange(1,100,1)]

print(urls)

tips:range的第三個參數(shù)是頻率。


批量輸出圖片

wb_data=requests.get(url,headers=headers)
#開始解析網(wǎng)頁數(shù)據(jù)
soup=BeautifulSoup(wb_data.text,'lxml')
imgs=soup.select('div.mod_media > div > img')
for i in imgs:    
        print(i.get('origin-src'))

步驟:

  1. 先通過requests.get(參數(shù)有網(wǎng)址和headers)獲取數(shù)據(jù)
  2. 通過soup將requests到的信息文本化
  3. 通過select 將所有圖片找出來(使用循環(huán)
  4. 通過get函數(shù) 打印標簽內(nèi)的圖片地址
最后編輯于
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

  • Spring Cloud為開發(fā)人員提供了快速構建分布式系統(tǒng)中一些常見模式的工具(例如配置管理,服務發(fā)現(xiàn),斷路器,智...
    卡卡羅2017閱讀 136,534評論 19 139
  • 聲明:本文講解的實戰(zhàn)內(nèi)容,均僅用于學習交流,請勿用于任何商業(yè)用途! 一、前言 強烈建議:請在電腦的陪同下,閱讀本文...
    Bruce_Szh閱讀 12,998評論 6 28
  • 目錄: Python網(wǎng)絡爬蟲(一)- 入門基礎Python網(wǎng)絡爬蟲(二)- urllib爬蟲案例Python網(wǎng)絡爬...
    一只寫程序的猿閱讀 13,135評論 17 68
  • 幕簾下 是晴的干凈的天空 聽姥姥說 還可以看見云彩哩 仰望著 靜靜的站在院子的中央 星 閃閃 樹 婆娑 似乎有著神...
    輕翎微酲閱讀 161評論 0 0
  • 今天辦理個信息提醒的業(yè)務,被銀行員工勸說開網(wǎng)上銀行的戶。說是辦活動,免費,還有贈一個U盤,正好有人在那里辦理,...
    想哭時也要笑閱讀 245評論 0 0

友情鏈接更多精彩內(nèi)容