python 實(shí)戰(zhàn)計劃學(xué)習(xí):爬取租房信息

from bs4 import BeautifulSoup
import requests
import time

url='http://bj.xiaozhu.com/fangzi/1339353835.html'

urls=['http://bj.xiaozhu.com/search-duanzufang-p{}-0/'.format (str(i)) for i in range(1,10)]

def get_rent_info(url,data=None):
wb_data=requests.get(url)
time.sleep(3)
soup=BeautifulSoup(wb_data.text,'lxml')
titles=soup.select('body > div.wrap.clearfix.con_bg > div.con_l > div.pho_info > h4 > em')
addresss=soup.select('body > div.wrap.clearfix.con_bg > div.con_l > div.pho_info > p > span.pr5')
prices=soup.select('#pricePart > div.day_l > span')
house_imgs=soup.select('#curBigImage')
personal_imgs=soup.select('#floatRightBox > div.js_box.clearfix > div.member_pic > a > img')
genders=soup.select('#floatRightBox > div.js_box.clearfix > div.w_240 > h6 > span')
nicknames=soup.select('#floatRightBox > div.js_box.clearfix > div.w_240 > h6 > a.lorder_name')
for title,address,price,house_img,personal_img,gender,nickname in zip(titles,addresss,prices,house_imgs,personal_imgs,genders,nicknames):
if gender.get("class")==["member_girl_ico"]:
gender='女'
else:
gender='男'
data={
'title':title.get_text(),
'address':address.get_text(),
'prices':price.get_text(),
'house_imgs':house_img.get('src'),
'personal_imgs':personal_img.get('src'),
'gender':gender,
'nickname':nickname.get_text()
}
print(data)

for page_url in urls:
wb_data=requests.get(page_url)
soup=BeautifulSoup(wb_data.text,'lxml')
link_datas=soup.select('a.resule_img_a')
for links in link_datas:
link=links.get("href")
get_rent_info(link)

運(yùn)行結(jié)果:

Paste_Image.png
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容