我自己獨立完成了老師留的作業(yè),很值得紀念。
import requests
from bs4 import BeautifulSoup
url = 'http://bj.58.com/pbdn/0/pn2/?PGTID=0d305a36-0000-1c2a-07bc-9768e5cf6d74&ClickID=2'
#上面的是個人鏈接。#從上往下寫函數(shù),先編寫小函數(shù),最后寫大函數(shù),然后調用前面的小函數(shù)
def get_info(url): #這是個局部函數(shù),小函數(shù),應該寫在前面,方便后面調用。 #測試了,很好用,沒問題。
wb_data = requests.get(url)
soup = BeautifulSoup(wb_data.text, 'lxml')
cateagry = soup.select('#nav > div > span.crb_i > a')
title = soup.select('h1.info_titile')
price = soup.select('body > div.content > div > div.box_left > div.info_lubotu.clearfix > div.info_massege.left > div.price_li > span > i')
area = soup.select('body > div.content > div > div.box_left > div.info_lubotu.clearfix > div.info_massege.left > div.palce_li > span > i')
for cate,title2,price2,area2 in zip(cateagry,title,price,area):
data={
'cate':cate.get_text(),
'title' : title2.get_text(),
'price' : price2.get_text(),
'area' : area2.text
}
print(data)
def get_all_links(url):
wb_data = requests.get(url)
soup = BeautifulSoup(wb_data.text, 'lxml')
links=soup.select('#infolist > div.infocon > table > tbody > tr > td.t > a.t')
for link in links:
clink=link.get('href').split('?')[0]
get_info(clink)
get_all_links(url) #執(zhí)行函數(shù)。
```
這是第一階段。能夠獨立完成了。
運行結果如下:
