昨天看完教程之后,重新敲了一次代碼,今天開始做后面的練習(xí)題。練習(xí)題基本和課程差不多,目標(biāo)是提取評分高于4星的文章標(biāo)題和評論數(shù)。
我的成果
13.JPG
我的代碼
from bs4 import BeautifulSoup
info = []
with open('E:/1080P/1_2_homework_required/index.html','r') as wb_data:
Soup = BeautifulSoup(wb_data,'lxml')
# print(Soup)
images = Soup.select('body > div > div > div.col-md-9 > div > div > div > img')
titles = Soup.select('body > div > div > div.col-md-9 > div > div > div > div.caption > h4 > a')
prices = Soup.select('body > div > div > div.col-md-9 > div > div > div > div.caption > h4.pull-right')
stars = Soup.select('body > div > div > div.col-md-9 > div > div > div > div.ratings > p:nth-of-type(2)')
nums = Soup.select('body > div > div > div.col-md-9 > div > div > div > div.ratings > p.pull-right')
# print(stars)
#for star in stars:
# print(list(star.find_all("span")))
for title,image,price,star,num in zip(titles,images,prices,stars,nums):
data = {
'title':title.get_text(),
'image':image.get('src'),
'price':price.get_text(),
'star': len(star.find_all("span", class_ = 'glyphicon glyphicon-star')),
'num':num.get_text()
}
# print(data)
info.append(data)
for i in info:
if float(i['star'])>4:
print(i['title'],i['price'])
我的總結(jié)
- 練習(xí)題的難點(diǎn)在于那幾個星星的統(tǒng)計(jì)。由于教程上提示可以使用find_all函數(shù)解決,于是我仔細(xì)地看了看教程,先嘗試自己解決。
star.find_all("span")
這是我剛開始的想法,因?yàn)槲铱吹叫切堑木W(wǎng)頁內(nèi)容是這樣的:
<span class="glyphicon glyphicon-star"></span>
上面就代表了一個星星,我還以為find_all能知道幫忙查到有幾個星星,結(jié)果不是。然后我想,是不是要讓這些星星先像列表那樣全部排列出來,然后再統(tǒng)計(jì)有多少個。
搞了好久,我最后還是看了看答案。原來要用到len統(tǒng)計(jì)函數(shù),還要指向class,而且是class_不要忘了后面的" _ "。
還有路徑,我一開始就將不要的東西全刪掉了,原來是要保留最后的部分的。