Python實(shí)戰(zhàn)計(jì)劃學(xué)習(xí)筆記1-2:爬取商品信息

新手學(xué)習(xí)python的的二天,爬取商品信息

最終成果:

2016-11-10 .png

代碼:

from bs4 import BeautifulSoup
with open('/home/ayongga/PycharmProjects/1_2/1_2answer_of_homework/index.html', 'r')as html_data:
    soup = BeautifulSoup(html_data, 'lxml')

    images = soup.select('body > div > div > div.col-md-9 > div > div > div > img')
    titles = soup.select('body > div > div > div.col-md-9 > div > div > div > div.caption > h4 > a')
    prices = soup.select('body > div > div > div.col-md-9 > div > div > div > div.caption > h4.pull-right')
    comments = soup.select('body > div > div > div.col-md-9 > div > div > div > div.ratings > p.pull-right')
    stars = soup.select('body > div > div > div.col-md-9 > div > div > div > div.ratings')

for image,title,price,comment,star in zip(images,titles,prices,comments,stars):
    data = {
        'image':image.get('src'),
        'title':title.get_text(),
        'price':price.get_text(),
        'comment':comment.get_text(),
        'star': len(star.find_all('span',class_='glyphicon glyphicon-star'))
    }
    print(data)

總結(jié):

  • 一對多→找父級
  • find_all得到一個(gè)列表,len統(tǒng)計(jì)列表元素的個(gè)數(shù)
  • 實(shí)戰(zhàn)對我提升很大
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容