scrapy爬蟲--小練習(xí)

scrapy startproject example

tree

├── example

│?? ├── __init__.py

│?? ├── __init__.pyc

│?? ├── items.py

│?? ├── middlewares.py

│?? ├── pipelines.py

│?? ├── settings.py

│?? ├── settings.pyc

│?? └── spiders

│??? ? ├── book_spider.py

│??? ? ├── book_spider.pyc

│??? ? ├── __init__.py

│??? ? └── __init__.pyc

cd example

cd spider

vim book_spider.py


#-*- coding: utf-8 -*-

import scrapy

class BooksSpider(scrapy.Spider):

#每個(gè)爬蟲都有相應(yīng)的標(biāo)識符

name = "book"

#定義開始爬取的起始點(diǎn) 可以有多個(gè)

start_urls = ['http://books.toscrape.com/']

def parse(self, response):

for book in response.css('article.product_pod'):

name = book.xpath('./h3/a/@title').extract_first()

price = book.css('p.price_color::text').extract_first()

yield {

'name':name,

'price':price

}

next_url = response.css('ul.pager li.next a::attr(href)').extract_first()

if next_url:

next_url = response.urljoin(next_url)

yield scrapy.Request(next_url,callback=self.parse)

這個(gè)http://books.toscrape.com/可以用來練習(xí)爬蟲

scrapy crawl book -o book.csv



最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容