爬取網(wǎng)址:http://books.toscrape.com/index.html
爬取信息:書名,價格,評價等級,產(chǎn)品編碼,庫存量,評價數(shù)量
爬取方式:scrapy框架
存儲方式:csv文件

1. 除了可以使用Chrome的開發(fā)者工具,還可以使用scrapy shell命令,在交互式環(huán)境下調(diào)試。
然后用fetch(http://books.toscrape.com/index.html)獲取請求信息。

也可以采用下列帶URL的命令:
scrapy shell http://books.toscrape.com/index.html-
如果請求成功,可以看到:
image.png
2. 使用view(response)查看respone包含的頁面:
view(response)
-
view函數(shù)是scrapy爬蟲下載的頁面,比直接打開瀏覽器下載的頁面更靠譜,因為有時這兩個頁面是不同的,常規(guī)操作下有時還必須借助查看網(wǎng)頁源代碼來確認(rèn)元素的位置。
-由于response包含的頁面也是用瀏覽器打開,接下來我們使用chrome進(jìn)行元素審查。
image.png
3.提取信息
1)由于我們需要獲取的信息都在詳細(xì)頁面里面,我們需要先提取鏈接,可以使用LinkExtractor:
用三條語句就可以獲取到鏈接信息了,而且使用LinkExtractor時不需要告訴鏈接的具體位置,只需要告訴鏈接所在的范圍,非常方便。

此處提取信息,以下幾條命令提取出來的信息是一樣的,請看:
le = LinkExtractor(restrict_css='article.product_pod')
le = LinkExtractor(restrict_css='article.product_pod div a')
le = LinkExtractor(restrict_xpaths='//article[@class="product_pod"]')
le = LinkExtractor(restrict_xpaths='//article[@class="product_pod"]/div/a')
2)獲取下一頁的鏈接地址
3)提取書的詳細(xì)信息
使用fetch()命令,然后用view(response)即可看到請求頁面。

接下來獲取書名,下述兩種方法均可正確獲取書名,xpath效率更高,由于div含有多個屬性,此處使用了contains語法。

當(dāng)然,由于書名,價格,評價等級以及庫存量均在一處,可以先找出大范圍,然后再確定具體信息:

其他信息在下面的范圍內(nèi),代碼如下(其中也包括庫存數(shù)量,選一個即可):

4)scrapy shell的退出:exit()

4.編碼實現(xiàn)
1)創(chuàng)建項目
- 新建項目
scrapy startproject books - 利用模板生成spider文件
scrapy genspider booksspider books.toscrape.com
image.png
上述生成的booksspider.py文件:
# -*- coding: utf-8 -*-
import scrapy
class BooksspiderSpider(scrapy.Spider):
name = 'booksspider'
allowed_domains = ['books.toscrape.com']
start_urls = ['http://books.toscrape.com/']
def parse(self, response):
pass
2)items.py
import scrapy
class BooksItem(scrapy.Item):
name = scrapy.Field() #書名
price = scrapy.Field() #價格
review_rating = scrapy.Field() #評價等級(1-5星)
review_num = scrapy.Field() #評價數(shù)量
upc = scrapy.Field() #產(chǎn)品編碼
stock = scrapy.Field() #庫存量
3)booksspider.py
# -*- coding: utf-8 -*-
import scrapy
from books.items import BooksItem
from scrapy.linkextractors import LinkExtractor
class BooksspiderSpider(scrapy.Spider):
name = 'booksspider'
allowed_domains = ['books.toscrape.com']
start_urls = ['http://books.toscrape.com/']
def parse(self, response):
##提取每本書的鏈接
le = LinkExtractor(restrict_xpaths='//article[@class="product_pod"]') ##具體位置在//article/div/a的標(biāo)簽中
detail_urls = le.extract_links(response)
for detail_url in detail_urls:
yield scrapy.Request(detail_url.url,callback=self.parse_book) ##記得使用.url提取出extract_links里面的鏈接。
##提取下一頁的鏈接
le2 = LinkExtractor(restrict_xpaths='//li[@class="next"]')
next_url = le2.extract_links(response)[0].url
yield scrapy.Request(next_url,callback=self.parse)
def parse_book(self,response):
##提取每本書的具體信息
item = BooksItem()
info = response.xpath('//div[contains(@class,"product_main")]')
item['name'] = info.xpath('h1/text()').extract()[0]
item['price'] = info.xpath('p/text()').extract()[0]
item['review_rating'] = info.xpath('p[3]/@class').re('star-rating (\w+)')[0]
info2 = response.xpath('//table[contains(@class,"table")]')
item['upc'] = info2.xpath('//tr[1]/td/text()').extract_first()
item['stock'] = info2.xpath('//tr[6]/td/text()').re_first('\d+')
#item['stock'] = info2.xpath('//tr[last()-1]/td/text()').re_first('\d+') #使用last()獲取標(biāo)簽的最后一個數(shù)字
item['review_num'] = info2.xpath('//tr[7]/td/text()').extract_first()
#item['review_num'] = info2.xpath('//tr[last()]/td/text()').extract_first()
yield item
運(yùn)行scrapy crawl booksspider -o books.csv,結(jié)果為:

4)改進(jìn)點
①指定各列的次序
在settings.py中加入以下代碼:
FEED_EXPORT_FIELDS = ['name','upc','stock','price','review_rating','review_num']
②將評價等級中的One,Two,Three轉(zhuǎn)變成1,2,3
在pipelines.py中加入以下代碼:
class BooksPipeline(object):
review_rating_map = {
'One':1,
'Two':2,
'Three':3,
'Four':4,
'Five':5
}
def process_item(self, item, spider):
# rating = item.get('review_rating') #獲取review_rating的數(shù)據(jù)
rating = item['review_rating'] #與上面的語句等價
item['review_rating'] = self.review_rating_map[rating]
return item
在setttings.py中加入:
ITEM_PIPELINES = {
'books.pipelines.BooksPipeline': 300,
}
結(jié)果為:



