男人到天堂AV,亚洲熟女无码AV

爬取網(wǎng)址：http://books.toscrape.com/index.html
爬取信息：書名，價格，評價等級，產(chǎn)品編碼，庫存量，評價數(shù)量
爬取方式：scrapy框架
存儲方式：csv文件

image.png

1. 除了可以使用Chrome的開發(fā)者工具，還可以使用scrapy shell命令，在交互式環(huán)境下調(diào)試。

然后用fetch(http://books.toscrape.com/index.html)獲取請求信息。

image.png

也可以采用下列帶URL的命令：
scrapy shell http://books.toscrape.com/index.html
如果請求成功，可以看到：

image.png

2. 使用view(response)查看respone包含的頁面：

view(response)

view函數(shù)是scrapy爬蟲下載的頁面，比直接打開瀏覽器下載的頁面更靠譜，因為有時這兩個頁面是不同的，常規(guī)操作下有時還必須借助查看網(wǎng)頁源代碼來確認(rèn)元素的位置。
-由于response包含的頁面也是用瀏覽器打開，接下來我們使用chrome進(jìn)行元素審查。

image.png

3.提取信息

1）由于我們需要獲取的信息都在詳細(xì)頁面里面，我們需要先提取鏈接，可以使用LinkExtractor：
用三條語句就可以獲取到鏈接信息了，而且使用LinkExtractor時不需要告訴鏈接的具體位置，只需要告訴鏈接所在的范圍，非常方便。

image.png

此處提取信息，以下幾條命令提取出來的信息是一樣的，請看：
le = LinkExtractor(restrict_css='article.product_pod')
le = LinkExtractor(restrict_css='article.product_pod div a')
le = LinkExtractor(restrict_xpaths='//article[@class="product_pod"]')
le = LinkExtractor(restrict_xpaths='//article[@class="product_pod"]/div/a')

2)獲取下一頁的鏈接地址

3)提取書的詳細(xì)信息
使用fetch()命令，然后用view(response)即可看到請求頁面。

image.png

接下來獲取書名，下述兩種方法均可正確獲取書名，xpath效率更高，由于div含有多個屬性，此處使用了contains語法。

image.png

當(dāng)然，由于書名，價格，評價等級以及庫存量均在一處，可以先找出大范圍，然后再確定具體信息：

image.png

其他信息在下面的范圍內(nèi)，代碼如下（其中也包括庫存數(shù)量，選一個即可）：

image.png

4)scrapy shell的退出：exit()

image.png

4.編碼實現(xiàn)

1)創(chuàng)建項目

新建項目scrapy startproject books
利用模板生成spider文件scrapy genspider booksspider books.toscrape.com

image.png

上述生成的booksspider.py文件：

# -*- coding: utf-8 -*-
import scrapy


class BooksspiderSpider(scrapy.Spider):
    name = 'booksspider'
    allowed_domains = ['books.toscrape.com']
    start_urls = ['http://books.toscrape.com/']

    def parse(self, response):
        pass

2)items.py

import scrapy

class BooksItem(scrapy.Item):
    name = scrapy.Field()            #書名
    price = scrapy.Field()           #價格
    review_rating = scrapy.Field()   #評價等級（1-5星）
    review_num = scrapy.Field()      #評價數(shù)量
    upc = scrapy.Field()             #產(chǎn)品編碼
    stock = scrapy.Field()           #庫存量

3)booksspider.py

# -*- coding: utf-8 -*-
import scrapy
from books.items import BooksItem
from scrapy.linkextractors import LinkExtractor

class BooksspiderSpider(scrapy.Spider):
    name = 'booksspider'
    allowed_domains = ['books.toscrape.com']
    start_urls = ['http://books.toscrape.com/']

    def parse(self, response):
        ##提取每本書的鏈接
        le = LinkExtractor(restrict_xpaths='//article[@class="product_pod"]')  ##具體位置在//article/div/a的標(biāo)簽中
        detail_urls = le.extract_links(response)
        for detail_url in detail_urls:
            yield scrapy.Request(detail_url.url,callback=self.parse_book)  ##記得使用.url提取出extract_links里面的鏈接。

        ##提取下一頁的鏈接
        le2 = LinkExtractor(restrict_xpaths='//li[@class="next"]')
        next_url = le2.extract_links(response)[0].url
        yield scrapy.Request(next_url,callback=self.parse)


    def parse_book(self,response):
        ##提取每本書的具體信息
        item = BooksItem()
        info = response.xpath('//div[contains(@class,"product_main")]')
        item['name'] = info.xpath('h1/text()').extract()[0]
        item['price'] = info.xpath('p/text()').extract()[0]
        item['review_rating'] = info.xpath('p[3]/@class').re('star-rating (\w+)')[0]

        info2 = response.xpath('//table[contains(@class,"table")]')
        item['upc'] = info2.xpath('//tr[1]/td/text()').extract_first()
        item['stock'] = info2.xpath('//tr[6]/td/text()').re_first('\d+')
        #item['stock'] = info2.xpath('//tr[last()-1]/td/text()').re_first('\d+')  #使用last()獲取標(biāo)簽的最后一個數(shù)字
        item['review_num'] = info2.xpath('//tr[7]/td/text()').extract_first()
        #item['review_num'] = info2.xpath('//tr[last()]/td/text()').extract_first()
        yield item

運(yùn)行scrapy crawl booksspider -o books.csv，結(jié)果為：

image.png

4)改進(jìn)點
①指定各列的次序
在settings.py中加入以下代碼：
FEED_EXPORT_FIELDS = ['name','upc','stock','price','review_rating','review_num']
②將評價等級中的One，Two，Three轉(zhuǎn)變成1,2,3
在pipelines.py中加入以下代碼：

class BooksPipeline(object):

    review_rating_map = {
        'One':1,
        'Two':2,
        'Three':3,
        'Four':4,
        'Five':5
    }
    
    def process_item(self, item, spider):
        # rating = item.get('review_rating')  #獲取review_rating的數(shù)據(jù)
        rating = item['review_rating']  #與上面的語句等價
        item['review_rating'] = self.review_rating_map[rating]
        
        return item

在setttings.py中加入：

ITEM_PIPELINES = {
   'books.pipelines.BooksPipeline': 300,
}

結(jié)果為：

image.png

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

三. Scrapy項目調(diào)試

三. Scrapy項目調(diào)試

1. 除了可以使用Chrome的開發(fā)者工具，還可以使用scrapy shell命令，在交互式環(huán)境下調(diào)試。

2. 使用view(response)查看respone包含的頁面：

3.提取信息

4.編碼實現(xiàn)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

三. Scrapy項目調(diào)試

1. 除了可以使用Chrome的開發(fā)者工具，還可以使用scrapy shell命令，在交互式環(huán)境下調(diào)試。

2. 使用view(response)查看respone包含的頁面：

3.提取信息

4.編碼實現(xiàn)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

1. 除了可以使用Chrome的開發(fā)者工具，還可以使用scrapy shell命令，在交互式環(huán)境下調(diào)試。