前言

我這兩天想復(fù)習(xí)一下Scrapy框架，然后看了看自己之前的筆記，發(fā)現(xiàn)總結(jié)的有點(diǎn)亂，本來(lái)心思在網(wǎng)上找找資料，然后發(fā)現(xiàn)網(wǎng)上的也是有點(diǎn)亂和我之前總結(jié)的都差不多，所以我心思好好總結(jié)一下，然后和大家分享一下

先說(shuō)下我總結(jié)的思路，分為四步走：

1.Scrapy框架的安裝
2.Scrapy的簡(jiǎn)單使用
3.Scrapy的整體架構(gòu)和組成
4.Scrapy的中間件詳解

一、Scrapy框架的安裝

Scrapy框架因?yàn)楣δ苁謴?qiáng)大，所以依賴很多庫(kù)，不能直接安裝，需要先安裝依賴庫(kù)，因?yàn)槲业碾娔X在Windows下，所以這里展示W(wǎng)indows下的安裝方法（如果有其他平臺(tái)的需要，歡迎給我留言我在發(fā)出來(lái)）
需要安裝4個(gè)依賴庫(kù)分別是

lxml（這個(gè)最重要），使用pip命令安裝

pip3 install lxml
若沒有報(bào)錯(cuò)，則安裝成功，如果報(bào)錯(cuò)提示缺少libxml2 庫(kù)，可以使用wheel文件進(jìn)行安裝 libxml2

pyOpenSSL
需要在官網(wǎng)下載wheel文件 pyOpenssL
下載后使用

pip3 install pyOpenSSL-17.2.0-py2.py3-none-any.whl

安裝即可

Twisted
同理，需要在官網(wǎng)下載wheel文件 Twisted,但是有一件事，一定要記得在控制臺(tái)下輸入

python

查看你的電腦版本和python版本，然后在上面的地址中下載對(duì)應(yīng)的wheel文件

捕獲.JPG

然后使用命令安裝

pip3 install Twisted-17.5.0-cp36-cp36m-win_amd64.whl

PyWin32
在官網(wǎng)下載對(duì)應(yīng)版本的安裝包雙擊安裝即可 pywin32

在依賴包全部安裝成功前提下安裝Scrapy框架，使用pip命令

pip3 install Scrapy

就證明 Scrapy 已經(jīng)安裝好了

二、Scrapy框架的簡(jiǎn)單使用

使用之前你要清楚這么一件事，Scrapy框架和你自己編寫的區(qū)別，我理解的區(qū)別就是沒什么區(qū)別，你編寫的爬蟲也是為了抓取數(shù)據(jù)，框架也是為了抓取數(shù)據(jù)，唯一有一定不同的就是，不管是我們現(xiàn)在所說(shuō)的Scrapy框架還是其他的爬蟲框架都是使爬蟲功能模塊話，把各種爬蟲需求分開來(lái)，你只要使用你的項(xiàng)目所需要的模塊就夠了！
你還需要知道這么幾條常用的命令

創(chuàng)建項(xiàng)目：scrapy startproject xxx
進(jìn)入項(xiàng)目：cd xxx #進(jìn)入某個(gè)文件夾下
創(chuàng)建爬蟲：scrapy genspider xxx（爬蟲名） xxx.com （爬取域）
生成文件：scrapy crawl xxx -o xxx.json (生成某種類型的文件)
運(yùn)行爬蟲：scrapy crawl XXX
列出所有爬蟲：scrapy list
獲得配置信息：scrapy settings [options]

那么我們現(xiàn)在來(lái)說(shuō)說(shuō)Scrapy框架的基本使用也是一樣分為幾部分

1.scrapy startproject tutorial

我們來(lái)看看Scrapy項(xiàng)目下都有些什么

scrapy.cfg: 項(xiàng)目的配置文件
tutorial/: 該項(xiàng)目的python模塊。在此放入代碼（核心）
tutorial/items.py: 項(xiàng)目中的item文件.（這是創(chuàng)建容器的地方，爬取的信息分別放到不同容器里）
tutorial/pipelines.py: 項(xiàng)目中的pipelines文件.
tutorial/settings.py: 項(xiàng)目的設(shè)置文件.（我用到的設(shè)置一下基礎(chǔ)參數(shù)，比如加個(gè)文件頭，設(shè)置一個(gè)編碼）
tutorial/spiders/: 放置spider代碼的目錄. （放爬蟲的地方）

容器（items）的定義，容器不一定是一開始全部都定義好的，可以跟隨項(xiàng)目的更新一點(diǎn)點(diǎn)向里面添加

import scrapy
class DmozItem(scrapy.Item): #創(chuàng)建一個(gè)類，繼承scrapy.item類，就是繼承人家寫好的容器
title = scrapy.Field() # 需要取哪些內(nèi)容，就創(chuàng)建哪些容器
link = scrapy.Field()
desc = scrapy.Field()

一個(gè)簡(jiǎn)單的爬蟲小例子

import scrapy
class DmozSpider(scrapy.Spider): # 繼承Spider類
    name = "dmoz" # 爬蟲的唯一標(biāo)識(shí)，不能重復(fù)，啟動(dòng)爬蟲的時(shí)候要用
    allowed_domains = ["dmoz.org"] # 限定域名，只爬取該域名下的網(wǎng)頁(yè)
    start_urls = [ # 開始爬取的鏈接
        "https://www.baidu.com/"
    ]
    def parse(self, response):
        filename = response.url.split("/")[-2] # 獲取url，用”/”分段，獲去倒數(shù)第二個(gè)字段
        with open(filename, 'a') as f:
            f.write(response.body) # 把訪問的得到的網(wǎng)頁(yè)源碼寫入文件

里面的parse方法，這個(gè)方法有兩個(gè)作用
1.負(fù)責(zé)解析start_url下載的Response 對(duì)象，根據(jù)item提取數(shù)據(jù)（解析item數(shù)據(jù)的前提是parse里全部requests請(qǐng)求都被加入了爬取隊(duì)列）
2.如果有新的url則加入爬取隊(duì)列，負(fù)責(zé)進(jìn)一步處理，URL的Request 對(duì)象
這兩點(diǎn)簡(jiǎn)單來(lái)說(shuō)就是編寫爬蟲的主要部分

那么爬蟲編寫完，我們需要啟動(dòng)爬蟲

cd XXX

進(jìn)入到你的文件夾下
輸入命令,啟動(dòng)爬蟲

scrapy crawl dmoz

那么啟動(dòng)爬蟲時(shí)發(fā)生了什么？
Scrapy為Spider的 start_urls 屬性中的每個(gè)url創(chuàng)建了Request 對(duì)象，并將 parse 方法作為回調(diào)函數(shù)(callback)賦值給了requests,而requests對(duì)象經(jīng)過(guò)調(diào)度器的調(diào)度，執(zhí)行生成response對(duì)象并送回給parse() 方法進(jìn)行解析,所以請(qǐng)求鏈接的改變是靠回調(diào)函數(shù)實(shí)現(xiàn)的。

yield scrapy.Request(self.url, callback=self.parse)

三、Scrapy框架的整體架構(gòu)和組成

先來(lái)上一張官方的Scrapy的架構(gòu)圖

953786-20160612162715136-1486217043.jpg

圖中綠色的是數(shù)據(jù)的流向
我們看到圖里有這么幾個(gè)東西，分別是
Spiders：爬蟲，定義了爬取的邏輯和網(wǎng)頁(yè)內(nèi)容的解析規(guī)則，主要負(fù)責(zé)解析響應(yīng)并生成結(jié)果和新的請(qǐng)求
Engine：引擎，處理整個(gè)系統(tǒng)的數(shù)據(jù)流處理，出發(fā)事物，框架的核心。
Scheduler：調(diào)度器，接受引擎發(fā)過(guò)來(lái)的請(qǐng)求，并將其加入隊(duì)列中，在引擎再次請(qǐng)求時(shí)將請(qǐng)求提供給引擎
Downloader：下載器，下載網(wǎng)頁(yè)內(nèi)容，并將下載內(nèi)容返回給spider
ItemPipeline：項(xiàng)目管道，負(fù)責(zé)處理spider從網(wǎng)頁(yè)中抽取的數(shù)據(jù)，主要是負(fù)責(zé)清洗，驗(yàn)證和向數(shù)據(jù)庫(kù)中存儲(chǔ)數(shù)據(jù)
Downloader Middlewares：下載中間件，是處于Scrapy的Request和Requesponse之間的處理模塊
Spider Middlewares：spider中間件，位于引擎和spider之間的框架，主要處理spider輸入的響應(yīng)和輸出的結(jié)果及新的請(qǐng)求middlewares.py里實(shí)現(xiàn)

是不感覺東西很多，很亂，有點(diǎn)懵！沒關(guān)系，框架之所以是框架因?yàn)榇_實(shí)很簡(jiǎn)單
我們?cè)賮?lái)看下面的這張圖！你就懂了！

捕獲.JPG

最后我們來(lái)順一下scrapy框架的整體執(zhí)行流程：

1.spider的yeild將request發(fā)送給engine
2.engine對(duì)request不做任何處理發(fā)送給scheduler
3.scheduler，生成request交給engine
4.engine拿到request，通過(guò)middleware發(fā)送給downloader
5.downloader在\獲取到response之后，又經(jīng)過(guò)middleware發(fā)送給engine
6.engine獲取到response之后，返回給spider，spider的parse()方法對(duì)獲取到的response進(jìn)行處理，解析出items或者requests
7.將解析出來(lái)的items或者requests發(fā)送給engine
8.engine獲取到items或者requests，將items發(fā)送給ItemPipeline，將requests發(fā)送給scheduler（ps，只有調(diào)度器中不存在request時(shí)，程序才停止，及時(shí)請(qǐng)求失敗scrapy也會(huì)重新進(jìn)行請(qǐng)求）

四、Scrapy的中間件詳解

中間件詳解因?yàn)閷?shí)在太多了我整理成了x-mind思維導(dǎo)圖，需要安裝x-mind才能打開，并上傳了百度云盤，有需要的可以下載 Scrapy中間件詳解提取碼：tq8v

五、后記

x-mind下載地址
 Scrapy官方文檔

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

爬蟲框架Scrapy個(gè)人總結(jié)（詳細(xì)）熟悉

爬蟲框架Scrapy個(gè)人總結(jié)（詳細(xì)）熟悉

前言

一、Scrapy框架的安裝

二、Scrapy框架的簡(jiǎn)單使用

三、Scrapy框架的整體架構(gòu)和組成

四、Scrapy的中間件詳解

五、后記

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

爬蟲框架Scrapy個(gè)人總結(jié)（詳細(xì)）熟悉

前言

一、Scrapy框架的安裝

二、Scrapy框架的簡(jiǎn)單使用

三、Scrapy框架的整體架構(gòu)和組成

四、Scrapy的中間件詳解

五、后記

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

一、Scrapy框架的安裝

二、Scrapy框架的簡(jiǎn)單使用

三、Scrapy框架的整體架構(gòu)和組成

四、Scrapy的中間件詳解

五、后記