Scrapy架構概覽圖

Scrapy 架構概覽

１、Scrapy Engine
　　Scrapy的核心引擎，負責控制數(shù)據(jù)在系統(tǒng)所有組件中的流動，并在相應動作發(fā)生時觸發(fā)事件，相當于整個框架的總指揮。

２、調(diào)度器
　　調(diào)度器（Scheduler）可以被看作一個優(yōu)先級隊列。它從核心引擎接受request并將它們?nèi)腙?，以便之后引擎請求它們時按照優(yōu)先級提供給引擎。

3、下載器
　　下載器（Download）負責和網(wǎng)絡交，主要作用是獲取頁面數(shù)據(jù)并提供給引擎，而后提供給spider做解析，下載器在整個Scrapy架構中應該是負擔最重的組件，由于其需要和網(wǎng)絡交互，直接影響Scrapy的爬取效率。

４、Spiders
　　Spiders是Sprapy用戶編寫用于分析response并提取item（即獲取到的item）或額外跟進ＵＲＬ的類。對用戶編寫爬蟲而言，它是最重要的組件。用戶可以在同一個項目中編寫多個spider，每個spider負責處理一個特定（或一些）的網(wǎng)站。

5、Item Pipeline
　　Item Pipeline負責處理被spider提取出來的Item。典型的處理有：清理、驗證及持久化（如存儲數(shù)據(jù)）。

6、下載器中間件
　　下載器中間件（Download Middlewares）是在核心引擎及下載器之間的特定鉤子，負責處理引擎?zhèn)鬟f給下載器的request和下載器傳遞給引擎的response。其提供了一個簡便的機制，通過插入自定義代碼來擴展Scrapy功能。

７、爬蟲中間件
　　爬蟲中間件（Spider　Middlewares)是在核心引擎及spider之間的特定鉤子，處理spider的輸入（response）和輸出（items及requests）。其提供了一個簡便的機制，過插入自定義代碼來擴展Scrapy功能。

Scrapy 數(shù)據(jù)流詳解

當啟動Scrapy爬蟲時，Scrapy 會產(chǎn)生以下幾個動作：

(１)　引擎將start_urls列表中的ＵＲＬ加近調(diào)度器(Scheduler)調(diào)度。如果重寫了start_urls方法，就將最新方法中的ＵＲＬ加近調(diào)度器。

(２)　引擎向調(diào)度器請求下一個要爬取的ＵＲＬ。

(３)　調(diào)度器給引擎返回下一個要爬取的ＵＲＬ，引擎將ＵＲＬ通過下載中間件【請求（request）方向】轉(zhuǎn)發(fā)給下載器（Downloader）。

(４)　一旦頁面下載完畢，下載器生成一個該頁面的response，并將其通過下載中間件【返回（response）方向】發(fā)送給引擎。

(５)　引擎將下載器中接收到的response并通過爬蟲中間件（輸入方向）發(fā)送給spider處理。

(６)　spider根據(jù)編寫的提取邏輯，處理response并給引擎返回爬取到的Item及（根據(jù)規(guī)則跟進的ｕｒｌ）新的request。

(７)　引擎將（spider返回的）爬取到的Item給Item Pipeline，將(spider返回的)request給調(diào)度器。

(８)　從第二步重復直到調(diào)度器中沒有更多的request，引擎關閉該爬蟲。

每天進步一點點，　To bend over backwards!

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

Scrapy架構概覽及數(shù)據(jù)流