scrapy是為了爬取網(wǎng)站數(shù)據(jù)、提取結(jié)構(gòu)性數(shù)據(jù)而編寫的應(yīng)用框架。
用戶只需要開發(fā)幾個(gè)模塊就可以實(shí)現(xiàn)一個(gè)定制化爬蟲，抓取內(nèi)容和圖片。
scrapy內(nèi)部使用了Twisted異步網(wǎng)絡(luò)框架來處理網(wǎng)絡(luò)通訊，可以加快下載速度，并且包含了各種中間件接口。

Scrapy怎么完成爬蟲工作：

??先來一張官方圖片

scrapy官方圖

Engine引擎：負(fù)責(zé)Spiders、Scheduler、Downloader、Item Pipelines中間的通訊，傳遞數(shù)據(jù)。
Scheduler調(diào)度器：負(fù)責(zé)接收Engine發(fā)送的所有Request請(qǐng)求，并將其按照一定的方式進(jìn)行整理排列、入隊(duì)，當(dāng)Engine需要時(shí)，送還給Engine。
Downloader下載器：負(fù)責(zé)下載Engine發(fā)送的所有Request請(qǐng)求，并且將其獲取到的Response傳遞給Engine。
Spider爬蟲：負(fù)責(zé)處理Downloader獲取到的Response，并從中提取數(shù)據(jù)，發(fā)送給Engine，并且將需要跟進(jìn)的URL再次發(fā)送給Engine，由Engine轉(zhuǎn)發(fā)給Scheduler。
Item Piplines管道：負(fù)責(zé)處理Spider中提取的數(shù)據(jù)，對(duì)數(shù)據(jù)進(jìn)行分析、過濾、存儲(chǔ)等操作。
Middleware中間件：分為兩個(gè)部分，一個(gè)是Downloader Middleware，另一個(gè)是Spider Middleware。
????Downloader Middleware下載器中間件：用戶自定義擴(kuò)展下載功能。
????Spider Middleware爬蟲中間件：用戶自定義擴(kuò)展爬蟲功能，例如操作request和response。

Scrapy運(yùn)行流程：
????1.Spider把需要爬取的頁面URL給Engine；
????2.Engine把URL放入Scheduler中，給Scheduler處理；
????3.Scheduler把處理好的第一條request傳入到Engine中；
????4.Engine把request傳入Downloader中，讓它發(fā)送請(qǐng)求到目標(biāo)網(wǎng)站；
????5.Downloader把從服務(wù)器上接收到的response傳入Engine中；
????6.Engine把接收到的response傳入Spider中，供其提取數(shù)據(jù)；
????7.Spider把提取到的數(shù)據(jù)和下一條待爬取的URL傳入Engine中；
????8.Engine把接收到的數(shù)據(jù)傳遞給Item Piplines、把下一條待爬取的URL傳入Scheduler中，給Scheduler處理；
這個(gè)流程一直循環(huán)運(yùn)行，直到Scheduler中沒有任何一條待爬取的URL，整個(gè)程序會(huì)停止。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

（二）爬蟲框架(1)——scrapy簡(jiǎn)介

（二）爬蟲框架(1)——scrapy簡(jiǎn)介

Scrapy怎么完成爬蟲工作：

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

（二）爬蟲框架(1)——scrapy簡(jiǎn)介

Scrapy怎么完成爬蟲工作：

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av