(二)爬蟲框架(1)——scrapy簡(jiǎn)介

scrapy是為了爬取網(wǎng)站數(shù)據(jù)、提取結(jié)構(gòu)性數(shù)據(jù)而編寫的應(yīng)用框架。
用戶只需要開發(fā)幾個(gè)模塊就可以實(shí)現(xiàn)一個(gè)定制化爬蟲,抓取內(nèi)容和圖片。
scrapy內(nèi)部使用了Twisted異步網(wǎng)絡(luò)框架來處理網(wǎng)絡(luò)通訊,可以加快下載速度,并且包含了各種中間件接口。

Scrapy怎么完成爬蟲工作:

??先來一張官方圖片

scrapy官方圖

Engine引擎:負(fù)責(zé)Spiders、Scheduler、Downloader、Item Pipelines中間的通訊,傳遞數(shù)據(jù)。
Scheduler調(diào)度器:負(fù)責(zé)接收Engine發(fā)送的所有Request請(qǐng)求,并將其按照一定的方式進(jìn)行整理排列、入隊(duì),當(dāng)Engine需要時(shí),送還給Engine。
Downloader下載器:負(fù)責(zé)下載Engine發(fā)送的所有Request請(qǐng)求,并且將其獲取到的Response傳遞給Engine。
Spider爬蟲:負(fù)責(zé)處理Downloader獲取到的Response,并從中提取數(shù)據(jù),發(fā)送給Engine,并且將需要跟進(jìn)的URL再次發(fā)送給Engine,由Engine轉(zhuǎn)發(fā)給Scheduler。
Item Piplines管道:負(fù)責(zé)處理Spider中提取的數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行分析、過濾、存儲(chǔ)等操作。
Middleware中間件:分為兩個(gè)部分,一個(gè)是Downloader Middleware,另一個(gè)是Spider Middleware。
????Downloader Middleware下載器中間件:用戶自定義擴(kuò)展下載功能。
????Spider Middleware爬蟲中間件:用戶自定義擴(kuò)展爬蟲功能,例如操作request和response。

Scrapy運(yùn)行流程:
????1.Spider把需要爬取的頁面URL給Engine;
????2.Engine把URL放入Scheduler中,給Scheduler處理;
????3.Scheduler把處理好的第一條request傳入到Engine中;
????4.Engine把request傳入Downloader中,讓它發(fā)送請(qǐng)求到目標(biāo)網(wǎng)站;
????5.Downloader把從服務(wù)器上接收到的response傳入Engine中;
????6.Engine把接收到的response傳入Spider中,供其提取數(shù)據(jù);
????7.Spider把提取到的數(shù)據(jù)和下一條待爬取的URL傳入Engine中;
????8.Engine把接收到的數(shù)據(jù)傳遞給Item Piplines、把下一條待爬取的URL傳入Scheduler中,給Scheduler處理;
這個(gè)流程一直循環(huán)運(yùn)行,直到Scheduler中沒有任何一條待爬取的URL,整個(gè)程序會(huì)停止。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容