Scrapy數(shù)據(jù)流是由執(zhí)行的核心引擎(engine)控制,流程是這樣的:
1、爬蟲(chóng)引擎ENGINE獲得初始請(qǐng)求開(kāi)始抓取。
2、爬蟲(chóng)引擎ENGINE開(kāi)始請(qǐng)求調(diào)度程序SCHEDULER,并準(zhǔn)備對(duì)下一次的請(qǐng)求進(jìn)行抓取。
3、爬蟲(chóng)調(diào)度器返回下一個(gè)請(qǐng)求給爬蟲(chóng)引擎。
4、引擎請(qǐng)求發(fā)送到下載器DOWNLOADER,通過(guò)下載中間件下載網(wǎng)絡(luò)數(shù)據(jù)。
5、一旦下載器完成頁(yè)面下載,將下載結(jié)果返回給爬蟲(chóng)引擎ENGINE。
6、爬蟲(chóng)引擎ENGINE將下載器DOWNLOADER的響應(yīng)通過(guò)中間件MIDDLEWARES返回給爬蟲(chóng)SPIDERS進(jìn)行處理。
7、爬蟲(chóng)SPIDERS處理響應(yīng),并通過(guò)中間件MIDDLEWARES返回處理后的items,以及新的請(qǐng)求給引擎。
8、引擎發(fā)送處理后的items到項(xiàng)目管道,然后把處理結(jié)果返回給調(diào)度器SCHEDULER,調(diào)度器計(jì)劃處理下一個(gè)請(qǐng)求抓取。
9、重復(fù)該過(guò)程(繼續(xù)步驟1),直到爬取完所有的url請(qǐng)求。
scrapy 框架學(xué)習(xí)
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
相關(guān)閱讀更多精彩內(nèi)容
- 本文希望達(dá)到以下目標(biāo): 簡(jiǎn)要介紹Scarpy 閱讀官網(wǎng)入門(mén)文檔并實(shí)現(xiàn)文檔中的范例 使用Scarpy優(yōu)豆瓣爬蟲(chóng)的抓取...
- scrapy爬蟲(chóng)框架結(jié)構(gòu) 爬蟲(chóng)框架 爬蟲(chóng)框架是實(shí)現(xiàn)爬蟲(chóng)功能的一個(gè)軟件結(jié)構(gòu)和功能組件的集合 爬蟲(chóng)框架是一個(gè)半成品...
- Scrapy的架構(gòu)太重要了,單用一篇文章再總結(jié)整合下。前兩張圖來(lái)自《Learning Scrapy》,第三張圖來(lái)自...
- Scrapy是一個(gè)為了爬取網(wǎng)站數(shù)據(jù)、提取結(jié)構(gòu)化數(shù)據(jù)而編寫(xiě)的爬蟲(chóng)應(yīng)用框架。Scrapy內(nèi)部實(shí)現(xiàn)了包括并發(fā)請(qǐng)求、免登錄...
- 2017健美打卡Day208天: 2017年7月28日:早起:叩齒、閉眼順時(shí)逆時(shí)轉(zhuǎn)眼,按膻中穴,鎖骨,揉腹部,踮腳...