scrapy 框架學(xué)習(xí)

Scrapy數(shù)據(jù)流是由執(zhí)行的核心引擎(engine)控制,流程是這樣的:
1、爬蟲(chóng)引擎ENGINE獲得初始請(qǐng)求開(kāi)始抓取。
2、爬蟲(chóng)引擎ENGINE開(kāi)始請(qǐng)求調(diào)度程序SCHEDULER,并準(zhǔn)備對(duì)下一次的請(qǐng)求進(jìn)行抓取。
3、爬蟲(chóng)調(diào)度器返回下一個(gè)請(qǐng)求給爬蟲(chóng)引擎。
4、引擎請(qǐng)求發(fā)送到下載器DOWNLOADER,通過(guò)下載中間件下載網(wǎng)絡(luò)數(shù)據(jù)。
5、一旦下載器完成頁(yè)面下載,將下載結(jié)果返回給爬蟲(chóng)引擎ENGINE。
6、爬蟲(chóng)引擎ENGINE將下載器DOWNLOADER的響應(yīng)通過(guò)中間件MIDDLEWARES返回給爬蟲(chóng)SPIDERS進(jìn)行處理。
7、爬蟲(chóng)SPIDERS處理響應(yīng),并通過(guò)中間件MIDDLEWARES返回處理后的items,以及新的請(qǐng)求給引擎。
8、引擎發(fā)送處理后的items到項(xiàng)目管道,然后把處理結(jié)果返回給調(diào)度器SCHEDULER,調(diào)度器計(jì)劃處理下一個(gè)請(qǐng)求抓取。
9、重復(fù)該過(guò)程(繼續(xù)步驟1),直到爬取完所有的url請(qǐng)求。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容