簡單分布式爬蟲——第一彈:了解分布式爬蟲結(jié)構(gòu)

學習爬蟲有段時間了,期間爬過微博、糗事百科、網(wǎng)易云音樂、豆瓣等大大小小的網(wǎng)站,對爬蟲也算窺其門徑。不論所爬網(wǎng)站是何種類,爬蟲的套路無非幾步:目標網(wǎng)站分析、反爬策略研究、設計爬蟲、代碼實現(xiàn)、優(yōu)化。不過一直以來,都是一個.py文件擼到底,并沒有考慮性能效率什么的(對效率性能有要求直接上scrapy、pyspider),然而作為一個合格的spider,要不會分布式爬蟲那真是笑死人了,所以本博客特開一系列博文學習分布式爬蟲。

什么是分布式爬蟲?日常用過搜索引擎Google、百度等吧,其實這些搜索引擎都是爬蟲,負責從世界各地的網(wǎng)站上爬取內(nèi)容,當你搜索關鍵詞時就把相關的內(nèi)容展示給你,只不過他們那都是炒雞大的爬蟲,爬的內(nèi)容量也超乎想象,然額,這么大的爬蟲工作交給一臺服務器去完成,即使服務器性能再好怕是也忙不過來,那怎么辦?當然是上分布式啊,一臺服務器不行,我來100臺,什么?100臺也不夠?說吧,需要多少臺!所以當有了一大堆服務器的時候,你就可以用他們協(xié)同來完成爬取工作了,世界上網(wǎng)頁再多也架不住你成千上萬臺服務器去爬啊,那么,這里提到的"協(xié)同"其實就是用到了分布式的概念:我這么多分布在各地的服務器都是為了完成爬蟲工作,彼此得通力協(xié)作才行啊,于是就有了分布式爬蟲。

分布式爬蟲形色多樣,無論是我們這次準備徒手擼的簡單爬蟲還是成熟的爬蟲框架scrapy、pyspider亦或是Google百度之類的公司專用爬蟲,其基本結(jié)構(gòu)都是差不多的。我們就以簡單的主從分布式爬蟲講起。所謂主從模式,就是由一臺服務器充當master,若干臺服務器充當slave,master負責管理所有連接上來的slave,包括管理slave連接、任務調(diào)度與分發(fā)、結(jié)果回收并匯總等;每個slave只需要從master那里領取任務并獨自完成任務最后上傳結(jié)果即可,期間不需要與其他slave進行交流。這種方式簡單易于管理,但是很明顯master需要與所有slave進行交流,那么master的性能就成了制約整個系統(tǒng)的瓶頸,特別是當連接上的slave數(shù)量龐大的時候,很容易導致整個爬蟲系統(tǒng)性能下降。不過這不影響我們的學習,下面對主從分布式爬蟲結(jié)構(gòu)進行講解。

先上一張圖:
主從分布式爬蟲結(jié)構(gòu)圖

這是經(jīng)典的主從分布式爬蟲結(jié)構(gòu)圖,圖中的控制節(jié)點ControlNode就是上面提到的master,爬蟲節(jié)點SpiderNode就是上面提到的slave。下面這張圖展示了爬蟲節(jié)點slave的執(zhí)行任務示意圖

控制節(jié)點執(zhí)行流程圖

這兩張圖很明了地介紹了整個爬蟲框架,我們在這里梳理一下:
1、整個分布式爬蟲系統(tǒng)由兩部分組成:master控制節(jié)點和slave爬蟲節(jié)點
2、master控制節(jié)點負責:slave節(jié)點任務調(diào)度、url管理、結(jié)果處理
3、slave爬蟲節(jié)點負責:本節(jié)點爬蟲調(diào)度、HTML下載管理、HTML內(nèi)容解析管理
4、系統(tǒng)工作流程:master將任務(未爬取的url)分發(fā)下去,slave通過master的URL管理器領取任務(url)并獨自完成對應任務(url)的HTML內(nèi)容下載、內(nèi)容解析,解析出來的內(nèi)容包含目標數(shù)據(jù)和新的url,這個工作完成后slave將結(jié)果(目標數(shù)據(jù)+新url)提交給master的數(shù)據(jù)提取進程(屬于master的結(jié)果處理),該進程完成兩個任務:提取出新的url交于url管理器、提取目標數(shù)據(jù)交于數(shù)據(jù)存儲進程,master的url管理進程收到url后進行驗證(是否已爬取過)并處理(未爬取的添加進待爬url集合,爬過的添加進已爬url集合),然后slave循環(huán)從url管理器獲取任務、執(zhí)行任務、提交結(jié)果......

好了,以上就是簡單分布式爬蟲整體結(jié)構(gòu),是不是很簡單。
下一講:打造屬于我們自己的爬蟲master

參考資料:《Python爬蟲開發(fā)與項目實戰(zhàn)》

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容