分布式爬蟲(chóng)控制腳本開(kāi)發(fā)

在Redis中,使用一個(gè)字符串來(lái)存放命令。字符串的名字叫做"scrapy_manager",它的值只有三種:start,stop 和deploy。

1.start

start這個(gè)命令的作用是創(chuàng)建一個(gè)子進(jìn)程來(lái)運(yùn)行爬蟲(chóng),使用到的是Python的subprocess庫(kù)。

self.START_SPIDER ='python {}'.format(os.path.join('last_release','main.py'))

self.process = subprocess.Popen(shlex.split(self.START_SPIDER))

由于在Windows下,路徑中使用反斜杠作為分隔符,而在Linux和Mac OS中,使用斜杠作為分隔符,所以這里的分隔符使用Python自動(dòng)生成。

shlex.split()

可以將一個(gè)字符串按照空格分成列表,因此在這里相當(dāng)于:

self.START_SPIDER.split(' ')

實(shí)際上subprocess.Popen是可以使用字符串命令作為參數(shù),但是有時(shí)候會(huì)出現(xiàn)莫名其妙的問(wèn)題,因此建議大家像上面代碼一樣將命令切分為列表來(lái)使用。

2.stop

所謂的停止爬蟲(chóng)其實(shí)就是殺掉子進(jìn)程,使用以下代碼來(lái)實(shí)現(xiàn):

self.process.kill()

3.deploy

自動(dòng)部署功能的原理是:將修改以后的爬蟲(chóng)打包為zip文件,放在Master服務(wù)器上,然后向Redis寫(xiě)入deploy命令。程序讀到這個(gè)命令以后,就使用requests將zip文件下載到本地,然后解壓縮覆蓋之前的程序。Python程序在運(yùn)行的時(shí)候,.py文件是可以被直接修改的,但是修改并不會(huì)立刻生效,因此需要停止爬蟲(chóng),然后重新運(yùn)行。在我提供給大家的代碼中,解壓縮zip的功能是通過(guò)調(diào)用系統(tǒng)API來(lái)實(shí)現(xiàn)的。大家也可以直接使用Python自帶的庫(kù)來(lái)實(shí)現(xiàn)解壓縮。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容