Scrapy的暫停和重啟及采坑記錄

Scrapy的暫停和重啟有兩種方式:官方文檔介紹、中文文檔
一、命令行方式:

 scrapy crawl spider_name -s JOBDIR=crawls/spider_name-1;

兩個(gè)spider_name即為爬蟲名稱;后面的JOBDIR即為保存爬蟲狀態(tài)和requests_queue的文件路徑, 可以自定義;比如

scrapy crawl bd -s JOBDIR=crawls/001

運(yùn)行完成之后按Ctrl+C一次發(fā)送暫停信號,此時(shí)爬蟲中斷,并會在項(xiàng)目目錄下新建一個(gè)crawls目錄

image.png

image.png

001目錄下有requests.queue文件,里面的p0文件記錄了沒有請求完的url信息,當(dāng)項(xiàng)目重啟之后該文件被刪除;requests.seen是保存了爬蟲的請求隊(duì)列,打開如圖所示,應(yīng)該記錄了請求隊(duì)列的指紋信息
image.png

另外的就是保存爬蟲狀態(tài)的一個(gè)文件了(spider.state)
二、第二種方式就是在settings文件增加

JOBDIR='spdier.com'

執(zhí)行爬蟲 scrapy crawl spider_name后,就會自動生成一個(gè)spider.com的目錄

image.png

這里遇到的一個(gè)坑就是我試了好幾次暫停和重啟,因?yàn)槎呙疃际且粯拥?,?dāng)我暫停爬蟲的時(shí)候再運(yùn)行命令開啟爬蟲,爬蟲直接結(jié)束了,一開始以為是數(shù)據(jù)量不夠?qū)е碌?;然后加分頁,再試還是不行,無奈各種搜;直到我看到了這篇博客:https://www.cnblogs.com/Successful-people/p/10652278.html 果然是中科院院士
我才恍然大悟,原來我暫停用了兩次Ctrl+C ,而這時(shí)是強(qiáng)制退出!暫停按一次就行!

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容