Unknown command: crawl(爬蟲框架Scrapy遇到的常見錯誤)

今天在用scrapy框架運行多爬蟲的時候,遇到了一個比較棘手的問題,剛開始進行了各種嘗試,卻還是不行,最后終于還是找到了原因!

正文

當我們在cmd中或者PyCharm中使用Terminal輸入scrapy crawl lieping(lieping是我項目里的爬蟲的名字,name = “l(fā)ieping”,爬取獵聘網(wǎng)的職位信息),總會報如下的錯誤:

E:\Study\Python\Codes\Spiders\0301\job_spider>scrapy crawl lieping

Scrapy 1.5.0 - no active project

Unknown command: crawl

Use “scrapy” to see available commands

原因

第一種

如果是用的cmd的話,那是應為沒有cd到項目的根目錄,因為crawl會去搜索cmd目錄下的scrapy.cfg文件,官方文檔中也進行了說明:http://scrapy-chs.readthedocs.io/zh_CN/0.24/topics/commands.html

第二種

當我們使用的PyCharm來進行運行的時候,我們所處的位置本來就是項目的根目錄,而這個時候還是報錯誤的話,那就不是沒有進入根目錄的問題了,而是其他原因了……

當我們?nèi)シ磸筒榭村e誤語句后,我們發(fā)現(xiàn)那一句:“no active project”,這就說明是我們的工程有問題,于是去官方文檔查看了一下我們的目錄結構,并對照看來一下我的項目的結構,發(fā)現(xiàn),在使用命令行startproject的時候,會自動生成scrapy.cfg,問題就出現(xiàn)在這里,那是因為這個項目文件中只有代碼,沒有配置文件,或者配置文件被移去其他位置了,導致報錯。

解決辦法:

找一個配置文件,修改為如下格式,

# Automatically created by: scrapy startproject

#

# For more information about the [deploy] section see:

# https://scrapyd.readthedocs.io/en/latest/deploy.html

[settings]

default = **job_spider**.settings

[deploy]

#url = http://localhost:6800/

project = **job_spider**

其中的job_spider是你的項目的名字

放在項目代碼的外面,注意是項目代碼的外面。不確定的可以看下scrapy文檔->入門教程->創(chuàng)建項目,其中有目錄結構。

放好配置文件后,再進入Terminal執(zhí)行scrapy crawl job_spider,完美抓取。

?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容