scrapy 食用注意指南

1. 使用 'scrapy genspider project domain' 來生成 spider 文件
2. 運行 scrapy 報錯:
ImportError:
DLL load failed: 找不到指定的模塊。

解決:

拷貝 C:\Python26\Lib\site-packages\pywin32_system32\ 這個文件夾里的文件,至 C:\Windows\System32

3. 調(diào)試請使用 pycharm,通過以下方式用 pycharm 運行 scrapy:

在 scrapy.cfg 這一級目錄下新建 endpoint.py 文件,內(nèi)容:

from scrapy import cmdline
cmdline.execute(['scrapy', 'crawl', 'cnblogSpider(這個是你 spide r的名字)'])

這里多說一句,運行的時候需要用 spider 的名字來運行。這個名字是在

class CnblogspiderSpider(scrapy.Spider):
    name = 'cnblogSpider'
    allowed_domains = ['cnblogs.com']
    start_urls = [
        'http://www.cnblogs.com/fnng/default.aspx?page=1'
    ]

這個地方的 name 指定的。

4. 可以將數(shù)據(jù)已指定格式輸出文件。支持以下幾種格式:

xml
csv
json
jsonlines
jl
pickle
marshal

運行時請帶上參數(shù)指定輸出格式:

scrapy crawl cnblogs_blogs –nolog -o cnblogs_blogs.json -t json

-o 后面指定了輸出文件名,-t 后面指定了輸出格式。

其他:待更新......

參考來自 魚塘的魚

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容