PyCharm+ENV+Scrapy

記錄使用 PyCharm 創(chuàng)建 Scrapy 項目過程。

使用 PyCharm 創(chuàng)建一個干凈的 Python 工程

使用 env 環(huán)境

Screen Shot 2019-01-15 at 9.55.59 AM.png

安裝 Scrapy

打開 PyCharm 設(shè)置,安裝 Scrapy。

Screen Shot 2019-01-15 at 9.41.06 AM.png

創(chuàng)建 Scrapy 工程

打開 PyCharm 命令行工具

# 后退一步,減少目錄層級
cd  ..

# [Demo2] 必須和工程文件名相同
scrapy startproject Demo2

cd Demo2

# 使用模版創(chuàng)建一個爬蟲
scrapy genspider example example.com

配置運行

創(chuàng)建 start_scrapy.py

from scrapy import cmdline
cmdline.execute('scrapy crawl example'.split())
20190115102042.png

測試

修改 Demo2/spiders/example.py:

# -*- coding: utf-8 -*-
import scrapy

class ExampleSpider(scrapy.Spider):
    name = 'example'
    allowed_domains = ['baidu.com']
    start_urls = ['http://baidu.com/']

    def parse(self, response):
        print(response.body)

爬 baidu.com 還需要修改設(shè)置 settings.py ROBOTSTXT_OBEY = False

運行后:

20190115102211.png

其他問題

Forbidden by robots.txt

修改 settings.py:

# Obey robots.txt rules
ROBOTSTXT_OBEY = False

參考:http://www.itdecent.cn/p/eda047ac5c89

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容