在學習Python寫爬蟲的時候,scrapy是必不可少的,scrapy是使用Python進行編寫的第三方框架,對于網(wǎng)頁的爬取封裝的非常完善,下面就說一下最近在學習scrapy時怎么導入PyChram中,并且運行在PyCharm。
一、安裝scrapy
首先要先安裝scrapy,在mac終端中輸入pip3 install scrapy,然后稍等一會,等待scrapy安裝成功,使用scrapy version進行測試,檢查是否安裝成功。
二、使用scrapy創(chuàng)建項目
安裝好scrapy之后,就可以使用scrapy新建項目,首先在終端cd到項目存放的目錄,使用scrapy startproject (項目名),創(chuàng)建完成后,就可以在項目目錄中找到項目,然后查看項目分支,主要包括scrapy.cfg、piplines.py、settings.py、middlewares.py、items.py、__init__init.py和spider文件夾,其中spider文件夾中又包含一個__init__.py文件,至于這幾個文件的作用,可以直接去問度娘。
三、在PyCharm中打開scrapy項目
打開PyCharm,然后選擇open文件,找到剛剛創(chuàng)建的項目,直接打開,然后進行PyCharm的Preferences中,選擇Project Interpreter,這時候會看到顯示[invalid] Python 3.6(scrapy)...,選擇右邊設(shè)置按鈕,選擇show all,然后左下角?按鈕,在頁面中,直接點OK即可。
四、使用PyCharm運行scrapy
因為PyCharm不帶scrapy運行的腳本,所以需要自己編寫,在與scrapy.cfg同級目錄中,創(chuàng)建一個python項目start.py(命名自己隨便起),寫上如下代碼:
from scrapyimport cmdline
cmdline.execute("scrapy crawl myspider".split())
myspider需要與自己創(chuàng)建的爬蟲中name一致,然后點擊EditConfigurations,新建一個腳本,選擇python,在script path中選擇剛剛的start.py,OK,然后就可以直接使用start.py運行scrapy項目。