一、安裝scrapy框架
#打開命令行輸入如下命令:
pip install scrapy
二、創(chuàng)建一個scrapy項目
安裝完成后,python會自動將 scrapy命令添加到環(huán)境變量中去,這時我們就可以使用 scrapy命令來創(chuàng)建我們的第一個 scrapy項目了。
打開命令行,輸入如下命令
scrapy startproject yourproject
這里的 startproject 命令將會在當(dāng)前目錄下創(chuàng)建一個 scrapy項目,后面跟著的參數(shù)是需要創(chuàng)建的項目的名稱。
比如這里我們會創(chuàng)建一個名為 yourproject 的項目,項目結(jié)構(gòu)如下:
yourproject/
scrapy.cfg
yourproject/
__init__.py
items.py
pipelines.py
settings.py
spiders/
__init__.py
...
這些文件分別是:
- scrapy.cfg: 項目的配置文件
- yourproject/: 該項目的python模塊。該項目的所有代碼都在這個目錄下
- yourproject/items.py: 項目中的item文件,我們在這個文件里定義要爬取的數(shù)據(jù),有點類似于 Django的 model。
- yourproject/pipelines.py:項目中的pipelines文件(我把這個稱為通道文件,意思就是數(shù)據(jù)處理的通道),對爬取到的數(shù)據(jù)進(jìn)行處理(如:儲存)
- yourproject/settings.py: 項目的設(shè)置文件,設(shè)置全局變量的值、通道的開啟和關(guān)閉以及多個通道和爬蟲的執(zhí)行優(yōu)先級
- yourproject/spiders/: 爬蟲的主要邏輯都在這個文件夾里,包括頁面請求、數(shù)據(jù)提取、反爬措施等。
.