Scrapy簡介
Scrapy是一個健壯的網(wǎng)絡(luò)框架,它可以從各種數(shù)據(jù)源中抓取數(shù)據(jù)。
Scrapy能夠識別殘缺的HTML。
Scrapy既不存儲數(shù)據(jù),也不索引數(shù)據(jù)。它只用于抽取數(shù)據(jù)。它對很多數(shù)據(jù)庫也都有所支持。
安裝Scrapy
因?yàn)槲野惭b了Anaconda,所以直接在其下面安裝
conda install scrapy
shell命令
進(jìn)入scrapy的URL調(diào)試控制臺
scrapy shell [--pdb] www.xxx.com
--pdb: 啟用交互式調(diào)試
第一個Scrapy項(xiàng)目
scrapy startproject properties
編寫爬蟲
創(chuàng)建一個名為basic的默認(rèn)爬蟲
scrapy genspider basic 網(wǎng)址
運(yùn)行爬蟲
scrapy crawl 爬蟲名
scrapy parse --spider=爬蟲名 網(wǎng)址
保存文件
scrapy crawl 爬蟲名 -o xxx.json
scrapy crawl 爬蟲名 -o xxx.jl
scrapy crawl 爬蟲名 -o xxx.csv
scrapy crawl 爬蟲名 -o xxx.xml
Item加載器
ItemLoader