1.scrapy框架講解:

1
downloader實(shí)際上是一個(gè)下載器,給一個(gè)網(wǎng)址發(fā)起請(qǐng)求,downloader就負(fù)責(zé)下載
從scheduler力需要爬取的網(wǎng)址丟給downloader。
spiders的作用是啥,我們爬數(shù)據(jù)時(shí)候頁面里面還有鏈接,返回我們需要繼續(xù)爬取的鏈接繼續(xù)爬。spiders把要的數(shù)據(jù)給pipline然后發(fā)現(xiàn)還有些需要的鏈接給scheduler,然后形成了一個(gè)循環(huán)。
我們要抓取大型的數(shù)據(jù),需要初始化一個(gè)項(xiàng)目,像淘寶這種大型網(wǎng)站,數(shù)據(jù)抓取,處理等等。但是平時(shí)我們需要抓取一些量不多的數(shù)據(jù),為了方便,我們只寫spider.py.
還有注意:有些是靜態(tài)網(wǎng)站,有些是動(dòng)態(tài)網(wǎng)站(js,ajax)配置downloadermiddlewares來完成
2.了解scrapy spider:
2.1先知道這個(gè)命令:
運(yùn)行蜘蛛的命令:scrapy runspider spider_test1.py
把運(yùn)行好的數(shù)據(jù)寫入文件命令:scrapy runspider spider_test1.py -o spider_test1.csv
scrapy runspider spider.py -o xxx.csv 運(yùn)行一個(gè)蜘蛛,再寫到csv文件中
2.2scrapy spider幾種爬取方式:
1.爬取1頁內(nèi)容
2.按照給定列表爬取多頁 給多個(gè)url,自己拼接,url用腳本生成好了,在一個(gè)列表里灌給蜘蛛
3."下一頁"類型
4.按照鏈接進(jìn)行爬取