爬蟲框架Scrapy個(gè)人總結(jié)(詳細(xì))熟悉

前言

我這兩天想復(fù)習(xí)一下Scrapy框架,然后看了看自己之前的筆記,發(fā)現(xiàn)總結(jié)的有點(diǎn)亂,本來(lái)心思在網(wǎng)上找找資料,然后發(fā)現(xiàn)網(wǎng)上的也是有點(diǎn)亂和我之前總結(jié)的都差不多,所以我心思好好總結(jié)一下,然后和大家分享一下

先說(shuō)下我總結(jié)的思路,分為四步走:

1.Scrapy框架的安裝
2.Scrapy的簡(jiǎn)單使用
3.Scrapy的整體架構(gòu)和組成
4.Scrapy的中間件詳解

一、Scrapy框架的安裝

Scrapy框架因?yàn)楣δ苁謴?qiáng)大,所以依賴很多庫(kù),不能直接安裝,需要先安裝依賴庫(kù),因?yàn)槲业碾娔X在Windows下,所以這里展示W(wǎng)indows下的安裝方法(如果有其他平臺(tái)的需要,歡迎給我留言我在發(fā)出來(lái))
需要安裝4個(gè)依賴庫(kù)分別是

  • lxml(這個(gè)最重要),使用pip命令安裝

pip3 install lxml
若沒有報(bào)錯(cuò),則安裝成功,如果報(bào)錯(cuò)提示缺少libxml2 庫(kù),可以使用wheel文件進(jìn)行安裝 libxml2

  • pyOpenSSL
    需要在官網(wǎng)下載wheel文件 pyOpenssL
    下載后使用

pip3 install pyOpenSSL-17.2.0-py2.py3-none-any.whl

安裝即可

  • Twisted
    同理,需要在官網(wǎng)下載wheel文件 Twisted,但是有一件事,一定要記得在控制臺(tái)下輸入

python

查看你的電腦版本和python版本,然后在上面的地址中下載對(duì)應(yīng)的wheel文件


捕獲.JPG

然后使用命令安裝

pip3 install Twisted-17.5.0-cp36-cp36m-win_amd64.whl

  • PyWin32
    在官網(wǎng)下載對(duì)應(yīng)版本的安裝包雙擊安裝即可 pywin32

在依賴包全部安裝成功前提下安裝Scrapy框架,使用pip命令

pip3 install Scrapy

就證明 Scrapy 已經(jīng)安裝好了

二、Scrapy框架的簡(jiǎn)單使用

使用之前你要清楚這么一件事,Scrapy框架和你自己編寫的區(qū)別,我理解的區(qū)別就是沒什么區(qū)別,你編寫的爬蟲也是為了抓取數(shù)據(jù),框架也是為了抓取數(shù)據(jù),唯一有一定不同的就是,不管是我們現(xiàn)在所說(shuō)的Scrapy框架還是其他的爬蟲框架都是使爬蟲功能模塊話,把各種爬蟲需求分開來(lái),你只要使用你的項(xiàng)目所需要的模塊就夠了!
你還需要知道這么幾條常用的命令

創(chuàng)建項(xiàng)目:scrapy startproject xxx
進(jìn)入項(xiàng)目:cd xxx #進(jìn)入某個(gè)文件夾下
創(chuàng)建爬蟲:scrapy genspider xxx(爬蟲名) xxx.com (爬取域)
生成文件:scrapy crawl xxx -o xxx.json (生成某種類型的文件)
運(yùn)行爬蟲:scrapy crawl XXX
列出所有爬蟲:scrapy list
獲得配置信息:scrapy settings [options]

那么我們現(xiàn)在來(lái)說(shuō)說(shuō)Scrapy框架的基本使用也是一樣分為幾部分

1.scrapy startproject tutorial

我們來(lái)看看Scrapy項(xiàng)目下都有些什么

scrapy.cfg: 項(xiàng)目的配置文件
tutorial/: 該項(xiàng)目的python模塊。在此放入代碼(核心)
tutorial/items.py: 項(xiàng)目中的item文件.(這是創(chuàng)建容器的地方,爬取的信息分別放到不同容器里)
tutorial/pipelines.py: 項(xiàng)目中的pipelines文件.
tutorial/settings.py: 項(xiàng)目的設(shè)置文件.(我用到的設(shè)置一下基礎(chǔ)參數(shù),比如加個(gè)文件頭,設(shè)置一個(gè)編碼)
tutorial/spiders/: 放置spider代碼的目錄. (放爬蟲的地方)

容器(items)的定義,容器不一定是一開始全部都定義好的,可以跟隨項(xiàng)目的更新一點(diǎn)點(diǎn)向里面添加

import scrapy
class DmozItem(scrapy.Item): #創(chuàng)建一個(gè)類,繼承scrapy.item類,就是繼承人家寫好的容器
title = scrapy.Field() # 需要取哪些內(nèi)容,就創(chuàng)建哪些容器
link = scrapy.Field()
desc = scrapy.Field()

一個(gè)簡(jiǎn)單的爬蟲小例子

import scrapy
class DmozSpider(scrapy.Spider): # 繼承Spider類
    name = "dmoz" # 爬蟲的唯一標(biāo)識(shí),不能重復(fù),啟動(dòng)爬蟲的時(shí)候要用
    allowed_domains = ["dmoz.org"] # 限定域名,只爬取該域名下的網(wǎng)頁(yè)
    start_urls = [ # 開始爬取的鏈接
        "https://www.baidu.com/"
    ]
    def parse(self, response):
        filename = response.url.split("/")[-2] # 獲取url,用”/”分段,獲去倒數(shù)第二個(gè)字段
        with open(filename, 'a') as f:
            f.write(response.body) # 把訪問的得到的網(wǎng)頁(yè)源碼寫入文件

里面的parse方法,這個(gè)方法有兩個(gè)作用
1.負(fù)責(zé)解析start_url下載的Response 對(duì)象,根據(jù)item提取數(shù)據(jù)(解析item數(shù)據(jù)的前提是parse里全部requests請(qǐng)求都被加入了爬取隊(duì)列)
2.如果有新的url則加入爬取隊(duì)列,負(fù)責(zé)進(jìn)一步處理,URL的Request 對(duì)象
這兩點(diǎn)簡(jiǎn)單來(lái)說(shuō)就是編寫爬蟲的主要部分

那么爬蟲編寫完,我們需要啟動(dòng)爬蟲

cd XXX

進(jìn)入到你的文件夾下
輸入命令,啟動(dòng)爬蟲

scrapy crawl dmoz

那么啟動(dòng)爬蟲時(shí)發(fā)生了什么?
Scrapy為Spider的 start_urls 屬性中的每個(gè)url創(chuàng)建了Request 對(duì)象,并將 parse 方法作為回調(diào)函數(shù)(callback)賦值給了requests,而requests對(duì)象經(jīng)過(guò)調(diào)度器的調(diào)度,執(zhí)行生成response對(duì)象并送回給parse() 方法進(jìn)行解析,所以請(qǐng)求鏈接的改變是靠回調(diào)函數(shù)實(shí)現(xiàn)的。

yield scrapy.Request(self.url, callback=self.parse)

三、Scrapy框架的整體架構(gòu)和組成

先來(lái)上一張官方的Scrapy的架構(gòu)圖


953786-20160612162715136-1486217043.jpg

圖中綠色的是數(shù)據(jù)的流向
我們看到圖里有這么幾個(gè)東西,分別是
Spiders:爬蟲,定義了爬取的邏輯和網(wǎng)頁(yè)內(nèi)容的解析規(guī)則,主要負(fù)責(zé)解析響應(yīng)并生成結(jié)果和新的請(qǐng)求
Engine:引擎,處理整個(gè)系統(tǒng)的數(shù)據(jù)流處理,出發(fā)事物,框架的核心。
Scheduler:調(diào)度器,接受引擎發(fā)過(guò)來(lái)的請(qǐng)求,并將其加入隊(duì)列中,在引擎再次請(qǐng)求時(shí)將請(qǐng)求提供給引擎
Downloader:下載器,下載網(wǎng)頁(yè)內(nèi)容,并將下載內(nèi)容返回給spider
ItemPipeline:項(xiàng)目管道,負(fù)責(zé)處理spider從網(wǎng)頁(yè)中抽取的數(shù)據(jù),主要是負(fù)責(zé)清洗,驗(yàn)證和向數(shù)據(jù)庫(kù)中存儲(chǔ)數(shù)據(jù)
Downloader Middlewares:下載中間件,是處于Scrapy的Request和Requesponse之間的處理模塊
Spider Middlewares:spider中間件,位于引擎和spider之間的框架,主要處理spider輸入的響應(yīng)和輸出的結(jié)果及新的請(qǐng)求middlewares.py里實(shí)現(xiàn)


是不感覺東西很多,很亂,有點(diǎn)懵!沒關(guān)系,框架之所以是框架因?yàn)榇_實(shí)很簡(jiǎn)單
我們?cè)賮?lái)看下面的這張圖!你就懂了!


捕獲.JPG
  • 最后我們來(lái)順一下scrapy框架的整體執(zhí)行流程:

1.spider的yeild將request發(fā)送給engine
2.engine對(duì)request不做任何處理發(fā)送給scheduler
3.scheduler,生成request交給engine
4.engine拿到request,通過(guò)middleware發(fā)送給downloader
5.downloader在\獲取到response之后,又經(jīng)過(guò)middleware發(fā)送給engine
6.engine獲取到response之后,返回給spider,spider的parse()方法對(duì)獲取到的response進(jìn)行處理,解析出items或者requests
7.將解析出來(lái)的items或者requests發(fā)送給engine
8.engine獲取到items或者requests,將items發(fā)送給ItemPipeline,將requests發(fā)送給scheduler(ps,只有調(diào)度器中不存在request時(shí),程序才停止,及時(shí)請(qǐng)求失敗scrapy也會(huì)重新進(jìn)行請(qǐng)求)

四、Scrapy的中間件詳解

中間件詳解因?yàn)閷?shí)在太多了我整理成了x-mind思維導(dǎo)圖,需要安裝x-mind才能打開,并上傳了百度云盤,有需要的可以下載 Scrapy中間件詳解 提取碼:tq8v

五、后記

x-mind下載地址
Scrapy官方文檔

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • scrapy學(xué)習(xí)筆記(有示例版) 我的博客 scrapy學(xué)習(xí)筆記1.使用scrapy1.1創(chuàng)建工程1.2創(chuàng)建爬蟲模...
    陳思煜閱讀 13,107評(píng)論 4 46
  • 說(shuō)起寫爬蟲,大多數(shù)第一時(shí)間想到的就是python了。python語(yǔ)法簡(jiǎn)潔明了,加上及其豐富好用的庫(kù),用它來(lái)寫爬蟲有...
    瘋狂的哈丘閱讀 8,372評(píng)論 1 15
  • 文件目錄說(shuō)明: scrapy.cfg: 項(xiàng)目的配置文件 tutorial/: 該項(xiàng)目的python模塊。之后您將在...
    關(guān)鍵先生耶閱讀 655評(píng)論 0 0
  • 項(xiàng)目中有這樣一個(gè)需求,在某帖子里點(diǎn)擊某一條評(píng)論的時(shí)候,彈出對(duì)話框讓用戶選擇是刪除評(píng)論還是回復(fù)評(píng)論,當(dāng)用戶點(diǎn)擊回復(fù)評(píng)...
    SnowDragonYY閱讀 4,760評(píng)論 0 1
  • 數(shù)組和切片 創(chuàng)建切片跟創(chuàng)建數(shù)組唯一的區(qū)別在于 Type 前的“ [] ”中是否有數(shù)字,為空,則代表切片,否則則代表...
    江小石閱讀 225評(píng)論 0 0

友情鏈接更多精彩內(nèi)容