前言
-
1.什么是scrapy?為什么要用scrapy?
scrapy的官方解釋如下:Scrapy是一個為了爬取網(wǎng)站數(shù)據(jù),提取結(jié)構(gòu)性數(shù)據(jù)而編寫的應(yīng)用框架。 可以應(yīng)用在包括數(shù)據(jù)挖掘,信息處理或存儲歷史數(shù)據(jù)等一系列的程序中。
其次為什么要用scrapy呢?相信你能了解到scrapy那肯定也對python爬蟲有一些了解,基于個人的學(xué)習(xí)經(jīng)驗(yàn),我覺得之所以要用scrapy,是因?yàn)楫?dāng)我們在做大規(guī)模爬蟲的時候,我們會發(fā)現(xiàn)僅僅依靠beautifulsoup,requests等這些第三方爬蟲庫的時候會顯得非常吃力,往往難以實(shí)現(xiàn)難度稍高點(diǎn)的爬蟲項(xiàng)目,比如:爬蟲的迭代回調(diào),暫?;謴?fù),異常捕捉,反爬機(jī)制,多線程等都是我們在做一個具有一定數(shù)據(jù)規(guī)模的爬蟲時所需要考慮的因素。
-
2.哪些人適合學(xué)習(xí)scrapy,或者說適合閱讀本文?
本文適合對python以及爬蟲有一定了解最好是有一些簡單的實(shí)戰(zhàn)基礎(chǔ)的,換而言之scrapy屬于python爬蟲的進(jìn)階學(xué)習(xí),如果你還不具備相關(guān)的基礎(chǔ)知識,建議先去學(xué)習(xí)一些python基礎(chǔ)知識,能達(dá)到運(yùn)用beautifulsoup和requests熟練的爬取大部分頁面小規(guī)模的爬取。
-
3.本文關(guān)于scarpy的學(xué)習(xí)思路?以及亮點(diǎn)?
本文將圍繞目前本人對百度貼吧的爬蟲的項(xiàng)目,從最基本的scrapy實(shí)現(xiàn)到全網(wǎng)數(shù)據(jù)的實(shí)時抓取,本文的所有內(nèi)容將會圍繞此次爬蟲項(xiàng)目為中心,不斷的完善各個模塊,各種細(xì)節(jié)功能的實(shí)現(xiàn),希望能在自我成長學(xué)習(xí)的過程中也能給大家大家?guī)硪恍W(xué)習(xí)經(jīng)驗(yàn),避免走一些彎路。
本文的亮點(diǎn):scrapy官方文檔無疑是最好的學(xué)習(xí)資料,但是文檔中各個模塊的功能都獨(dú)立開來,并且列舉的demo往往都比較簡單常常無法滿足我們自身項(xiàng)目實(shí)戰(zhàn)的需要,因此本人希望本文也能給一些正在學(xué)習(xí)scrapy的同學(xué)提供一些參考。
正文
目錄
scrapy的安裝
- 現(xiàn)在的scrapy安裝相比之前版本時候的安裝已經(jīng)是方便了太多了,貌似是pip升級了吧,之前安裝scrapy這種高級庫需要自行下載很多依賴包,各種依賴關(guān)系傻傻分不清楚,好的是還沒折騰過的同學(xué)你們有福氣了,只需下面一條同python其他普通庫一樣的安裝命令即可自行加載各種依賴包。
pip install scrapy
- 要不要這爽,就是這么簡單,除次之外還有一個小坑需要注意:
Microsoft Visual C++ Compiler for Python 2.7
- 如果你是第一次安裝scrapy并且之前沒有安裝過這個微軟的插件則會報錯,根據(jù)錯誤提示去微軟官網(wǎng)下載對應(yīng)的安裝包,安裝成功之后再次pip install scrapy即可。