python_2_Scrapy_1


Scrapy官網(wǎng)

這只是個學(xué)習(xí)筆記,所以..不要奢求太多
僅僅只是記錄下作者的學(xué)習(xí)歷程,同時,
歡迎互相交流學(xué)習(xí)

step1 構(gòu)建環(huán)境

此處默認已經(jīng)構(gòu)建了pyenv和pyenv-virturlenv(不懂?看上一篇,python環(huán)境的構(gòu)建)。

  1. 創(chuàng)建項目目錄,把該目錄置為Python3.5.2的虛擬環(huán)境
  2. 在該虛擬環(huán)境下執(zhí)行

echo "export PATH=/usr/local/bin:/usr/local/sbin:$PATH" >> ~/.bashrc
source ~/.bashrc
pip install Scrapy

詳情見:https://doc.scrapy.org/en/latest/intro/install.html

  1. 此時已經(jīng)完成安裝Scrapy,然后初始化一個項目工程,在終端執(zhí)行:

scrapy start project tutorial

目錄內(nèi)會自動創(chuàng)建一個項目工程,結(jié)構(gòu)如下:

目錄結(jié)構(gòu).png

step2 Scrape shell命令

scrapy crawl [quotes]     #在tutorial目錄下運行爬蟲 [quotes]為爬蟲名字

scrapy shell ['http://quotes.toscrape.com/page/1/']     #scrapy分析目標(biāo)網(wǎng)址元素
分析目標(biāo)網(wǎng)址后,可使用如下命令獲取具體元素
>>> response.css('title::text').extract()
>>> response.xpath('//title/text()').extract_first()
使用詳見(https://doc.scrapy.org/en/latest/intro/tutorial.html#our-first-spider)

scrapy crawl [quotes] -o [quotes.json]      #簡單存儲指定爬蟲的數(shù)據(jù)(追加寫文件方式),多次存儲會損壞son格式,[quotes]為爬蟲名字,[quotes.json]為存儲文件
scrapy crawl [quotes] -o [quotes.jl]        #簡單存儲指定爬蟲的數(shù)據(jù)(追加寫文件方式),可多次存儲,[quotes]為爬蟲名字,[quotes.jl]為存儲文件,PS:.jl為json lines

scrapy crawl quotes -o quotes-humor.json -a tag=humor     #向start_requests方法傳遞參數(shù),可用作簡單篩選

step3 爬蟲示例

此處是按照官方示例所寫
代碼放在github

看~灰機~灰機灰過來了~灰機又灰過去了~
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容