儲(chǔ)存爬取到的數(shù)據(jù)

儲(chǔ)存數(shù)據(jù)最簡(jiǎn)單的方法是使用輸出Feed(輸出文件),命令行中使用以下的命令:

    scarpy crawl quotes -o quotes.json

這將會(huì)生成包含所有爬取項(xiàng)目名為quotes.json文件,以JSON格式序列化。
由于歷史因素,Scrapy應(yīng)用于給定的文件而不是覆蓋它的內(nèi)容。如果你在沒(méi)有事先移除生成的JSON文件下運(yùn)行此命令兩次,你將會(huì)得到一個(gè)損壞的JSON文件。

你也可以使用其他的格式數(shù)據(jù),比如說(shuō)JSON Lines

    scrapy crawl quotes -o qutoes.jl

JSON Lines格式是方便易用的,就像是流(stream)一樣,你可以簡(jiǎn)單地在其中添加記錄數(shù)據(jù)。

當(dāng)你運(yùn)行上面命令兩次,它不會(huì)有JSON格式文件的問(wèn)題。同時(shí),每一個(gè)記錄的數(shù)據(jù)都是單獨(dú)一行,你無(wú)需在內(nèi)存中配置任何東西即可加載大型文件,在命令行中有像JQ一類(lèi)的工具協(xié)助操作。

在小型項(xiàng)目中(像本教程)已經(jīng)是足夠使用了。然而如果你想在爬取到的項(xiàng)目中開(kāi)展更復(fù)雜的東西,你可以寫(xiě)一個(gè)Item Pipeline。當(dāng)爬蟲(chóng)項(xiàng)目被創(chuàng)建時(shí),已經(jīng)生成了一個(gè)Item Pipeline文件在tutorial/pipelines.py中。雖然你不需要實(shí)現(xiàn)任何的item pipelines,你不是想儲(chǔ)存爬取的項(xiàng)目,但是文件還是被創(chuàng)建了。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • scrapy學(xué)習(xí)筆記(有示例版) 我的博客 scrapy學(xué)習(xí)筆記1.使用scrapy1.1創(chuàng)建工程1.2創(chuàng)建爬蟲(chóng)模...
    陳思煜閱讀 13,109評(píng)論 4 46
  • Spring Cloud為開(kāi)發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見(jiàn)模式的工具(例如配置管理,服務(wù)發(fā)現(xiàn),斷路器,智...
    卡卡羅2017閱讀 136,694評(píng)論 19 139
  • 序言第1章 Scrapy介紹第2章 理解HTML和XPath第3章 爬蟲(chóng)基礎(chǔ) 第4章 從Scrapy到移動(dòng)應(yīng)用第5...
    SeanCheney閱讀 4,657評(píng)論 1 7
  • 我們需要愛(ài)和歸屬感 批評(píng)總是讓人情緒低落。寫(xiě)作群里一向不溫不火的點(diǎn)評(píng),...
    梅梅gogogo2016閱讀 1,023評(píng)論 3 3
  • 第二節(jié)、命運(yùn)是由什么決定的? 如果說(shuō): “性格決定命運(yùn)” “心態(tài)決定命運(yùn)” “習(xí)慣決定命運(yùn)” “情商決定命運(yùn)” “...
    易九天閱讀 1,419評(píng)論 0 51

友情鏈接更多精彩內(nèi)容