scrapy基本使用與流程

框架介紹

scrapy是一個自動支持網(wǎng)絡(luò)異步的框架,用于快速 高效的提取數(shù)據(jù)和處理數(shù)據(jù)


image.png

版本安裝

image.png

使用流程

終端輸入
scrapy startproject 項目名(項目名自己指定,不要用中文,數(shù)字開頭,建議英文或者拼音簡寫)


image.png

創(chuàng)建spider

1- 先進(jìn)入項目下 cd 項目名
2- scrapy genspider spider名字 域名

sprider內(nèi)容

image.png

運(yùn)行spider

scrapy crawl 爬蟲名
scrapy crawl httpbin
項目出現(xiàn)之后 在終端中可以看到一些框架的運(yùn)行日志,但是影響觀看


image.png

設(shè)置

是否遵守君子協(xié)議
ROBOTSTXT_OBEY = False
日志 報錯時才顯示 但是如果項目沒反應(yīng)可以打開 看看是否版本出現(xiàn)問題
LOG_LEVEL = 'ERROR'

UA

USER_AGENT = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36"
步驟為:scrapy startproject 項目名 ===>進(jìn)入項目 cd 項目名===> scrapy genspider spider名字 域名
然后找到spider 在里面寫爬蟲即可

數(shù)據(jù)存儲

數(shù)據(jù)存儲有兩種方式

1- 終端命令保存數(shù)據(jù)


image.png

2-基于管道保存數(shù)據(jù)
實現(xiàn)步驟


image.png

image.png

image.png

如果要把數(shù)據(jù)保存到文件中 那每次withopen會浪費(fèi)資源,所以只需要在爬蟲開始的時候,打開文件,爬蟲結(jié)束的時候關(guān)閉連接就可以了,所以scrapy框架還提供了兩個方法,自動在開始或者結(jié)束的時候執(zhí)行


image.png
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容