框架介紹
scrapy是一個自動支持網(wǎng)絡(luò)異步的框架,用于快速 高效的提取數(shù)據(jù)和處理數(shù)據(jù)

版本安裝

使用流程
終端輸入
scrapy startproject 項目名(項目名自己指定,不要用中文,數(shù)字開頭,建議英文或者拼音簡寫)

創(chuàng)建spider
1- 先進(jìn)入項目下 cd 項目名
2- scrapy genspider spider名字 域名
sprider內(nèi)容

運(yùn)行spider
scrapy crawl 爬蟲名
scrapy crawl httpbin
項目出現(xiàn)之后 在終端中可以看到一些框架的運(yùn)行日志,但是影響觀看

設(shè)置
是否遵守君子協(xié)議
ROBOTSTXT_OBEY = False
日志 報錯時才顯示 但是如果項目沒反應(yīng)可以打開 看看是否版本出現(xiàn)問題
LOG_LEVEL = 'ERROR'
UA
USER_AGENT = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36"
步驟為:scrapy startproject 項目名 ===>進(jìn)入項目 cd 項目名===> scrapy genspider spider名字 域名
然后找到spider 在里面寫爬蟲即可
數(shù)據(jù)存儲
數(shù)據(jù)存儲有兩種方式
1- 終端命令保存數(shù)據(jù)

2-基于管道保存數(shù)據(jù)
實現(xiàn)步驟



如果要把數(shù)據(jù)保存到文件中 那每次withopen會浪費(fèi)資源,所以只需要在爬蟲開始的時候,打開文件,爬蟲結(jié)束的時候關(guān)閉連接就可以了,所以scrapy框架還提供了兩個方法,自動在開始或者結(jié)束的時候執(zhí)行
