框架介紹

scrapy是一個自動支持網(wǎng)絡(luò)異步的框架，用于快速高效的提取數(shù)據(jù)和處理數(shù)據(jù)

image.png

版本安裝

image.png

使用流程

終端輸入
scrapy startproject 項目名(項目名自己指定，不要用中文，數(shù)字開頭，建議英文或者拼音簡寫)

image.png

創(chuàng)建spider

1- 先進(jìn)入項目下 cd 項目名
2- scrapy genspider spider名字域名

sprider內(nèi)容

image.png

運(yùn)行spider

scrapy crawl 爬蟲名
scrapy crawl httpbin
項目出現(xiàn)之后在終端中可以看到一些框架的運(yùn)行日志，但是影響觀看

image.png

設(shè)置

是否遵守君子協(xié)議
ROBOTSTXT_OBEY = False
日志報錯時才顯示但是如果項目沒反應(yīng)可以打開看看是否版本出現(xiàn)問題
LOG_LEVEL = 'ERROR'

UA

USER_AGENT = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36"
步驟為：scrapy startproject 項目名 ===>進(jìn)入項目 cd 項目名===> scrapy genspider spider名字域名
然后找到spider 在里面寫爬蟲即可

數(shù)據(jù)存儲

數(shù)據(jù)存儲有兩種方式

1- 終端命令保存數(shù)據(jù)

image.png

2-基于管道保存數(shù)據(jù)
實現(xiàn)步驟

image.png

如果要把數(shù)據(jù)保存到文件中那每次withopen會浪費(fèi)資源，所以只需要在爬蟲開始的時候，打開文件，爬蟲結(jié)束的時候關(guān)閉連接就可以了，所以scrapy框架還提供了兩個方法，自動在開始或者結(jié)束的時候執(zhí)行

image.png

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

scrapy基本使用與流程

scrapy基本使用與流程

框架介紹

版本安裝

使用流程

創(chuàng)建spider

sprider內(nèi)容

運(yùn)行spider

設(shè)置

UA

數(shù)據(jù)存儲

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

scrapy基本使用與流程

框架介紹

版本安裝

使用流程

創(chuàng)建spider

sprider內(nèi)容

運(yùn)行spider

設(shè)置

UA

數(shù)據(jù)存儲

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av