1.Scrapy爬蟲之靜態(tài)網(wǎng)頁爬取之二初識(shí)scrapy框架及幾種常見的爬取方式

1.scrapy框架講解:

1

downloader實(shí)際上是一個(gè)下載器,給一個(gè)網(wǎng)址發(fā)起請(qǐng)求,downloader就負(fù)責(zé)下載
從scheduler力需要爬取的網(wǎng)址丟給downloader。
spiders的作用是啥,我們爬數(shù)據(jù)時(shí)候頁面里面還有鏈接,返回我們需要繼續(xù)爬取的鏈接繼續(xù)爬。spiders把要的數(shù)據(jù)給pipline然后發(fā)現(xiàn)還有些需要的鏈接給scheduler,然后形成了一個(gè)循環(huán)。
我們要抓取大型的數(shù)據(jù),需要初始化一個(gè)項(xiàng)目,像淘寶這種大型網(wǎng)站,數(shù)據(jù)抓取,處理等等。但是平時(shí)我們需要抓取一些量不多的數(shù)據(jù),為了方便,我們只寫spider.py.
還有注意:有些是靜態(tài)網(wǎng)站,有些是動(dòng)態(tài)網(wǎng)站(js,ajax)配置downloadermiddlewares來完成
2.了解scrapy spider:
2.1先知道這個(gè)命令:
運(yùn)行蜘蛛的命令:scrapy runspider spider_test1.py
把運(yùn)行好的數(shù)據(jù)寫入文件命令:scrapy runspider spider_test1.py -o spider_test1.csv
scrapy runspider spider.py -o xxx.csv 運(yùn)行一個(gè)蜘蛛,再寫到csv文件中
2.2scrapy spider幾種爬取方式:
1.爬取1頁內(nèi)容
2.按照給定列表爬取多頁 給多個(gè)url,自己拼接,url用腳本生成好了,在一個(gè)列表里灌給蜘蛛
3."下一頁"類型
4.按照鏈接進(jìn)行爬取

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 本文希望達(dá)到以下目標(biāo): 簡要介紹Scarpy 閱讀官網(wǎng)入門文檔并實(shí)現(xiàn)文檔中的范例 使用Scarpy優(yōu)豆瓣爬蟲的抓取...
    Andrew_liu閱讀 82,364評(píng)論 30 177
  • 這兩天摸索了下scrapy,剛看文檔的時(shí)候覺得有點(diǎn)生無可戀,scrapy框架個(gè)人還是覺得比較難懂的,需要學(xué)習(xí)的地方...
    Treehl閱讀 5,843評(píng)論 7 10
  • 說起Python,我們或許自然而然的想到其在爬蟲方面的重大貢獻(xiàn)。Python的流行在于其語言的優(yōu)美以及良好的氛圍。...
    TrancyDeng閱讀 4,821評(píng)論 12 40
  • D市機(jī)場,吳浠看著這熟悉又陌生的城市,心中滿是激動(dòng)。七年了,在國外整整待了七年終于回來了,回到這個(gè)自己出生、長大的...
    lcat靈貓閱讀 464評(píng)論 0 0
  • 將課程視頻切分,反復(fù)學(xué)習(xí),加深理解,每一次學(xué)習(xí)都會(huì)發(fā)現(xiàn)之前有一些忽略掉的內(nèi)容,這讓我想起成人學(xué)習(xí)的721模型,只是...
    日更飄閱讀 183評(píng)論 0 0

友情鏈接更多精彩內(nèi)容