使用scrapy-redis分布式爬蟲(chóng)去爬取指定信息

作者:黎智煊,叩丁狼教育高級(jí)講師。原創(chuàng)文章,轉(zhuǎn)載請(qǐng)注明出處。

目標(biāo):在智聯(lián)招聘上面爬取指定職位信息并且保存到redis數(shù)據(jù)庫(kù)當(dāng)中.

工具:python3.6,scrpay,scrapy-redis,redis

  1. 首先配置好本地python環(huán)境,具體是python2或者python3都可以.

  2. 使用pip或者anaconda安裝好scrapy和scrapy-redis模塊.

  3. 本文就使用scrapy-redis提供在github上面的官方例子,(適合懶惰癌晚期),scrapy-redis的github地址:https://github.com/rmax/scrapy-redis

  4. 使用git下載好代碼之后,我們就可以入手修改代碼.

  5. 記得先開(kāi)啟redis數(shù)據(jù)庫(kù).

修改源碼

  1. 找到items.py,然后增加以下代碼:


    test1
  2. 然后去修改本來(lái)叫dmoz.py的這個(gè)文件,改成你自己想要的名字,或者不改也可以,我這里改成zhilianZhaopin.py,然后也可以添加代碼.

首先先獲取你提交請(qǐng)求后的url了.

test2
test3
  1. 然后獲取到的url地址,最后面的p顯然就是頁(yè)面數(shù)的意思,然后這個(gè)將作為爬蟲(chóng)開(kāi)始頁(yè)面.

start_urls="http://sou.zhaopin.com/jobs/searchresult.ashx?jl=%E5%B9%BF%E4%B8%9C&kw=java%E5%BC%80%E5%8F%91%E5%B7%A5%E7%A8%8B%E5%B8%88&sm=0&p=1"

  1. 然后就是分析想要提取的url地址的xpath格式.
test4
  1. 然后得到提取<每個(gè)職位詳細(xì)頁(yè)面的url地址>的xpath匹配值之后,我們就可以去分析每一個(gè)詳細(xì)頁(yè)需要提取相關(guān)信息項(xiàng)的xpath值
test5
  1. 然后大概就是這樣的流程,我們最終的部分效果是這樣的.
test6
test7
  1. 都寫(xiě)好之后,直接就在這個(gè)文件所在的文件夾,調(diào)用scrapy runspider zhilianZhaopin.py,

然后運(yùn)行以后,會(huì)看到相應(yīng)的提示.

test8

然后熟悉操作redis的童鞋就可以去redis查看保存到的數(shù)據(jù)咯.

ps:具體項(xiàng)目的源碼可以到github上面獲取,下載下來(lái),啟動(dòng)好redis數(shù)據(jù)庫(kù),直接運(yùn)行就可以爬取數(shù)據(jù)的了.

項(xiàng)目的github地址:https://github.com/headB/zhilianZhaopin

WechatIMG7.jpeg
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 這個(gè)暑假跑去地鐵設(shè)計(jì)單位實(shí)習(xí)算是給自己一個(gè)鍛煉的機(jī)會(huì),彈指揮間暑假結(jié)束又開(kāi)學(xué)。在今天回到學(xué)校在同學(xué)們的打鬧中突然發(fā)...
    負(fù)零小子閱讀 286評(píng)論 0 0
  • 企業(yè)簡(jiǎn)介 Enterprise brief introduction 宇飛來(lái)(YU FLY)是光電科技、互聯(lián)網(wǎng)產(chǎn)業(yè)...
    顏繡閱讀 369評(píng)論 0 1
  • 1933年9月,在天津《大公報(bào)》第一版上,孟小冬連登了三天啟事:“冬當(dāng)時(shí)年歲幼稚,世故不熟,一切皆聽(tīng)介紹人主持。名...
    舊夢(mèng)失詞閱讀 614評(píng)論 0 2
  • 魚(yú)有憶,月無(wú)心 海棠落,清雨掩花 幾時(shí)休,青絲染霜華 似夢(mèng)非夢(mèng) 遇見(jiàn)他,像作了假 依依流水,不舍芳瑕 此去經(jīng)年 遠(yuǎn)...
    阿琴姑娘閱讀 926評(píng)論 20 94
  • 很小時(shí)候,我以為故鄉(xiāng)小城是一座極大的城市。從城市一端到另一端,在想象中是一段極為漫長(zhǎng)的跋涉。 長(zhǎng)大后,我發(fā)現(xiàn)世界也...
    l茶l小乖閱讀 172評(píng)論 0 0

友情鏈接更多精彩內(nèi)容