作者:黎智煊,叩丁狼教育高級(jí)講師。原創(chuàng)文章,轉(zhuǎn)載請(qǐng)注明出處。
目標(biāo):在智聯(lián)招聘上面爬取指定職位信息并且保存到redis數(shù)據(jù)庫(kù)當(dāng)中.
工具:python3.6,scrpay,scrapy-redis,redis
首先配置好本地python環(huán)境,具體是python2或者python3都可以.
使用pip或者anaconda安裝好scrapy和scrapy-redis模塊.
本文就使用scrapy-redis提供在github上面的官方例子,(適合懶惰癌晚期),scrapy-redis的github地址:https://github.com/rmax/scrapy-redis
使用git下載好代碼之后,我們就可以入手修改代碼.
記得先開(kāi)啟redis數(shù)據(jù)庫(kù).
修改源碼
-
找到items.py,然后增加以下代碼:
test1 然后去修改本來(lái)叫dmoz.py的這個(gè)文件,改成你自己想要的名字,或者不改也可以,我這里改成zhilianZhaopin.py,然后也可以添加代碼.
首先先獲取你提交請(qǐng)求后的url了.

test2

test3
- 然后獲取到的url地址,最后面的p顯然就是頁(yè)面數(shù)的意思,然后這個(gè)將作為爬蟲(chóng)開(kāi)始頁(yè)面.
- 然后就是分析想要提取的url地址的xpath格式.

test4
- 然后得到提取<每個(gè)職位詳細(xì)頁(yè)面的url地址>的xpath匹配值之后,我們就可以去分析每一個(gè)詳細(xì)頁(yè)需要提取相關(guān)信息項(xiàng)的xpath值

test5
- 然后大概就是這樣的流程,我們最終的部分效果是這樣的.

test6

test7
- 都寫(xiě)好之后,直接就在這個(gè)文件所在的文件夾,調(diào)用scrapy runspider zhilianZhaopin.py,
然后運(yùn)行以后,會(huì)看到相應(yīng)的提示.

test8
然后熟悉操作redis的童鞋就可以去redis查看保存到的數(shù)據(jù)咯.
ps:具體項(xiàng)目的源碼可以到github上面獲取,下載下來(lái),啟動(dòng)好redis數(shù)據(jù)庫(kù),直接運(yùn)行就可以爬取數(shù)據(jù)的了.
項(xiàng)目的github地址:https://github.com/headB/zhilianZhaopin

WechatIMG7.jpeg
