色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

登錄注冊(cè)寫(xiě)文章

使用scrapy-redis分布式爬蟲(chóng)去爬取指定信息

叩丁狼教育

使用scrapy-redis分布式爬蟲(chóng)去爬取指定信息

作者：黎智煊，叩丁狼教育高級(jí)講師。原創(chuàng)文章，轉(zhuǎn)載請(qǐng)注明出處。

目標(biāo):在智聯(lián)招聘上面爬取指定職位信息并且保存到redis數(shù)據(jù)庫(kù)當(dāng)中.

工具:python3.6,scrpay,scrapy-redis,redis

首先配置好本地python環(huán)境,具體是python2或者python3都可以.
使用pip或者anaconda安裝好scrapy和scrapy-redis模塊.
本文就使用scrapy-redis提供在github上面的官方例子,(適合懶惰癌晚期),scrapy-redis的github地址:https://github.com/rmax/scrapy-redis
使用git下載好代碼之后,我們就可以入手修改代碼.
記得先開(kāi)啟redis數(shù)據(jù)庫(kù).

修改源碼

找到items.py,然后增加以下代碼:

test1
然后去修改本來(lái)叫dmoz.py的這個(gè)文件,改成你自己想要的名字,或者不改也可以,我這里改成zhilianZhaopin.py,然后也可以添加代碼.

首先先獲取你提交請(qǐng)求后的url了.

test2

test3

然后獲取到的url地址,最后面的p顯然就是頁(yè)面數(shù)的意思,然后這個(gè)將作為爬蟲(chóng)開(kāi)始頁(yè)面.

start_urls="http://sou.zhaopin.com/jobs/searchresult.ashx?jl=%E5%B9%BF%E4%B8%9C&kw=java%E5%BC%80%E5%8F%91%E5%B7%A5%E7%A8%8B%E5%B8%88&sm=0&p=1"

然后就是分析想要提取的url地址的xpath格式.

test4

然后得到提取<每個(gè)職位詳細(xì)頁(yè)面的url地址>的xpath匹配值之后,我們就可以去分析每一個(gè)詳細(xì)頁(yè)需要提取相關(guān)信息項(xiàng)的xpath值

test5

然后大概就是這樣的流程,我們最終的部分效果是這樣的.

test6

test7

都寫(xiě)好之后,直接就在這個(gè)文件所在的文件夾,調(diào)用scrapy runspider zhilianZhaopin.py,

然后運(yùn)行以后,會(huì)看到相應(yīng)的提示.

test8

然后熟悉操作redis的童鞋就可以去redis查看保存到的數(shù)據(jù)咯.

ps:具體項(xiàng)目的源碼可以到github上面獲取,下載下來(lái),啟動(dòng)好redis數(shù)據(jù)庫(kù),直接運(yùn)行就可以爬取數(shù)據(jù)的了.

項(xiàng)目的github地址:https://github.com/headB/zhilianZhaopin

WechatIMG7.jpeg

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成，瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明：文章內(nèi)容（如有圖片或視頻亦包括在內(nèi)）由作者上傳并發(fā)布，文章內(nèi)容僅代表作者本人觀點(diǎn)，簡(jiǎn)書(shū)系信息發(fā)布平臺(tái)，僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

開(kāi)學(xué)小記
這個(gè)暑假跑去地鐵設(shè)計(jì)單位實(shí)習(xí)算是給自己一個(gè)鍛煉的機(jī)會(huì)，彈指揮間暑假結(jié)束又開(kāi)學(xué)。在今天回到學(xué)校在同學(xué)們的打鬧中突然發(fā)...
負(fù)零小子閱讀 286評(píng)論 0贊 0
你也能寫(xiě)這樣的圖文?免費(fèi)下載?你真正的了解嗎？上海宇飛來(lái)星河科技有限公司
企業(yè)簡(jiǎn)介 Enterprise brief introduction 宇飛來(lái)（YU FLY）是光電科技、互聯(lián)網(wǎng)產(chǎn)業(yè)...
顏繡閱讀 369評(píng)論 0贊 1

不來(lái)也不去
1933年9月，在天津《大公報(bào)》第一版上，孟小冬連登了三天啟事：“冬當(dāng)時(shí)年歲幼稚，世故不熟，一切皆聽(tīng)介紹人主持。名...
舊夢(mèng)失詞閱讀 614評(píng)論 0贊 2
雨庭花
魚(yú)有憶，月無(wú)心海棠落，清雨掩花幾時(shí)休，青絲染霜華似夢(mèng)非夢(mèng) 遇見(jiàn)他，像作了假依依流水，不舍芳瑕此去經(jīng)年遠(yuǎn)...
阿琴姑娘閱讀 926評(píng)論 20贊 94
2017-12-02
很小時(shí)候，我以為故鄉(xiāng)小城是一座極大的城市。從城市一端到另一端，在想象中是一段極為漫長(zhǎng)的跋涉。長(zhǎng)大后，我發(fā)現(xiàn)世界也...
l茶l小乖閱讀 172評(píng)論 0贊 0

友情鏈接更多精彩內(nèi)容

8贊9贊

贊賞

手機(jī)看全文

吕梁市| 南丰县| 天镇县| 蒙山县| 古丈县| 咸宁市| 施甸县| 蓝山县| 襄城县| 平山县| 育儿| 马龙县| 含山县| 牙克石市| 遵义县| 南宫市| 都安| 师宗县| 南城县| 称多县| 锦州市| 景泰县| 姚安县| 铅山县| 巴楚县| 南乐县| 郴州市| 泽库县| 大城县| 从化市| 自贡市| 时尚| 牙克石市| 丹阳市| 嫩江县| 宁津县| 通化市| 桃园市| 双流县| 景德镇市| 宁化县|