利用Python爬蟲抓取拉勾網(wǎng)職位信息

????? 最近到了找工作的季節(jié),利用之前學(xué)過的Python爬蟲的知識(shí)抓取拉勾網(wǎng)的招聘信息,順便檢驗(yàn)一下學(xué)習(xí)效果,并記錄一下

1.思路

首先,打開拉勾網(wǎng),我設(shè)置的是北京地區(qū)的數(shù)據(jù)分析的職位信息

接下來需要提取這些職位信息,直接通過查看網(wǎng)頁源碼無法獲取,因?yàn)槔淳W(wǎng)利用了異步加載技術(shù),需要借助chrome瀏覽器的小工具進(jìn)行分析,按F12即可打開,界面如下


搜索界面

點(diǎn)擊Nerwork進(jìn)入網(wǎng)絡(luò)分析界面,此時(shí)出現(xiàn)的是空白,刷新網(wǎng)頁之后,有某個(gè)請(qǐng)求發(fā)送到了服務(wù)器


找到的json

點(diǎn)開上面的json網(wǎng)頁之后可以看到有我們需要的信息,因此下一步進(jìn)行代碼部分。

2.代碼

代碼部分我采用的Scrapy框架編寫的爬蟲

首先,確定需要獲取的職位信息包括什么,這一部分在items.py中編寫


items.py

主要部分為爬蟲的編寫,由于時(shí)間有點(diǎn)緊張就不進(jìn)行詳細(xì)的分析了,代碼如下:


1


2


3

爬取結(jié)果保存到了excel中方便查看,數(shù)據(jù)寫入部分的代碼在pipelines.py中編寫如下,利用python中的openpyxl庫:


信息寫入
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容