????? 最近到了找工作的季節(jié),利用之前學(xué)過的Python爬蟲的知識(shí)抓取拉勾網(wǎng)的招聘信息,順便檢驗(yàn)一下學(xué)習(xí)效果,并記錄一下
1.思路
首先,打開拉勾網(wǎng),我設(shè)置的是北京地區(qū)的數(shù)據(jù)分析的職位信息
接下來需要提取這些職位信息,直接通過查看網(wǎng)頁源碼無法獲取,因?yàn)槔淳W(wǎng)利用了異步加載技術(shù),需要借助chrome瀏覽器的小工具進(jìn)行分析,按F12即可打開,界面如下

搜索界面
點(diǎn)擊Nerwork進(jìn)入網(wǎng)絡(luò)分析界面,此時(shí)出現(xiàn)的是空白,刷新網(wǎng)頁之后,有某個(gè)請(qǐng)求發(fā)送到了服務(wù)器

找到的json
點(diǎn)開上面的json網(wǎng)頁之后可以看到有我們需要的信息,因此下一步進(jìn)行代碼部分。
2.代碼
代碼部分我采用的Scrapy框架編寫的爬蟲
首先,確定需要獲取的職位信息包括什么,這一部分在items.py中編寫

items.py
主要部分為爬蟲的編寫,由于時(shí)間有點(diǎn)緊張就不進(jìn)行詳細(xì)的分析了,代碼如下:

1

2

3
爬取結(jié)果保存到了excel中方便查看,數(shù)據(jù)寫入部分的代碼在pipelines.py中編寫如下,利用python中的openpyxl庫:

信息寫入