爬蟲練習(xí)—boss直聘數(shù)據(jù)相關(guān)崗位分析(二)

這是上一篇文章:爬蟲練習(xí)—boss直聘數(shù)據(jù)相關(guān)崗位分析(一)
上一篇我們講到如何獲取boss直聘網(wǎng)頁的招聘信息,通過爬蟲、解析、清洗將數(shù)據(jù)存儲為結(jié)構(gòu)化類型,保存為DataFrame形式。
數(shù)據(jù)框形式如下:

清洗后的數(shù)據(jù)框

下面我們就將對這些數(shù)據(jù)進行簡單的分析,以及可視化。本文使用的工具是python、以及python的pyecharts庫。


一:描述性統(tǒng)計

拿到數(shù)據(jù)的第一步,我們需要思考,我們需要從這批數(shù)據(jù)中獲得那些信息?在擁有11類屬性后,最簡單的就是描述性統(tǒng)計了。
1.這批數(shù)據(jù)中一共有多少條崗位信息?
2.有多少城市發(fā)布了數(shù)據(jù)相關(guān)的崗位?
3.該崗位對工作經(jīng)驗和學(xué)歷的需求是怎么樣的?
4.哪些行業(yè)對數(shù)據(jù)分析需求量最大,哪些行業(yè)需求量最小?
5.當(dāng)前市場的公司實力如何?(規(guī)模和階段)?
6.哪些公司發(fā)布的崗位最多?
7.數(shù)據(jù)相關(guān)崗位薪資情況如何.......
當(dāng)然,類似的問題不勝枚舉,而種類問題都屬于基礎(chǔ)的描述性統(tǒng)計,具體展開又可以涉及各個方面,多屬性的交互等,都可以從中挖掘出不少有趣的信息。
下面是數(shù)據(jù)處理的代碼:將其整理成更規(guī)整的數(shù)據(jù),以供更便捷的作圖。

import pandas as pd
import numpy as np
from pyecharts import Bar,Line,WordCloud,Overlap,Grid,Pie,Geo,Map
import collections
import math
'''
導(dǎo)入需要的庫,可視化選擇pyecharts,是echarts在python平臺的一個庫。可以直接安裝pip install pyecharts
Mac OS未出現(xiàn)什么問題,只是用pyecharts出的圖是html格式的,而不是靜態(tài)的圖片。
'''
#讀取清洗完的數(shù)據(jù),路徑自行更改
data = pd.read_csv('/Users/tony/Desktop/招聘崗位數(shù)據(jù)分析/dt_boss.csv')
#計算平均薪酬
a = (data.salary_low+data.salary_high)/2
data["salary_mean"] = a

#input:data,列名;output:前十type和未篩選type
def get_describe(data,item):
    mid = data[item]
    #統(tǒng)計列中元素出現(xiàn)次數(shù)
    mid2 = collections.Counter(mid)
    #排序
    mid2_sort = sorted(mid2.items(),key = lambda x:x[1],reverse = True)
    #把類別type加入其中
    mid2_list = [list(x) for x in mid2_sort]
    [x.extend([item]) for x in mid2_list]
    #type種類數(shù)量
    post_num = [len(mid2)]
    return post_num,mid2_list

#得到整理后的數(shù)據(jù)框
List = []
List2 = []
name = ['post',  'location', 'industry',  'company','experience','education','stage', 'scale','salary_mean']
for item in name :
    mid,mid2 = get_describe(data,item)
    #這句同下name_count作用一樣
    List.extend(mid)
    List2.append(mid2)
df = []
for x in List2:
    df.extend(x)
DF = pd.DataFrame(data=df,columns=["item","count","type"])
name_count = list(map(lambda x:len(x),List2))

得到的數(shù)據(jù)如下:

DF

post location industry company salary_mean
1294 136 80 2450 17k

對各屬性統(tǒng)計發(fā)現(xiàn),在20300條數(shù)據(jù)中,共發(fā)布1294個不同的崗位,包含全國136個城市,共涉及80個行業(yè),2450家公司,崗位平均薪資在17k。17k是真的優(yōu)秀,看來投身到這個行業(yè)是正確的選擇吶!,(計算薪酬包含了,高中低崗位、學(xué)歷、工作年薪所有信息的均值,emm這樣一看,工作5年左右的老司機也就勉強達標(biāo)而已,嘆氣。。。)

下面對以上數(shù)據(jù)進行可視化:

1.前十崗位排名以及其占到比例

前十崗位及其比例

跟數(shù)據(jù)相關(guān)的崗位多如牛毛,那么哪些崗位是市場需求量最大的呢?
就發(fā)布和數(shù)據(jù)相關(guān)的崗位信息來看,數(shù)據(jù)分析師、數(shù)據(jù)挖掘、數(shù)據(jù)挖掘工程師這三個崗位的需求量均遠(yuǎn)超平均水平,達到接近2k+的崗位需求,說明這幾個崗位的名稱較為統(tǒng)一,被市場所接受和傳播;而觀察排名前十的崗位可以發(fā)現(xiàn),數(shù)據(jù)分析、數(shù)據(jù)分析專員、數(shù)據(jù)分析工程師等等,其實都屬于數(shù)據(jù)分析師這一崗位,只是由于等級或者具體細(xì)分的領(lǐng)域不同而產(chǎn)生不同的名稱而已,除去前四個崗位,剩下的所有1290個崗位需求量均小于500,其中當(dāng)然也存在剛才提到的,隨著領(lǐng)域和職責(zé)的細(xì)分而衍生出的不同的崗位名稱;但總體來看,市場需求量最大的仍然是中級的數(shù)據(jù)分析師,或者數(shù)據(jù)挖掘崗位,這部分占了大頭,相對的較為低級的數(shù)據(jù)分析專員和高級的數(shù)據(jù)分析或者數(shù)據(jù)挖掘?qū)<抑惖?,則相對較少,這一現(xiàn)象非常符合正態(tài)分布規(guī)律。

2.不同城市崗位需求

靜態(tài)圖

崗位地理分布情況

對比不同城市對數(shù)據(jù)相關(guān)的崗位需求發(fā)現(xiàn):北京、上海、杭州、深圳遙遙領(lǐng)先于其他城市。北京作為獨角獸,政治中心和國際都市,其提供的就業(yè)機會遠(yuǎn)超全國其他城市;上海、深圳、廣州作為傳統(tǒng)的一線城市,崗位機會也在1k~3k之內(nèi),而杭州作為近年來發(fā)展勢頭強勁的新一線城市,在數(shù)據(jù)相關(guān)崗位的需求上居然反超深圳和廣州,這可能跟杭州未來的發(fā)展方向以及阿里等互聯(lián)網(wǎng)企業(yè)有著纖絲萬縷的聯(lián)系;除去這些第一梯隊的“超級城市”,對于普通的二線省會城市而言,崗位需求量就平均了許多,在前15個城市中,由于第一梯隊大佬的影響,硬生生拔高了該崗位需求量的基線,使得僅5個城市達標(biāo),高于均值,這一現(xiàn)象也側(cè)面反映了城市定位以及發(fā)展的不同。
此外,從地域上看,就業(yè)機會多集中在長三角和珠三角地區(qū),總結(jié)來說就是東部沿海地區(qū),中西部地區(qū)崗位發(fā)布數(shù)量明顯減少,青海和西藏基本不存在這類崗位。(太慘烈了!)(emm,離大國崛起中國夢還有很長一段距離吶~我就是想說發(fā)展不平衡,怎么著吧),可喜的是全國大部分地區(qū)都對這類崗位有需求,真的是熱門和朝陽崗位??!總結(jié)要想找這方面的工作,優(yōu)先考慮沿海地區(qū),所以說大城市就業(yè)機會多誠不欺我!

不同城市對數(shù)據(jù)分析崗位需求

3.相關(guān)崗位工作經(jīng)驗及學(xué)歷要求

數(shù)據(jù)相關(guān)的工作是隨著互聯(lián)網(wǎng)行業(yè)興起的較為新興的崗位,那么這些崗位的從業(yè)門檻又是如何的呢?

經(jīng)驗學(xué)歷要求

從結(jié)果來看,數(shù)據(jù)相關(guān)崗位有定的門檻,首先,對于經(jīng)驗缺乏的求職者(應(yīng)屆生/無經(jīng)驗、經(jīng)驗在一年以內(nèi)),市場反應(yīng)冷淡,崗位總量約占1/3;單獨來看,市場最中意的求職者還是有部分工作經(jīng)驗的1~5年的求職者,這部分工作者,有一定的工作能力和崗位及社會適應(yīng)能力,不僅僅是數(shù)據(jù)相關(guān)崗位表現(xiàn)出這類現(xiàn)象,其他崗位也多存在該現(xiàn)象;
對于求職者多學(xué)歷,市場的表現(xiàn)還是傾向選擇本科生,占61.09%,說明這類工作比較看重求職者的綜合能力,個人認(rèn)為,本科素質(zhì)教育下培養(yǎng)的學(xué)生,確實已經(jīng)幫企業(yè)或者社會篩選出一部分人了,而當(dāng)前社會工作不僅僅局限于本行業(yè)或者單一的技能,多學(xué)科多行業(yè)交叉已經(jīng)成為普遍現(xiàn)象,所以對從業(yè)者基本素質(zhì)的看重不無道理。值得慶幸和不幸的是,市場對于高學(xué)歷人才并沒有趨之若鶩,從碩博士的要求可以看到兩者僅占13.95%,同低學(xué)歷者比例相近。這種現(xiàn)象第一說明了這類職位并非高大上且高不可攀,需要有人做簡單的事,有人做攻堅的事,各司其職而已;同時也反映了該類型崗位現(xiàn)階段大學(xué)生的普遍程度較高,而碩博士遠(yuǎn)沒有達到爛大街的水平,這還是值得欣慰的,如果某一天當(dāng)碩博成為求職的標(biāo)配時,不知道是萬幸還是不幸。

4.數(shù)據(jù)相關(guān)崗位集中的行業(yè)和未涉足的行業(yè)

行業(yè)基本情況

俗話說男怕入錯行,就個人而言,本人屬于職場萌新,對行業(yè)一無所知,只能先崗位后行業(yè),等慢慢接觸了解以后再選擇大行業(yè)。那么相關(guān)崗位都屬于那些行業(yè)呢?
查看了對于數(shù)據(jù)相關(guān)崗位需求量前十和倒數(shù)前十的行業(yè),不難發(fā)現(xiàn)數(shù)據(jù)這類崗位都是互聯(lián)網(wǎng)和計算機的附庸,發(fā)布的崗位多來自于一下行業(yè):中互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)、計算機軟件、數(shù)據(jù)服務(wù)等等,值得意外的是在線教育和醫(yī)療健康行業(yè)能進前十,說明這兩個行業(yè)已經(jīng)接軌互聯(lián)網(wǎng),雖然崗位需求量在1k以下,但也表現(xiàn)出了一定的發(fā)展勢頭;反觀倒閉前十的行業(yè),(哼,他們是沒有前途的)不出意外,果然是屬于一些傳統(tǒng)的行業(yè),這就很有趣了,是積極融入擁抱這個世界呢,還是固步自封,繼續(xù)停滯不前呢?這也反映出一些現(xiàn)象,首先,這些行業(yè)轉(zhuǎn)型不是一蹴而就的,依托傳統(tǒng)的生產(chǎn)工作方式,“數(shù)據(jù)”對其而言確實是次要的,學(xué)術(shù)/科研、制藥、農(nóng)/林/牧/漁、珠寶等,一來自身未建立數(shù)據(jù)倉庫,不注重數(shù)據(jù)的獲得和積累,二來好像平時工作也用不到什么數(shù)據(jù)嘛,不過萬物皆有聯(lián)系,筆者是林學(xué)出身,對于林業(yè)有一定的認(rèn)識和理解,拿林業(yè)舉例,如何監(jiān)測全國范圍內(nèi)的森林資源,這一命題馬上就能和數(shù)據(jù)掛鉤,因為遙感數(shù)據(jù)是海量的,不光光是農(nóng)林行業(yè),其他行業(yè)也有類似的應(yīng)用場景。
嗯,偉大的無產(chǎn)革命作家魯迅曾經(jīng)說過:

“大數(shù)據(jù)是未來的趨勢,數(shù)據(jù)相關(guān)的崗位還是大有可為的!”呸,老子什么時候說過這些!

5.市面上的公司實力如何?

市場上公司魚龍混雜,那么大部分公司的現(xiàn)狀又如何呢?

公司提供的崗位

選取最需要數(shù)據(jù)相關(guān)崗位的公司前15名,不難發(fā)現(xiàn),都是大佬公司,騰訊,京東,滴滴出行占據(jù)了前三位,需求量都在250+左右;百度,今日頭條,阿里也緊隨其后,需求量也超過150+;不難發(fā)現(xiàn)這些全都是互聯(lián)網(wǎng)公司,他們的共同特點就是差不多是國民企業(yè)了。其用戶使用的產(chǎn)品每天都在產(chǎn)生巨大的數(shù)據(jù)量,也不難解釋,為什么這些公司對數(shù)據(jù)相關(guān)崗位的需求量如此之大了。
市面上的公司實力情況

而在如此多的公司之中,上市公司居然占了23.01%,分到接近1/5的蛋糕,與此呼應(yīng)的則是不需要融資的小公司,占22.23%;公司規(guī)模令人感到意外,有超過100人的公司居然占總數(shù)據(jù)的71.86%,這就意味著,只有達到一定規(guī)模的公司才需要專門的數(shù)據(jù)人才。

6.崗位薪酬待遇情況

說了那么多,終于來到了最重要的一個問題,數(shù)據(jù)相關(guān)的崗位薪酬如何呢?


薪酬情況

由于存在薪酬范圍,數(shù)據(jù)取的是一個崗位的平均薪資,就結(jié)果來看,這一職位待遇在15k以上的占比71.03%,卻也存在如同4-6k這類的底薪情況,考慮到之前提到的,個人薪酬水平受個人素質(zhì)(受教育程度,工作經(jīng)驗)決定,在未區(qū)分這類因素的前提下討論薪酬都是耍流氓。但是就該結(jié)果來看,該類型的崗位依然屬于高薪崗位,介于前文提到的,招聘著青睞對象是有1-5年左右工作經(jīng)歷的求職者,那么這個經(jīng)驗對應(yīng)這個薪酬,也屬于合理范圍。


在討論了一些數(shù)據(jù)相關(guān)崗位在當(dāng)前招聘市場的基本情況后,相信已經(jīng)對這一崗位的大致狀況有了一定了了解,那么下一篇文章,我就要從多維度,來解讀這些數(shù)據(jù)背后的含義了。
此外,仍需要獲取一定的崗位技能或者崗位職責(zé)等數(shù)據(jù),后續(xù)會繼續(xù)補充~
感謝看完全文的你,給你比心??!

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容