
01 起
大數(shù)據(jù)行業(yè)持續(xù)升溫,越來越多的人才涌進(jìn)這個行業(yè)。
想知道這個行業(yè)需要什么樣的人才么?
大數(shù)據(jù)的問題就交給大數(shù)據(jù)去完成吧~~
我們按特定的職位名稱,爬取了拉勾網(wǎng)上成都地區(qū)所有大數(shù)據(jù)相關(guān)職位的招聘信息,并對這份數(shù)據(jù)做了多維度分析,得到了很多有價值的信息,構(gòu)成了一份大數(shù)據(jù)人才市場分析報告。
本文節(jié)選報告第四章內(nèi)容,對5類大數(shù)據(jù)相關(guān)職位的職位要求進(jìn)行文本分析,給出人才市場上對這5類職位的能力(ability)要求和技能(skill)要求,供大家餐參考。
一起來看看吧!
02 分析方法
原始數(shù)據(jù)經(jīng)標(biāo)準(zhǔn)化處理后,有11類職位,發(fā)布的職位數(shù)如下表所示, 我們選取職位數(shù)大于100的職位以及數(shù)據(jù)挖掘職位進(jìn)行分析。

在這里我還是要推薦下我自己建的大數(shù)據(jù)學(xué)習(xí)交流群:532+2181+47,群里都是學(xué)大數(shù)據(jù)開發(fā)的,如果你正在學(xué)習(xí)大數(shù)據(jù) ,小編歡迎你加入,大家都是軟件開發(fā)黨,不定期分享干貨(只有大數(shù)據(jù)開發(fā)相關(guān)的),包括我自己整理的一份2018最新的大數(shù)據(jù)進(jìn)階資料和高級開發(fā)教程,歡迎進(jìn)階中和進(jìn)想深入大數(shù)據(jù)的小伙伴。
數(shù)據(jù)處理流程如下,主要利用python的jieba分詞:
加載自定義詞典(提取各類職位的職位描述關(guān)鍵詞n,v詞性TOP100,人工篩選(組合、刪除詞語)生成一個詞典)
利用dict(zip())和原始數(shù)據(jù),生成{職位:職位描述}字典
利用dictionary.get(key,None)將相同的key對應(yīng)的value字符串聯(lián)結(jié)
利用jieba.analyse.extracr()提取各類職位的職位描述長文本的名詞、動詞高頻詞,作為該職位的能力相關(guān)要求
利用jieba.posseg.cut()以及flag詞性篩選和dictionary.get(key,0)對字母單詞計數(shù),并降序排列,作為該職位的技能相關(guān)要求
一波操作之后,我們得到算法工程師、數(shù)據(jù)挖掘、數(shù)據(jù)分析師、Java工程師、前端工程師這五類職位的能力要求。
03 職位能力需求分析
3.1 算法攻城獅

算法工程師能力要求(左圖)主要集中在模型、數(shù)學(xué)、編程等偏理論性的能力上;技能要求(右圖)主要集中在Matlab、Hadoop、Java、Python等偏數(shù)學(xué)統(tǒng)計、數(shù)據(jù)庫、建模等方面的軟件或語言上。
3.2 數(shù)據(jù)挖掘工

數(shù)據(jù)挖掘能力要求主要集中在建模、聚類、分類、統(tǒng)計、回歸、文本處理、標(biāo)簽等偏實(shí)際應(yīng)用的方面;技能要求主要集中在Python、SQL、SAS等偏挖掘、統(tǒng)計的工具上,對于Hadoop等數(shù)據(jù)庫相關(guān)的技能要求沒有算法工程師那么多。
3.3 數(shù)據(jù)分析獅

數(shù)據(jù)分析師能力要求主要集中在行業(yè)分析、報表統(tǒng)計、報告專項(xiàng)等方面,要求具有較高的業(yè)務(wù)思維和對行業(yè)的深刻理解;技能要求主要集中在Excel、SQL、PPT等偏展示性的工具上,對于python等技能的要求沒有數(shù)據(jù)挖掘多。
3.4 Java攻城獅

Java工程師能力要求主要集中在編程、架構(gòu)設(shè)計、數(shù)據(jù)庫、分布式等方面;技能要求主要集中在Java、Spring、Linux、Oracle、HTML等方面,更加偏向于底層語言。
3.5 前端攻城獅

前端能力要求主要集中在可視化、網(wǎng)頁、瀏覽器、工程化等方面;技能要求主要集中在CSS、Web、UI、HTML、Javascript等方面,與Java工程師的技能要求差異明顯。
04 總結(jié)
以上分析僅分析了幾個發(fā)布職位數(shù)較多的崗位,對其職位要求的長文本進(jìn)行了分析,給出了各崗位的能力要求和技能要求,作為求職者或是招聘方的參考,也可以繼續(xù)進(jìn)行時序分析(需要不同時間點(diǎn)的數(shù)據(jù)),從而洞察各類崗位人才能力需求的變動情況。
比如可以檢測數(shù)據(jù)挖掘的技術(shù)動向,如出現(xiàn)越來越多的NLP(自然語言處理)相關(guān)的職位要求。
以上分析較為粗淺,僅供大家參考~
對了,基于本次成都地區(qū)拉勾網(wǎng)的招聘數(shù)據(jù),我還做了一個人才價格計算器,
人才價格計算器
輸入你的求職職位、求職公司規(guī)模、你的工作年限、學(xué)歷等信息,就可以估算你在成都地區(qū)的市場均價
更多編程方面的分享請關(guān)注微信公眾號:程序員大牛。