想要從事數(shù)據(jù)分析師這個(gè)崗位,那自然首先需要對(duì)這個(gè)崗位有所了解。最直接、最真實(shí)的方式就是從企業(yè)那里獲得需求訊息,這樣才最能夠指導(dǎo)自己的學(xué)習(xí)方向和簡(jiǎn)歷準(zhǔn)備??贫啻髷?shù)據(jù)作為大數(shù)據(jù)行業(yè)的專(zhuān)業(yè)人才培養(yǎng)公司,必須拿到第一手企業(yè)的用人信息和用人需求,長(zhǎng)期合作模式的聯(lián)盟單位了解方式是沒(méi)問(wèn)題的,當(dāng)然用公司最擅長(zhǎng)的大數(shù)據(jù)分析技術(shù),利用爬蟲(chóng)爬取拉勾網(wǎng)上數(shù)據(jù)分析這一崗位的信息,然后進(jìn)行一些探索和分析,以數(shù)據(jù)分析來(lái)了解‘?dāng)?shù)據(jù)分析’。
數(shù)據(jù)來(lái)源
本項(xiàng)目所使用的數(shù)據(jù)集全部來(lái)自拉勾網(wǎng),是通過(guò)集搜客這一網(wǎng)絡(luò)爬蟲(chóng)工具來(lái)爬取的。之所以選擇拉勾網(wǎng)作為本項(xiàng)目的數(shù)據(jù)源,主要是因?yàn)橄鄬?duì)于其他招聘網(wǎng)站,拉鉤網(wǎng)上的崗位信息非常完整、整潔,極少存在信息的缺漏。并且?guī)缀跛姓宫F(xiàn)出來(lái)的信息都是非常規(guī)范化的,極大的減少了前期數(shù)據(jù)清理和數(shù)據(jù)整理的工作量。
本次爬取信息的時(shí)候,主要獲得了以下信息:

項(xiàng)目目的
主要是希望通過(guò)實(shí)際的數(shù)據(jù)來(lái)解答針對(duì)數(shù)據(jù)分析崗位的一些疑惑,具體來(lái)說(shuō),主要針對(duì)以下幾個(gè)問(wèn)題:
- 數(shù)據(jù)分析師崗位需求的地域性分布;
- 整個(gè)群體中薪酬分布的情況;
- 不同城市數(shù)據(jù)分析師的薪酬情況是怎樣的;
- 該崗位對(duì)于工作經(jīng)驗(yàn)的要求是怎樣的;
- 根據(jù)工作經(jīng)驗(yàn)的不同,薪酬是怎樣變化的;
- 從用人單位的角度看,數(shù)據(jù)分析師應(yīng)當(dāng)具備哪些技能?
- 掌握不同技能是否會(huì)對(duì)薪酬有影響?影響是怎樣的?
技術(shù)和工具
本項(xiàng)目主要分為兩大部分,第一部分是數(shù)據(jù)爬取,采用的是集搜客網(wǎng)絡(luò)爬蟲(chóng)工具。第二部分是數(shù)據(jù)分析,以python編程語(yǔ)言為基礎(chǔ)。數(shù)據(jù)分析部分主要使用pandas作為數(shù)據(jù)整理和統(tǒng)計(jì)分析的工具,matplotlib用于圖形的可視化,seaborn庫(kù)包用于圖形美化。在進(jìn)行技能需求分析的時(shí)候,使用了jieba作為分詞工具包,并使用wordcloud包制作詞云。
數(shù)據(jù)整理
加載和清理



可以看到,經(jīng)過(guò)初步清理后,數(shù)據(jù)集中有效變量為13個(gè),數(shù)據(jù)記錄575條。除了投資人這一項(xiàng)之外,其他各字段的數(shù)據(jù)完整度非常好,幾乎沒(méi)有缺失值。這對(duì)于后面的分析來(lái)說(shuō)是個(gè)大大的好消息。
數(shù)據(jù)分析
地域性分布


在拉勾網(wǎng)上,全國(guó)有29個(gè)城市的企業(yè)郵數(shù)據(jù)分析師的人才需求,其中將近一半需求產(chǎn)生在北京市,需求量全國(guó)第一。排在前5的分別是:北京、上海、深圳、杭州、廣州。數(shù)據(jù)分析這一職業(yè)大量集中在北上廣深四大一線城市,以及杭州這個(gè)互聯(lián)網(wǎng)和電子商務(wù)企業(yè)的聚集地。北京市巨大的需求比重令我稍感意外,不過(guò),考慮到拉勾網(wǎng)是一個(gè)偏重互聯(lián)網(wǎng)相關(guān)行業(yè)的招聘平臺(tái),而我國(guó)大量互聯(lián)網(wǎng)企業(yè)在北京聚集,這個(gè)結(jié)果倒也算合理。以后有時(shí)間,可以對(duì)全國(guó)互聯(lián)網(wǎng)行業(yè)分布特點(diǎn)做個(gè)分析。
總而言之,可以得出一個(gè)清晰的結(jié)論:數(shù)據(jù)分析這一崗位,有大量的工作機(jī)會(huì)集中在北上廣深以及杭州,期待往這個(gè)方向發(fā)展的同學(xué)還是要到這些城市去多多嘗試。當(dāng)然,從另一個(gè)方面說(shuō),這些城市也都集中了大量的各行業(yè)人才,競(jìng)爭(zhēng)壓力想必也是很大的。
總體薪酬情況


如同大多數(shù)其他工作一樣,數(shù)據(jù)分析師的薪酬也是一個(gè)右偏分布。大多數(shù)人的收入集中在5k-20k每月,只有少數(shù)人能夠獲得更高的薪酬,但有極少數(shù)人薪酬極高,讓人充滿期待。需要說(shuō)明的是,拉勾網(wǎng)上的薪酬值是一個(gè)區(qū)間值,并且相互之間互有重疊,為了便于分析,我取區(qū)間的中值作為代表值進(jìn)行的分析。因此,實(shí)際的薪酬分布情況可能會(huì)比圖中的情況更好一些。總是有人能夠拿到薪酬的上限。綜合來(lái)看,數(shù)據(jù)分析師的薪酬收入整體還是可觀的,從這方面說(shuō),選擇這個(gè)職業(yè)還是不錯(cuò)的。
不同城市薪酬分布情況

忽略掉那些人才需求量比較小的城市,我重點(diǎn)關(guān)注排名前六的城市。從圖上看,這六大城市的薪酬分布情況總體來(lái)說(shuō)都比較集中,這和我們前面看到的全國(guó)的薪酬總體情況分布是一致的。深圳市薪酬分布中位數(shù)大約在15k,居全國(guó)首位。其次是北京,約12.5k,之后是上海和杭州。深圳確實(shí)是個(gè)創(chuàng)造奇跡的城市,在這里也給了我一個(gè)小小的驚喜。從待遇上看,數(shù)據(jù)分析師留在深圳發(fā)展是個(gè)不錯(cuò)的選擇。
工作經(jīng)驗(yàn)需求


不出所料的,工作經(jīng)驗(yàn)的需求分布近似于正態(tài)分布。工作1-3年經(jīng)驗(yàn)的熟手需求量最大,其次是3-5年工作經(jīng)驗(yàn)的資深分析師。工作經(jīng)驗(yàn)不足1年的新人,市場(chǎng)需求量比較少。另外,工作經(jīng)驗(yàn)要5-10年的需求量非常稀少,而10年以上的更是鳳毛麟角。
從這個(gè)分布我們大致可以猜測(cè)出:
數(shù)據(jù)分析是個(gè)年輕的職業(yè)方向,大量的工作經(jīng)驗(yàn)需求集中在1-3年;對(duì)于數(shù)據(jù)分析師來(lái)說(shuō),5年是個(gè)瓶頸期,如果在5年之內(nèi)沒(méi)有轉(zhuǎn)型或者質(zhì)的提升,大概以后的競(jìng)爭(zhēng)壓力會(huì)比較大。
不同工作經(jīng)驗(yàn)的薪酬分布


毫無(wú)疑問(wèn)的,隨著經(jīng)驗(yàn)的提升,數(shù)據(jù)分析師的薪酬也在不斷提高。另外,從現(xiàn)有數(shù)據(jù)來(lái)看,數(shù)據(jù)分析師似乎是個(gè)常青的職業(yè)方向,在10年內(nèi)大概不會(huì)因?yàn)槟挲g的增長(zhǎng)導(dǎo)致收入下降。
職業(yè)技能關(guān)鍵詞



詞云顯示出的情況,有點(diǎn)超出了我的預(yù)料。對(duì)于數(shù)據(jù)分析師這一崗位,企業(yè)需求頻率最高的技能并不是Python語(yǔ)言和R語(yǔ)言等如今非常時(shí)髦的數(shù)據(jù)分析語(yǔ)言,而是傳統(tǒng)的結(jié)構(gòu)化查詢(xún)語(yǔ)言SQL和表格神器Excel。這一點(diǎn)需要各位小伙伴注意,要想從事數(shù)據(jù)分析師崗位,SQL和Excel看起來(lái)是必備技能。 從詞云上看出,數(shù)據(jù)分析師技能需求頻率排在前列的有:SQL,Excel, SAS,SPSS, Python, Hadoop和MySQL等。另外,Java, PPT, BI軟件等屬于第二梯隊(duì)。
掌握不同技能對(duì)薪酬收入的影響



我對(duì)需求頻率最高的前15個(gè)技能進(jìn)行統(tǒng)計(jì)計(jì)算,得出每一個(gè)技能對(duì)應(yīng)的平均薪酬水平,如上圖。點(diǎn)的大小代表該技能需求量的多少。
在前15項(xiàng)技能中,shell,Hive, Spark這三者的平均薪酬水平最高,并且相對(duì)其他技能來(lái)說(shuō)有比較大的差異。對(duì)數(shù)據(jù)分析師工作有所了解的人應(yīng)該都知道,這三個(gè)工具中,Hive和Spark都是應(yīng)用于分布式數(shù)據(jù)處理,而shell腳本則是Linux系統(tǒng)下工作的必須技能。這三者共同指向了一個(gè)方向,那就是海量數(shù)據(jù)的分布式處理!
所以,想要拿高薪的小伙伴注意了,海量數(shù)據(jù)處理、分布式處理框架是走向高薪的正確方向。另外值得注意的是,在數(shù)據(jù)分析領(lǐng)域,Python語(yǔ)言的平均薪酬水平要高于目前如日中天的Java語(yǔ)言。而SQL語(yǔ)言和傳統(tǒng)的SAS,SPSS兩大數(shù)據(jù)分析軟件,則能夠讓你在保證中等收入的條件下,能夠適應(yīng)更多企業(yè)的要求,也就意味著更多的工作機(jī)會(huì)。
分析結(jié)論
通過(guò)上面的分析,我們可以得到的結(jié)論有這些:數(shù)據(jù)分析這一崗位,有大量的工作機(jī)會(huì)集中在北上廣深以及杭州。大多數(shù)據(jù)分析師的收入集中在5k-20k每月,只有少數(shù)人能夠獲得更高的薪酬,但有極少數(shù)人薪酬極高,讓人充滿期待。
從待遇上看,數(shù)據(jù)分析師留在深圳發(fā)展是個(gè)不錯(cuò)的選擇,其次是北京、上海。數(shù)據(jù)分析是個(gè)年輕的職業(yè)方向,大量的工作經(jīng)驗(yàn)需求集中在1-3年。
對(duì)于數(shù)據(jù)分析師來(lái)說(shuō),5年似乎是個(gè)瓶頸期,如果在5年之內(nèi)沒(méi)有轉(zhuǎn)型或者質(zhì)的提升,大概以后的競(jìng)爭(zhēng)壓力會(huì)比較大。 隨著經(jīng)驗(yàn)的提升,數(shù)據(jù)分析師的薪酬也在不斷提高,10年以上工作經(jīng)驗(yàn)的人,能獲得相當(dāng)豐厚的薪酬。
數(shù)據(jù)分析師需求頻率排在前列的技能有:SQL,Excel, SAS,SPSS, Python, Hadoop和MySQL等,其中SQL和Excel簡(jiǎn)直可以說(shuō)是必備技能。 海量數(shù)據(jù)、分布式處理框架是走向高薪的正確方向。 SQL語(yǔ)言和傳統(tǒng)的SAS,SPSS兩大數(shù)據(jù)分析軟件,能夠讓你在保證中等收入的條件下,能夠適應(yīng)更多企業(yè)的要求,也就意味著更多的工作機(jī)會(huì)。
思考和總結(jié)
對(duì)于數(shù)據(jù)分析師技能的分析是比較簡(jiǎn)陋的,在本次分析過(guò)程中,僅針對(duì)工具型的技能進(jìn)行了分析。但其實(shí),數(shù)據(jù)分析師所需要具備的素質(zhì)遠(yuǎn)不止這些,還需要有扎實(shí)的數(shù)學(xué)、統(tǒng)計(jì)學(xué)基礎(chǔ),良好的數(shù)據(jù)敏感度,開(kāi)拓但嚴(yán)謹(jǐn)?shù)乃季S等。如果要對(duì)這些內(nèi)容進(jìn)行深入挖掘的話,應(yīng)該會(huì)更加有趣。不過(guò),要進(jìn)行這項(xiàng)內(nèi)容的話,需要掌握大量中文分詞、關(guān)鍵字提取等方面的知識(shí)和技能,難度也會(huì)更高。時(shí)間所限,在這里不再進(jìn)一步展開(kāi)了,希望以后有時(shí)間再做一個(gè)專(zhuān)項(xiàng)分析吧。讓人忍不住吐槽的是,Python2.X環(huán)境對(duì)中文編碼的支持著實(shí)不夠好,在處理數(shù)據(jù)的時(shí)候消耗了大量的時(shí)間和精力,也犯了不少錯(cuò),走了很多彎路。以后這一塊的內(nèi)容要找時(shí)間專(zhuān)門(mén)攻堅(jiān)一下,也可以考慮換到python3平臺(tái)去。
特別說(shuō)明:本次數(shù)據(jù)源完全來(lái)自拉勾網(wǎng),但拉勾網(wǎng)本身是專(zhuān)注于互聯(lián)網(wǎng)相關(guān)行業(yè)的招聘平臺(tái),所以本次分析出的結(jié)論更加適用于互聯(lián)網(wǎng)行業(yè)的相關(guān)企業(yè),對(duì)于其他行業(yè)的企業(yè),未必合適。
科多大數(shù)據(jù)依托勤智數(shù)碼在大數(shù)據(jù)行業(yè)的技術(shù)積淀,旨在大數(shù)據(jù)行業(yè)的技術(shù)傳播,為業(yè)內(nèi)培養(yǎng)出以就業(yè)崗位為結(jié)果的定制培養(yǎng),希望以上分析對(duì)大家有所幫助。
http://www.101test.com/cand/index?paperId=IPBAKU