項(xiàng)目簡(jiǎn)介
自學(xué)數(shù)據(jù)分析的相關(guān)技能有一段時(shí)間,到現(xiàn)在也算學(xué)到不少內(nèi)容,接下來(lái)打算慢慢找工作。在這之前打算將之前學(xué)的東西,練習(xí)一遍,慢慢增加熟悉度。本項(xiàng)主要打算復(fù)習(xí),urllib、numpy、pandas和matplotlib的幾個(gè)庫(kù)。
既然想要從事數(shù)據(jù)分析這個(gè)崗位,那自然首先需要對(duì)這個(gè)崗位有所了解。最直接、最真實(shí)的方式就是從企業(yè)那里獲得需求訊息,這樣才最能夠指導(dǎo)自己的學(xué)習(xí)方向和簡(jiǎn)歷準(zhǔn)備。本次項(xiàng)目即是要利用爬蟲(chóng)爬取拉勾網(wǎng)上數(shù)據(jù)分析這一崗位的信息,然后進(jìn)行一些探索和分析,以數(shù)據(jù)分析來(lái)了解‘?dāng)?shù)據(jù)分析’。
數(shù)據(jù)來(lái)源
本項(xiàng)目通過(guò)獲取拉勾網(wǎng)的1800個(gè)數(shù)據(jù)崗位的招聘信息,利用urllib模塊通過(guò)指定的URL抓取網(wǎng)頁(yè)內(nèi)容。之所以選擇拉勾網(wǎng)作為本項(xiàng)目的數(shù)據(jù)源,主要是因?yàn)橄鄬?duì)于其他招聘網(wǎng)站,拉勾網(wǎng)上的崗位信息非常完整、整潔,極少存在信息的缺漏,并且?guī)缀跛姓宫F(xiàn)出來(lái)的信息都是非常規(guī)范化的,極大的減少了前期數(shù)據(jù)清理和數(shù)據(jù)整理的工作。數(shù)據(jù)的具體采集方法在《Python urllib爬取拉勾網(wǎng)職位信息》中。
項(xiàng)目目的
項(xiàng)目主要是希望通過(guò)實(shí)際的數(shù)據(jù),來(lái)解答一些關(guān)于數(shù)據(jù)分析崗位方面的疑惑。具體來(lái)說(shuō),針對(duì)以下幾個(gè)問(wèn)題:
1.數(shù)據(jù)分析崗位的需求的地域性分布?
2.數(shù)據(jù)分析師主要集中在哪些行業(yè)?
3.整個(gè)群體中數(shù)據(jù)分析師的薪酬分布情況?
4.不同城市的數(shù)據(jù)分析師薪酬分布情況?
5.該崗位對(duì)工作經(jīng)驗(yàn)要求是怎樣的?
6.工作經(jīng)驗(yàn)對(duì)薪酬影響如何?
7.從用人單位的角度,數(shù)據(jù)分析師,需要哪些技能?
技術(shù)與工具
本項(xiàng)目主要分為兩大部分,第一部分是數(shù)據(jù)爬取,采用的是Python的urllib庫(kù)為基礎(chǔ),將采集的數(shù)據(jù)已csv格式保存,采用pandas庫(kù)的保存方法。第二部分是數(shù)據(jù)分析,以 Python 編程語(yǔ)言為基礎(chǔ)。數(shù)據(jù)分析部分主要使用 pandas 作為數(shù)據(jù)整理和統(tǒng)計(jì)分析的工具,matplotlib 用于圖形的可視化,seaborn 庫(kù)包用于圖形美化。
數(shù)據(jù)分析
一、地域性分布
在拉勾網(wǎng)上,全國(guó)有37個(gè)城市的企業(yè)有數(shù)據(jù)分析師的人才需求,其中將近一半需求產(chǎn)生在北京市,需求量全國(guó)第一。排在前5的分別是:北京、上海、深圳、杭州、廣州。
數(shù)據(jù)分析這一職業(yè)大量集中在北上廣深四大一線城市,以及杭州這個(gè)互聯(lián)網(wǎng)和電子商務(wù)企業(yè)的聚集地。北京市巨大的需求比重令我稍感意外,不過(guò),考慮到拉勾網(wǎng)是一個(gè)偏重互聯(lián)網(wǎng)相關(guān)行業(yè)的招聘平臺(tái),而我國(guó)大量互聯(lián)網(wǎng)企業(yè)在北京聚集,這個(gè)結(jié)果倒也算合理。

總而言之,可以得出一個(gè)清晰的結(jié)論:數(shù)據(jù)分析這一崗位,有大量的工作機(jī)會(huì)集中在北上廣深以及杭州,期待往這個(gè)方向發(fā)展的同學(xué)還是要到這些城市去多多嘗試。當(dāng)然,從另一個(gè)方面說(shuō),這些城市也都集中了大量的各行業(yè)人才,競(jìng)爭(zhēng)壓力想必也是很大的。
二、行業(yè)需求分布
在拉勾網(wǎng)上,主要有19個(gè)行業(yè)有數(shù)據(jù)分析師人才方面的需求,主要集中在移動(dòng)互聯(lián)網(wǎng)行業(yè)和金融行業(yè)。

數(shù)據(jù)收集和數(shù)據(jù)存儲(chǔ)技術(shù)的快速進(jìn)步,互聯(lián)網(wǎng)企業(yè)能夠積累大量的用戶數(shù)據(jù),因此會(huì)有大量的數(shù)據(jù)分析需求;金融行業(yè)一直存在數(shù)據(jù)分析的需求。數(shù)據(jù)分析崗位已經(jīng)逐漸向各行各業(yè)滲透,移動(dòng)互聯(lián)網(wǎng)、金融、數(shù)據(jù)服務(wù)等行業(yè),會(huì)存在大量的數(shù)據(jù)分析人才需求。
三、薪酬分布
3.1 總體薪酬分布
如同大多數(shù)其他工作一樣,數(shù)據(jù)分析師的薪酬也是一個(gè)右偏分布。

大多數(shù)人的收入集中在5k-30k每月,只有少數(shù)人能夠獲得更高的薪酬,但有極少數(shù)人薪酬極高,讓人充滿期待。需要說(shuō)明的是,拉勾網(wǎng)上的薪酬值是一個(gè)區(qū)間值,并且相互之間互有重疊,為了便于分析,我取區(qū)間的中值作為代表值進(jìn)行的分析。因此,實(shí)際的薪酬分布情況可能會(huì)比圖中的情況更好一些??偸怯腥四軌蚰玫叫匠甑纳舷?。
綜合來(lái)看,數(shù)據(jù)分析師的薪酬收入整體還是可觀的,從這方面說(shuō),選擇這個(gè)職業(yè)還是不錯(cuò)的。
3.2 不同城市薪酬分布
忽略掉那些人才需求量比較小的城市,我重點(diǎn)關(guān)注排名前六的城市。

從圖上看,這六大城市的薪酬分布情況總體來(lái)說(shuō)都比較集中,這和我們前面看到的全國(guó)的薪酬總體情況分布是一致的。北京市薪酬分布中位數(shù)大約在18k,居全國(guó)首位。其次是上海、深圳、杭州,約15k,之后是廣州和成都。
深圳會(huì)出現(xiàn)極少數(shù)人薪酬極高,給人不少驚喜。從待遇上看,數(shù)據(jù)分析師留在北京發(fā)展是個(gè)不錯(cuò)的選擇。
四、經(jīng)驗(yàn)需求分布
4.1 總體經(jīng)驗(yàn)需求分布
不出所料的,工作經(jīng)驗(yàn)的需求分布近似于正態(tài)分布。

工作1-3年經(jīng)驗(yàn)的熟手需求量最大,其次是3-5年工作經(jīng)驗(yàn)的資深分析師。工作經(jīng)驗(yàn)不足1年的新人,市場(chǎng)需求量比較少。另外,工作經(jīng)驗(yàn)要5-10年的需求量非常稀少,而10年以上的更是鳳毛麟角。
從這個(gè)分布我們大致可以猜測(cè)出:
數(shù)據(jù)分析是個(gè)年輕的職業(yè)方向,大量的工作經(jīng)驗(yàn)需求集中在5年以內(nèi);對(duì)于數(shù)據(jù)分析師來(lái)說(shuō),5年是個(gè)瓶頸期,如果在5年之內(nèi)沒(méi)有轉(zhuǎn)型或者質(zhì)的提升,大概以后的競(jìng)爭(zhēng)壓力會(huì)比較大。
4.2 不同經(jīng)驗(yàn)需求分布
毫無(wú)疑問(wèn)的,隨著經(jīng)驗(yàn)的提升,數(shù)據(jù)分析師的薪酬也在不斷提高。

五、職業(yè)技能關(guān)鍵詞
對(duì)關(guān)鍵詞按照200+職位需求出現(xiàn)的頻次進(jìn)行排序,去除無(wú)效的關(guān)鍵詞,選取頻次出現(xiàn)超過(guò)5次的關(guān)鍵詞。目前篩選的方式只是選取英文關(guān)鍵詞。

對(duì)于數(shù)據(jù)分析師這一崗位,企業(yè)需求頻率最高的技能并不是 Python 語(yǔ)言和R語(yǔ)言等如今非常時(shí)髦的數(shù)據(jù)分析語(yǔ)言,而是傳統(tǒng)的結(jié)構(gòu)化查詢語(yǔ)言SQL和表格神器Excel。這一點(diǎn)需要各位小伙伴注意,要想從事數(shù)據(jù)分析師崗位,SQL和Excel看起來(lái)是必備技能。
分析結(jié)論
通過(guò)上面的分析,我們可以得到的結(jié)論有這些:
1.數(shù)據(jù)分析這一崗位,有大量的工作機(jī)會(huì)集中在北上廣深以及杭州。
2.大多數(shù)據(jù)分析師的收入集中在5k-30k每月,只有少數(shù)人能夠獲得更高的薪酬,但有極少數(shù)人薪酬極高,讓人充滿期待。
3.從待遇上看,數(shù)據(jù)分析師留在北京發(fā)展是個(gè)不錯(cuò)的選擇,其次是深圳、上海、杭州。
4.數(shù)據(jù)分析是個(gè)年輕的職業(yè)方向,大量的工作經(jīng)驗(yàn)需求集中在5年內(nèi)。
5.對(duì)于數(shù)據(jù)分析師來(lái)說(shuō),5年似乎是個(gè)瓶頸期,如果在5年之內(nèi)沒(méi)有轉(zhuǎn)型或者質(zhì)的提升,大概以后的競(jìng)爭(zhēng)壓力會(huì)比較大。
6.隨著經(jīng)驗(yàn)的提升,數(shù)據(jù)分析師的薪酬也在不斷提高,10年以上工作經(jīng)驗(yàn)的人,能獲得相當(dāng)豐厚的薪酬。
7.數(shù)據(jù)分析師需求頻率排在前列的技能有:SQL,Excel, SAS,SPSS, Python, Hadoop和MySQL等,其中SQL和Excel簡(jiǎn)直可以說(shuō)是必備技能。