【呆鳥譯Py】2019 年,數(shù)據(jù)分析師怎樣才能更搶手?

原文作者:Andrew Ste
原文鏈接:How to Become More Marketable as a Data Scientist

這個(gè)題目有些莫名其妙,2019年,隨著數(shù)據(jù)科學(xué)對(duì)業(yè)界的影響越來(lái)越大,數(shù)據(jù)分析師的市場(chǎng)需求蹭蹭上漲,作為數(shù)據(jù)分析師的你,在市場(chǎng)上已經(jīng)很搶手了。撰寫本文的時(shí)候,光 LinkedIn 上有關(guān)數(shù)據(jù)科學(xué)的崗位需求就已經(jīng)超過(guò) 14 萬(wàn)個(gè)了。

不過(guò),把握業(yè)界的脈搏,關(guān)注最快、最有效的數(shù)據(jù)科學(xué)解決方案,仍會(huì)對(duì)大家有所幫助,為此,我們的數(shù)據(jù)驅(qū)動(dòng)團(tuán)隊(duì),CV Compiler,分析了數(shù)據(jù)科學(xué)市場(chǎng)職位空缺,界定了 2019 年的數(shù)據(jù)科學(xué)招聘趨勢(shì)。

2019 年最火爆的數(shù)據(jù)科學(xué)技能

下圖展示了 2019 年雇主對(duì)數(shù)據(jù)科學(xué)工程師的技能要求:

數(shù)據(jù)科學(xué)家所需的技能

本圖數(shù)據(jù)引自 Stack Overflow、AngelList 等網(wǎng)站上列出的 300 個(gè)數(shù)據(jù)科學(xué)職位空缺。其中一些職位需求里的關(guān)鍵字有重復(fù)。

注:請(qǐng)大家注意,本次調(diào)研是從雇主角度出發(fā)的,而非從數(shù)據(jù)科學(xué)工程師的角度。

關(guān)鍵點(diǎn)與數(shù)據(jù)科學(xué)趨勢(shì)

數(shù)據(jù)科學(xué)雖然對(duì)業(yè)務(wù)知識(shí)極其重視,但有關(guān)框架和支持庫(kù)的技術(shù)與趨勢(shì)仍值得大家關(guān)注。

大數(shù)據(jù)

根據(jù)《 2018 年大數(shù)據(jù)分析市場(chǎng)調(diào)研報(bào)告》顯示,大型企業(yè)的大數(shù)據(jù)采用率從 2015 年的 15%,到 2018 年已經(jīng)飆升了 59%??梢钥闯龃髷?shù)據(jù)工具的流行趨勢(shì)在不斷增長(zhǎng)。如果不考慮 Apache SparkHadoop(下一段里單獨(dú)討論),最流行的是 MapReduce(36個(gè))與 Redshift(29個(gè))。

Hadoop

不把 Spark 與云存儲(chǔ)的流行趨勢(shì)考慮在內(nèi)的話,Hadoop 的時(shí)代還沒(méi)有終結(jié)。因此,有些公司仍希望應(yīng)聘者熟練應(yīng)用 Apache Pig(30個(gè))、HBase(32個(gè))等技術(shù),HDFS(20個(gè))仍有崗位需求。

實(shí)時(shí)數(shù)據(jù)處理

隨著傳感器、移動(dòng)設(shè)備、物聯(lián)網(wǎng)技術(shù)(18個(gè))應(yīng)用的增長(zhǎng),公司對(duì)從實(shí)時(shí)數(shù)據(jù)處理中獲取信息越來(lái)越重視,越來(lái)越多的公司需要雇傭流式分析平臺(tái)如 Apache Flink(21個(gè))技術(shù)人員。

特征工程與超參數(shù)調(diào)優(yōu)

準(zhǔn)備數(shù)據(jù)與選擇模型參數(shù)是數(shù)據(jù)科學(xué)家的核心任務(wù)。數(shù)據(jù)挖掘(128個(gè))這個(gè)詞在公司的 JD 里特別流行。有些公司非常重視超參數(shù)調(diào)優(yōu)(21個(gè))。不過(guò),數(shù)據(jù)科學(xué)家要特別關(guān)注特征工程。在模型構(gòu)建早期,選擇模型最適合的特征,是決定模型是否成功的關(guān)鍵。

數(shù)據(jù)可視化

處理數(shù)據(jù),并從中提取有價(jià)值的信息是非常重要的能力,不過(guò),數(shù)據(jù)可視化(55個(gè))也是數(shù)據(jù)科學(xué)家要掌握的重要技能,把工作成果展示給團(tuán)隊(duì)成員或客戶對(duì)數(shù)據(jù)科學(xué)家來(lái)說(shuō)是至關(guān)重要的能力。說(shuō)到數(shù)據(jù)可視化工具,作為雇主的公司傾向于 Tableau(54個(gè))。

總體趨勢(shì)

在這些崗位需求里,還包括了 AWS(86個(gè))、Docker(36個(gè))、Kubernetes??梢?,軟件開發(fā)行業(yè)的趨勢(shì)對(duì)數(shù)據(jù)科學(xué)領(lǐng)域的影響也挺大的。

專家評(píng)論

技術(shù)非常重要,但在數(shù)據(jù)科學(xué)領(lǐng)域,有些東西比寫代碼更重要。從“輸出數(shù)據(jù)”中提取信息,比如,生成最終數(shù)據(jù)集、找出趨勢(shì)、數(shù)據(jù)可視化、基于數(shù)據(jù)進(jìn)行陳述報(bào)告等,這種能力非常重要。此外,還包括用淺顯易懂的形式展現(xiàn)分析結(jié)果,站在受眾的角度看問(wèn)題 -- 如果聽報(bào)告的是一群博士生,陳述的方式是一種形式,如果聽報(bào)告的是 CXO,陳述的方式就是另一種樣子了,他們才不關(guān)心編程,他們關(guān)心的只有結(jié)果與投資回報(bào)率。

Carla Gentry
數(shù)據(jù)科學(xué)家
Analytical Solution 博主

數(shù)據(jù)快照對(duì)了解市場(chǎng)現(xiàn)狀很有用,但并不適于展示發(fā)展趨勢(shì),只依據(jù)數(shù)據(jù)快照推斷未來(lái)很難。我要說(shuō)的是 R 的使用量在持續(xù)穩(wěn)定地下降(MATLAB 也一樣),Python 在數(shù)據(jù)科學(xué)家社區(qū)里的應(yīng)用則持續(xù)上揚(yáng)。Hadoop 與大數(shù)據(jù)榜上有名只不過(guò)是因?yàn)闃I(yè)界的慣性:Hadoop 將會(huì)消亡(沒(méi)人投資了),大數(shù)據(jù)也不再是熱炒的話題。要不要花時(shí)間再去學(xué)習(xí) Scala 現(xiàn)在還不清楚:谷歌官方支持 Kotlin(也是一種 JVM 語(yǔ)言),但它學(xué)起來(lái)比 Scala 更簡(jiǎn)單,學(xué)習(xí)曲線也更陡峭。TensorFlow 的未來(lái)也讓人堪憂:學(xué)術(shù)界已經(jīng)把興趣轉(zhuǎn)向了 PyTorch,要知道,學(xué)術(shù)界對(duì)數(shù)據(jù)科學(xué)領(lǐng)域的影響遠(yuǎn)超其它行業(yè)。
以上觀點(diǎn)僅代表我個(gè)人,不代表高德納咨詢公司。

Andriy Burkov
高德納(Gartner)公司 機(jī)器學(xué)習(xí)主管
百頁(yè)機(jī)器學(xué)習(xí)手冊(cè)作者

PyTorch 利用 GPU 驅(qū)動(dòng)強(qiáng)化學(xué)習(xí)的 CUDA 張量運(yùn)算操作。與 TensorFlow 將每個(gè)操作綁定至一個(gè)設(shè)備不同,它可以同時(shí)在多 GPU 上并行編碼。PyTorch 還可以構(gòu)建動(dòng)態(tài)圖,有效地展示遞歸神經(jīng)網(wǎng)絡(luò)。基于 Theano 的 TensorFlow 與基于 Torch 的 PyTorch 相比,只能生成靜態(tài)圖,而且更難學(xué)。TensorFlow 對(duì)應(yīng)的開發(fā)者與研究人員社區(qū)雖然更大,但 PyTorch 構(gòu)建機(jī)器學(xué)習(xí)儀表盤可視化工具比 TensorBoard 更好,也更簡(jiǎn)單,而且,PyTorch 在調(diào)試與調(diào)用 matplotlib 及 Seaborn 進(jìn)行數(shù)據(jù)可視化時(shí)更 Pythonic。絕大多數(shù) Python 調(diào)試工具都能調(diào)試 PyTorch,TensorFlow 則有自己的調(diào)試工具,tfdbg。

Ganapathi Pulipaka 博士
Accenture 首席數(shù)據(jù)科學(xué)家
50 位頂級(jí)技術(shù)領(lǐng)袖獎(jiǎng)得主

數(shù)據(jù)科學(xué)“崗位”與數(shù)據(jù)科學(xué)“職業(yè)”不同。崗位列表闡明了市場(chǎng)所需的技能,但說(shuō)到職業(yè),就我所知,最重要的技能就是學(xué)習(xí)能力。數(shù)據(jù)科學(xué)領(lǐng)域發(fā)展迅速,如果想一直保持成功,數(shù)據(jù)科學(xué)家必須能快速學(xué)習(xí)新的技能、工具與專業(yè)知識(shí)。不斷挑戰(zhàn)自己,遠(yuǎn)離舒適區(qū),才是數(shù)據(jù)科學(xué)家要干的事情。

Lon Riesberg
Data Elixir 創(chuàng)始人
前 NASA 職員

數(shù)據(jù)科學(xué)是一個(gè)發(fā)展迅速、復(fù)雜難解的行業(yè),在這個(gè)行業(yè)里,業(yè)務(wù)經(jīng)驗(yàn)與技術(shù)能力同等重要。希望這篇文章讓您在這兩方面都有所收獲,知道哪些技能更有價(jià)值,助您在 2019 年變得更搶手!

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容