大數(shù)據(jù)崗位家族解讀

一.前言

最近在知乎、知識星球等網(wǎng)站看到大數(shù)據(jù)的問題和文章非常多的,看到很多問題都是問“我想從事大數(shù)據(jù),應(yīng)該怎么準(zhǔn)備?”,“如何入門大數(shù)據(jù)”等類似的問題?以前在招聘的時(shí)候包括校招和社招,也經(jīng)常碰到說今后的職業(yè)規(guī)劃想做大數(shù)據(jù),面對這樣的回答,我可以判斷候選人對大數(shù)據(jù)還處在一個(gè)相對模糊的階段,我基本就給pass掉了,這也是我為什么要專門寫這篇文章的原因。

從標(biāo)題上可以看出,本人對大數(shù)據(jù)定位成一個(gè)崗位家族,像后端開發(fā),人事崗、營銷崗一樣,其實(shí)背后是有好幾個(gè)細(xì)分崗位劃分的,在求職的時(shí)候需要有一個(gè)明確的目標(biāo)的,目標(biāo)越明確,準(zhǔn)備越充分,成功率也越高。

二.大數(shù)據(jù)概念

按照常規(guī)套路先介紹概念,大數(shù)據(jù)是指無法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)—百度百科

image.png
  • Volume:海量的數(shù)據(jù)規(guī)模,數(shù)據(jù)體量達(dá)到PB甚至EB級別,這里的數(shù)據(jù)量主要來源于網(wǎng)絡(luò)日志,多媒體數(shù)據(jù)等。
  • Variety:異構(gòu)的數(shù)據(jù)類型,不僅僅包含結(jié)構(gòu)化的數(shù)據(jù)、還包括半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),比如日志文件、圖像、音視頻等。
  • Velocity:快速的數(shù)據(jù)流轉(zhuǎn),數(shù)據(jù)的產(chǎn)生和處理速度非常快。
  • Value:價(jià)值密度低,有價(jià)值的數(shù)據(jù)占比很小,需要用到人工智能等方法去挖掘新知識。

三.大數(shù)據(jù)發(fā)展歷程

通過一張圖來簡單看一下發(fā)展歷程,可以看出來大數(shù)據(jù)的鼻祖是數(shù)據(jù)倉庫,所以現(xiàn)在做大數(shù)據(jù)比較資深都是從數(shù)據(jù)倉庫、數(shù)倉架構(gòu)師、數(shù)倉模型師轉(zhuǎn)型過來的,隨著計(jì)算機(jī)技術(shù)的發(fā)展,計(jì)算成本、存儲成本大幅降低,逐漸產(chǎn)出了數(shù)據(jù)湖、數(shù)據(jù)中臺這樣的解決方案和概念。


image.png

從下面大數(shù)據(jù)、人工智能百度指數(shù)的發(fā)展趨勢圖也看出來大數(shù)據(jù)發(fā)展的潮流,所以原來的數(shù)據(jù)倉庫工程師轉(zhuǎn)成大數(shù)據(jù)工程師都是正好站在了這個(gè)風(fēng)口給吹起來的。還有一個(gè)崗位是被AI給吹起來的,那就是原來叫算法工程師的同學(xué),都自動更新成AI工程師了。
所以雷布斯的風(fēng)口理論還是有一定道理的。


image.png

image.png

四.大數(shù)據(jù)崗位家族

這也是本篇文章的重點(diǎn),也是能夠解開很多想入門大數(shù)據(jù)行當(dāng)初學(xué)者的關(guān)鍵所在。
大數(shù)據(jù)家族嚴(yán)格來說可以細(xì)分成下面9個(gè)崗位,當(dāng)然這9個(gè)崗位并不是在每個(gè)公司都會劃分的這么細(xì),越是重視數(shù)據(jù)、越是財(cái)大氣粗的公司劃分的越細(xì),很多公司的數(shù)據(jù)人員會身兼數(shù)職,比如大數(shù)據(jù)運(yùn)維和大數(shù)據(jù)平臺開發(fā),數(shù)據(jù)倉庫與數(shù)據(jù)測試等,都是同一個(gè)人兼著。

image

這9個(gè)崗位有什么關(guān)系呢?哪個(gè)更高大上呢?其實(shí)他們也是有生物鏈的。

image

大數(shù)據(jù)要在業(yè)務(wù)端發(fā)揮價(jià)值,一定要有數(shù)據(jù)產(chǎn)品經(jīng)理(數(shù)據(jù)分析師某種程度上也兼職這個(gè)角色)、數(shù)據(jù)可視化工程師將數(shù)據(jù)呈現(xiàn)出來給到老板、業(yè)務(wù)方、用戶。

但是數(shù)據(jù)產(chǎn)品不像其他業(yè)務(wù)型產(chǎn)品在一定用戶需求基礎(chǔ)上衍生出來,產(chǎn)品經(jīng)理在能力則決定著產(chǎn)品的受歡迎程度,但是數(shù)據(jù)產(chǎn)品經(jīng)理如果只在用戶的需求基礎(chǔ)衍生是遠(yuǎn)遠(yuǎn)不夠的,因?yàn)槠胀ㄓ脩舾静恢辣澈筮€有數(shù)據(jù)這回事,里面的價(jià)值是需要有數(shù)學(xué)功底和業(yè)務(wù)功底的才能探索出來的,僅僅靠數(shù)據(jù)產(chǎn)品經(jīng)理就有點(diǎn)力不從心了,所以這個(gè)時(shí)候數(shù)據(jù)分析師、算法工程師、數(shù)據(jù)科學(xué)家就登場了,他們在研究挖掘海量數(shù)據(jù)之后(這里數(shù)據(jù)低價(jià)值密度的特性大幅提高了門檻),會提出概率更高的價(jià)值點(diǎn)交給產(chǎn)品經(jīng)理進(jìn)行調(diào)研、設(shè)計(jì)、上線。估計(jì)這個(gè)時(shí)候會有很多人不同意我的觀點(diǎn),實(shí)際工作流程大部分不是這樣的,實(shí)際情況確實(shí)也是這樣,這是因?yàn)槟壳暗臄?shù)據(jù)產(chǎn)品經(jīng)理大都是從有數(shù)據(jù)經(jīng)驗(yàn)的人轉(zhuǎn)過來的,所以本身已經(jīng)具備了這樣的能力。這也是為什么數(shù)據(jù)產(chǎn)品經(jīng)理比業(yè)務(wù)線產(chǎn)品經(jīng)理更難的原因之一(個(gè)人觀點(diǎn))。

再往前看,數(shù)據(jù)量這么大,類型又這么多樣,數(shù)據(jù)分析師、算法工程師、數(shù)據(jù)科學(xué)家每個(gè)人都直接從原始數(shù)據(jù)進(jìn)行計(jì)算、分析顯然是及其低效的,另外如果數(shù)據(jù)質(zhì)量太差的話,分析或者挖掘出來的價(jià)值點(diǎn)可能是負(fù)面的,這個(gè)時(shí)候數(shù)據(jù)倉庫工程師、數(shù)據(jù)測試隆重登場(大部分公司這兩個(gè)角色是二合一的,包括頭部互聯(lián)網(wǎng)公司分開的都不多),前面的臟活、累活我們?nèi)耍銈冎还芡诰騼r(jià)值就好了,價(jià)值出來了,我們也是功勞的,所以數(shù)倉工程師更側(cè)重的是底層數(shù)據(jù)清洗和建模。

再往前看,前面說了現(xiàn)在數(shù)據(jù)最大特點(diǎn)BIG,在哪里存儲和計(jì)算呢,并且計(jì)算時(shí)效性比以前還高,各種實(shí)時(shí)大盤數(shù)據(jù)需求,最上游的運(yùn)維和大數(shù)據(jù)開發(fā)工程師終于出場了,帶寬、內(nèi)存、時(shí)效性都不是事,我們來搞定。這里就要點(diǎn)名一下大數(shù)據(jù)開發(fā)工程師(簡稱大數(shù)據(jù)工程師)了,是網(wǎng)上被點(diǎn)名最多,也是被崇拜最多的,雖然很多人都不熟悉你,真是令其他幾位兄弟姐妹羨慕。

下面就每個(gè)崗位都逐一解釋一下,主要是通過工作內(nèi)容來認(rèn)識他們,先說明一下,這里工作內(nèi)容主要是針對校招JD總結(jié)分析出來,跟社招有一定的區(qū)別。

1. 大數(shù)據(jù)運(yùn)維

  • 負(fù)責(zé)溝通協(xié)調(diào)數(shù)據(jù)開發(fā)團(tuán)隊(duì),實(shí)時(shí)監(jiān)控調(diào)度腳本的執(zhí)行效率,確保平臺資源的高效合理使用
  • 負(fù)責(zé)Hadoop生態(tài)組件的部署升級、擴(kuò)容縮容、性能和管理優(yōu)化、問題排查等,包括但不限于CDH、HDFS、YARN、Hive、HBase、Spark和Flink等

2. 大數(shù)據(jù)平臺開發(fā)

  • 參與大數(shù)據(jù)平臺工具鏈(元數(shù)據(jù)、開發(fā)平臺、調(diào)度系統(tǒng)、資源控制等)的設(shè)計(jì)、開發(fā)、維護(hù)與優(yōu)化
  • 參與報(bào)表系統(tǒng)、數(shù)據(jù)分析系統(tǒng)、數(shù)據(jù)產(chǎn)品等功能設(shè)計(jì)開發(fā)
  • 典型產(chǎn)出如下圖(業(yè)內(nèi)最有名的是阿里的ODPS)
image

3. 數(shù)據(jù)倉庫工程師

  • 數(shù)據(jù)倉庫離線/實(shí)時(shí)ETL開發(fā)及優(yōu)化
  • 數(shù)據(jù)倉庫模型設(shè)計(jì)
  • 數(shù)據(jù)可視化開發(fā)
  • 推動大數(shù)據(jù)應(yīng)用技術(shù)與平臺
  • 典型產(chǎn)出如下圖
image

4. 數(shù)據(jù)測試

  • 負(fù)責(zé)數(shù)倉計(jì)算邏輯正確性測試
  • 負(fù)責(zé)數(shù)據(jù)產(chǎn)品數(shù)據(jù)的準(zhǔn)確性
  • 保證數(shù)據(jù)埋點(diǎn)的可靠性與準(zhǔn)確性
  • 負(fù)責(zé)數(shù)據(jù)自動化測試策略和系統(tǒng)建設(shè)

這個(gè)崗位現(xiàn)在大數(shù)據(jù)領(lǐng)域里面是最被忽視的,數(shù)據(jù)質(zhì)量也是目前大家最頭疼的問題之一。數(shù)據(jù)的追隨者:大數(shù)據(jù)系列之最冷門崗位-數(shù)據(jù)測試

5. 數(shù)據(jù)分析師

  • 建設(shè)管理報(bào)表體系,并進(jìn)行報(bào)表的開發(fā)維護(hù)與檢測
  • 搭建業(yè)務(wù)KPI指標(biāo)體系,并進(jìn)行監(jiān)測與分析,為公司產(chǎn)品運(yùn)營優(yōu)化提供建議;
  • 撰寫數(shù)據(jù)分析報(bào)告,為業(yè)務(wù)問題原因排查提供數(shù)據(jù)支持及解決方案;
  • 給業(yè)務(wù)部門提供運(yùn)營、產(chǎn)品、活動數(shù)據(jù),根據(jù)數(shù)據(jù)問題,提出相應(yīng)的解決建議
  • 主要產(chǎn)出
image

數(shù)據(jù)分析師詳解文章 數(shù)據(jù)的追隨者:最實(shí)用數(shù)據(jù)分析師準(zhǔn)備之路

6. 算法工程師/Ai工程師

  • 語音、圖像、自然語言處理、深度學(xué)習(xí)等機(jī)器學(xué)習(xí)算法開發(fā)及優(yōu)化;
  • 推薦、搜索、廣告系統(tǒng)的算法開發(fā)及優(yōu)化
  • 挖掘并推進(jìn)算法在業(yè)務(wù)中應(yīng)用
  • 機(jī)器學(xué)習(xí)平臺開發(fā)及優(yōu)化
  • 像知乎給大家“推薦”欄目,包括“關(guān)注”、“熱榜”欄目都是出自算法工程師之手
image

7. 數(shù)據(jù)產(chǎn)品經(jīng)理

  • 負(fù)責(zé)BI產(chǎn)品、數(shù)據(jù)可視化規(guī)劃、設(shè)計(jì)、迭代工作 ,通過數(shù)據(jù)為業(yè)務(wù)賦能
  • 負(fù)責(zé)協(xié)助公司各業(yè)務(wù)?向?數(shù)據(jù)應(yīng)?產(chǎn)品調(diào)研、規(guī)劃、執(zhí)?
  • 負(fù)責(zé)梳理業(yè)務(wù)需求,甄別業(yè)務(wù)場景和價(jià)值,制定研發(fā)優(yōu)先級,跟蹤研發(fā)流程,確保價(jià)值交付
  • 負(fù)責(zé)數(shù)據(jù)產(chǎn)品的開發(fā)項(xiàng)目管理工作,確保項(xiàng)目按照需求如期完成

8. 數(shù)據(jù)可視化

  • 負(fù)責(zé)大數(shù)據(jù)項(xiàng)目/產(chǎn)品前端展示模式規(guī)劃構(gòu)思和創(chuàng)意設(shè)計(jì)
  • 負(fù)責(zé)常規(guī)圖表組件的封裝、地圖組件技術(shù)的迭代與維護(hù)、頁面元素動效的維護(hù)等;
  • 負(fù)責(zé)報(bào)表平臺輸出可視化顯示及迭代
    數(shù)據(jù)可視化可以分為2種,一種是通過BI工具(Tableau、Cognos、BO等)或者Excel/PPT實(shí)現(xiàn),還有一種是前端開發(fā)工程師實(shí)現(xiàn),這塊專門做的同學(xué)相對也比較少,只是多少都會一些。

9. 數(shù)據(jù)科學(xué)家

數(shù)據(jù)科學(xué)家之所以放在最后,其實(shí)他是以上崗位相對綜合的職位,基本上數(shù)據(jù)分析、數(shù)據(jù)倉庫、數(shù)據(jù)爬蟲清洗、算法/數(shù)據(jù)挖掘、數(shù)據(jù)產(chǎn)品等5個(gè)領(lǐng)域中的一個(gè)或者多個(gè)專家。詳細(xì)的可看這篇文章介紹 數(shù)據(jù)的追隨者:大數(shù)據(jù)系列之?dāng)?shù)據(jù)科學(xué)家

六.一個(gè)數(shù)據(jù)產(chǎn)品生產(chǎn)鏈路

這里給大家說一下一款數(shù)據(jù)產(chǎn)品是如何生產(chǎn)上線的,比如下面這個(gè)BI平臺實(shí)時(shí)數(shù)據(jù)看板,包含了交易明細(xì),各種不同程度的匯總數(shù)據(jù),有離線數(shù)據(jù),有實(shí)時(shí)數(shù)據(jù)。

image

他的一般生產(chǎn)流程可以通過下圖來說明,如果需求當(dāng)中包括一些預(yù)測之類的數(shù)據(jù),這個(gè)時(shí)候算法工程師也會介入進(jìn)來。

image

七.結(jié)束語

上面重點(diǎn)從崗位的生物鏈、崗位的主要工作內(nèi)容,以及典型的數(shù)據(jù)產(chǎn)品生產(chǎn)流程,詳細(xì)介紹了大數(shù)據(jù)崗位家族中的9個(gè)崗位,其目的就是希望在校大學(xué)生或者想轉(zhuǎn)入大數(shù)據(jù)行當(dāng)?shù)耐瑢W(xué),對大數(shù)據(jù)有一個(gè)整體和全貌的認(rèn)知。

當(dāng)有了這個(gè)認(rèn)知之后,希望再問問題的時(shí)候或者說跟面試官說自己的規(guī)劃的時(shí)候,不是直接說想做大數(shù)據(jù),或者如何準(zhǔn)備大數(shù)據(jù),而是希望直接問具體的某個(gè)崗位如何準(zhǔn)備或者選擇,當(dāng)有了這樣比較具體的目標(biāo)之后,自己準(zhǔn)備起來也會更加高效和聚焦,如果能對大家有了這樣的幫助,此篇文章的目的也就達(dá)到了。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容