科多大數(shù)據(jù)小課堂之大數(shù)據(jù)分析的幾個(gè)新角色:數(shù)據(jù)科學(xué)家、數(shù)據(jù)分析師、數(shù)據(jù)(算法)工程師
數(shù)學(xué)科學(xué)家:(發(fā)明算法)
運(yùn)用統(tǒng)計(jì)分析、機(jī)器學(xué)習(xí)、分布式處理等技術(shù),從大量數(shù)據(jù)中提取出對(duì)業(yè)務(wù)有意義的信息,以易懂的形式傳達(dá)給決策者,并創(chuàng)造出新的數(shù)據(jù)應(yīng)用服務(wù)的人才。
對(duì)享有的模型進(jìn)行優(yōu)化、改進(jìn),所以涉及到對(duì)具體算法的精通和理解,并不斷通過AB Test進(jìn)行驗(yàn)證。
例如:Google的搜索PageRank算法的創(chuàng)始人拉里佩奇Larry Page,他是博士而且在讀書期間創(chuàng)造的此算法。
李開復(fù)也應(yīng)該算一個(gè),解決中文搜索及嘗試了語音識(shí)別的關(guān)鍵技術(shù)算法。
還有我司的客戶信用評(píng)分模型也是MIT的高端開發(fā)設(shè)計(jì)出來的。
近期我們還沒有應(yīng)用或者發(fā)展到這個(gè)階層,很少需要修改或者創(chuàng)造算法和模型來解決問題的層面,主要還在算法應(yīng)用層面。
關(guān)鍵要求:IT技術(shù)知識(shí),例如對(duì)處理大數(shù)據(jù)所必需的Hadoop、Mahout等大規(guī)模并行處理技術(shù)與機(jī)器學(xué)習(xí)相關(guān)的技能;
數(shù)學(xué)、統(tǒng)計(jì)、數(shù)據(jù)挖掘,可以使用SAS、R等挖掘工具并對(duì)統(tǒng)計(jì)算法足夠掌握;
數(shù)據(jù)可視化能力,可以把復(fù)雜的模型和數(shù)字邏輯通過易懂直觀的展示方式
標(biāo)桿人才:虛位以待,還有可能就是2017的諾亞方舟的。
數(shù)據(jù)(算法)工程師:(使用算法)
深刻理解統(tǒng)計(jì)學(xué)及挖掘分析工具的開發(fā)工程師,可以通過數(shù)據(jù),借助工具和建模開發(fā),解決一類業(yè)務(wù)問題的工程師。
關(guān)鍵時(shí)候需要客戶化算法、修改算法解決關(guān)鍵問題。
關(guān)鍵要求:
對(duì)統(tǒng)計(jì)學(xué)或者數(shù)學(xué)有一定理論背景,知道什么是邏輯回歸,什么是T/F檢驗(yàn);
代碼或模型開發(fā)能力,最好包括大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)處理能力;
特定行業(yè)和領(lǐng)域應(yīng)用的經(jīng)驗(yàn)會(huì)加速數(shù)據(jù)算法的開發(fā)和應(yīng)用。
標(biāo)桿人才:
潘柱新+陳國(guó)富,他倆結(jié)合起來應(yīng)該是我認(rèn)識(shí)最牛的算法工程師了。
數(shù)據(jù)分析師:(使用數(shù)據(jù))
數(shù)據(jù)分析師能洞悉一個(gè)方程式的商業(yè)意義。他們知道如何提出正確的問題,搜羅和管理相關(guān)的數(shù)據(jù),通過數(shù)據(jù)探索和分析,佐以數(shù)據(jù)可視化、數(shù)據(jù)呈現(xiàn)或分析報(bào)告解決問題。
關(guān)鍵要求:
除了對(duì)數(shù)據(jù)的理解和把握,懂業(yè)務(wù)和懂工具(Excel、SQL是基礎(chǔ),SAS、SPSS是進(jìn)階等數(shù)據(jù)分析相關(guān)的工具)之外,還有兩個(gè)容易被忽視的技能
懂分析:指掌握數(shù)據(jù)分析基本原理與一些有效的數(shù)據(jù)分析方法,并能靈活運(yùn)用到實(shí)踐工作中,以便有效的開展數(shù)據(jù)分析。
基本的分析方法有:對(duì)比分析法、分組分析法、交叉分析法、結(jié)構(gòu)分析法、漏斗圖分析法、綜合評(píng)價(jià)分析法、因素分析法、矩陣關(guān)聯(lián)分析法等。高級(jí)的分析方法有:相關(guān)分析法、回歸分析法、聚類分析法、判別分析法、主成分分析法、因子分析法、對(duì)應(yīng)分析法、時(shí)間序列等。
懂設(shè)計(jì):懂設(shè)計(jì)是指運(yùn)用圖表有效表達(dá)數(shù)據(jù)分析師的分析觀點(diǎn),使分析結(jié)果一目了然。圖表的設(shè)計(jì)是門大學(xué)問,如圖表的選擇(什么時(shí)候用柱狀圖、什么時(shí)候用折線圖,這是最基本的能力)、版式的設(shè)計(jì)、顏色的搭配等等,都需要掌握一定的設(shè)計(jì)原則。特別是42公里的漫長(zhǎng)、富有創(chuàng)新的數(shù)據(jù)價(jià)值發(fā)現(xiàn)之旅,不能毀在最后一公里的呈現(xiàn)和報(bào)告中。
標(biāo)桿人才:潘旭(即熟悉信用業(yè)務(wù);又可以熟練使用分析方法;
懂一些SAS的工具;還懂可視化、圖表、版式等高體驗(yàn)性設(shè)計(jì)),DMP項(xiàng)目中數(shù)據(jù)管理部的王剛也在成長(zhǎng)中。
http://www.101test.com/cand/index?paperId=21VNJU