數(shù)據(jù)科學(xué)家被稱為21世紀(jì)最性感的職業(yè),需要掌握的工具和技能方面主要有:
? ? ? ?工具: R、Python、SAS、SPSS、Spark、Mlib、mahout等等
? ? ? ?技能:需掌握SQL數(shù)據(jù)庫(kù)、概率統(tǒng)計(jì)、機(jī)器學(xué)習(xí)算法原理(分類、聚類、關(guān)聯(lián)、預(yù)測(cè)等)、深度學(xué)習(xí)算法原理、模型評(píng)估、模型部署、模型監(jiān)控等等;
數(shù)據(jù)分析之道是價(jià)值觀,認(rèn)同數(shù)據(jù)分析的價(jià)值,對(duì)數(shù)據(jù)分析工作有清楚的定位,并非常了解數(shù)據(jù)分析背后的商業(yè)模式。對(duì)數(shù)據(jù)分析只有認(rèn)同其價(jià)值,明確其定位,深諳其商業(yè)模式,才能走在正確的軌道上。
數(shù)據(jù)分析之術(shù)是正確的方法論:AARRR模型和分析上的學(xué)習(xí)引擎。AARRR是《增長(zhǎng)黑客》海盜法則:依次是獲取用戶、激發(fā)活躍、提高留存、增加收入、推薦傳播的首字母,覆蓋用戶整個(gè)生命周期。學(xué)習(xí)引擎是《精益創(chuàng)業(yè)》中提倡的精益化運(yùn)營(yíng)方式,當(dāng)有想法時(shí)采用最簡(jiǎn)可行產(chǎn)品MVP的方式將其構(gòu)建出來(lái),上線后我們衡量用戶和市場(chǎng)反應(yīng),通過(guò)分析收集到的數(shù)據(jù)來(lái)驗(yàn)證或推翻之前的想法,從而不斷學(xué)習(xí)和優(yōu)化。
數(shù)據(jù)分析之器是指數(shù)據(jù)分析工具。統(tǒng)一的數(shù)據(jù)采集平臺(tái),選擇合適的分析工具。
企業(yè)大數(shù)據(jù)平臺(tái)一般包含大數(shù)據(jù)應(yīng)用層、平臺(tái)層、基礎(chǔ)實(shí)施體系。一般流程是從數(shù)據(jù)源經(jīng)過(guò)數(shù)據(jù)標(biāo)準(zhǔn)化、到基礎(chǔ)數(shù)據(jù)層、到接口數(shù)據(jù)層、到最后的應(yīng)用數(shù)據(jù)層。
不光數(shù)據(jù)分析,生活中很多方面都可以用到下面提到的方法。比如在個(gè)人投資時(shí)要用PEST分析法,思考問(wèn)題、表達(dá)方案時(shí)用5W2H法、金字塔分析法等。
要么努力踐行自己的目標(biāo),要么努力尋找自己的目標(biāo),有什么好糾結(jié)迷茫的呢?
數(shù)據(jù)分析框架分為四層:數(shù)據(jù)規(guī)劃、數(shù)據(jù)采集、數(shù)據(jù)分析、數(shù)據(jù)決策。
數(shù)據(jù)分析工作大多時(shí)間耗費(fèi)在數(shù)據(jù)采集、清理、轉(zhuǎn)換等臟活累活上面,最有價(jià)值的分析和決策部分往往耗時(shí)很少。做大數(shù)據(jù)分析要盡可能使用工具實(shí)現(xiàn)底層的自動(dòng)化操作,并把工作重心放在最有價(jià)值的分析和決策兩個(gè)層面上。