今天在知乎上回答了一個(gè)問題, 關(guān)于如何成為一名數(shù)據(jù)分析師。我查了一些資料, 很認(rèn)真地作答。雖然最終得到很少贊同, 但是回答的過程自己為自己總結(jié)了數(shù)據(jù)時(shí)代的一些場(chǎng)景。 恰好最近很苦惱地在兩家公司中作選擇, 一家是做數(shù)據(jù)挖掘?qū)樱?一家是做數(shù)據(jù)分析層, 回答完問題覺得自己也更清楚兩家公司的優(yōu)劣, 所以覺得受益匪淺 :D
原回答如下。
問:如何成為一個(gè)數(shù)據(jù)分析師?需要具備哪些技能?
答:數(shù)據(jù) (Data) 是 DIKW Pyramid (Data, Information, Knowledge, Wisdom) 中最低級(jí)的材料。而數(shù)據(jù)工程是一整套對(duì)數(shù)據(jù)進(jìn)行采集, 處理, 提取價(jià)值(變?yōu)?I 或 K)的過程。首先介紹一下相關(guān)的幾種角色: Data Engineer, Data Scientist & Data Analyst。 這三個(gè)角色任務(wù)重疊性高, 要求合作密切, 但各負(fù)責(zé)的領(lǐng)域稍有不同。大部分公司里的這些角色都會(huì)根據(jù)每個(gè)人本身的技能長(zhǎng)短而身兼數(shù)職, 所以有時(shí)候比較難以區(qū)分。
Data Engineer 數(shù)據(jù)工程師: 分析數(shù)據(jù)少不了需要運(yùn)用計(jì)算機(jī)和各種工具 automate 數(shù)據(jù)處理的過程, 包括數(shù)據(jù)格式轉(zhuǎn)換, 儲(chǔ)存, 更新, 查詢。 數(shù)據(jù)工程師的工作就是開發(fā)工具完成 automate 的過程, 屬于 Infrastructure/Tools 層。
這個(gè)角色出現(xiàn)的頻率不多。因?yàn)橛鞋F(xiàn)成的MySQL, Oracle等數(shù)據(jù)庫技術(shù), 很多大公司只需要DBA就足夠了。而 Hadoop, MongoDB 等 NoSQL 技術(shù)的開源, 更是使在大數(shù)據(jù)的場(chǎng)景下都沒有太多 engineer 的事兒,一般都是交給 scientist 。據(jù)我所知 Facebook 有專門的 database team,因?yàn)閿?shù)據(jù)量太超常了而且業(yè)務(wù)特殊; Square 有 Data Engineering team,因?yàn)閷?duì)數(shù)據(jù)穩(wěn)定性上要求苛刻;Google 就不用說了, 膜拜一下 GFS, BigTable, MapReduce 這些名字就可以了。
Data Scientist 數(shù)據(jù)科學(xué)家: 數(shù)據(jù)科學(xué)家是與數(shù)學(xué)相結(jié)合的中間角色, 需要用數(shù)學(xué)方法處理原始數(shù)據(jù)找出肉眼看不到的更高層數(shù)據(jù), 一般是運(yùn)用 Statistical Machine Learning 的方法, 最近也有流行玩 Deep Learning的。 有人稱 Data Scientist 為 Programming Statistician,他們需要有很好的統(tǒng)計(jì)學(xué)基礎(chǔ), 但也需要參與很多 learning 程序的開發(fā)(基于 Infrastructure 之上), 而現(xiàn)在很多很多的 Data Scientist 職位都要求身兼 Data Engineer。 Data Scientist 是把 D 轉(zhuǎn)為 I 或 K 的主力軍。
Data Analyst 數(shù)據(jù)分析師: 工程師和科學(xué)家做了大量的工作用計(jì)算機(jī)程序盡可能多地提取了價(jià)值(I/K),然而真正要從數(shù)據(jù)中洞察出更高的價(jià)值, 則需要依靠豐富的行業(yè)經(jīng)驗(yàn)和洞察力, 這些都需要人力的干預(yù)。 Data Analyst 需要的是對(duì)所在業(yè)務(wù)有深刻了解, 能熟練運(yùn)用手上的工具(無論是 Excel, SPSS也好, Python/R也好,工程師給你開發(fā)的工具也好,必要時(shí)還要能自己充當(dāng)工程師和科學(xué)家,力盡所能得到自己需要的工具)有針對(duì)性地對(duì)數(shù)據(jù)作分析,并且需要把發(fā)現(xiàn)言之有物地向其他職能部門呈現(xiàn)出來,最終變?yōu)樾袆?dòng)。這就是把數(shù)據(jù)最終得出 Wisdom。
這個(gè)職位出現(xiàn)也不是很多, 在很多公司里沒有這樣的職位, 因?yàn)槎际?C-level 的人或產(chǎn)品經(jīng)理在做著數(shù)據(jù)分析的事情。 這樣的職位大量出現(xiàn)的地方我只知道 Wall Street 和 NSA,因?yàn)橛写罅康?case 需要處理, 而每個(gè) case 都需要有人分析。
值得一提的是 PayPal 當(dāng)年內(nèi)部處理 fraud 的問題, 積累了大量欺詐分析的經(jīng)驗(yàn), 后來 PayPal 創(chuàng)始人 Peter Thiel 又創(chuàng)立了 Palantir, 專門做數(shù)據(jù)分析工具平臺(tái), 在美國成功幫很多機(jī)構(gòu)解決著反恐, 人口販賣等很多需要專家參與的問題。 Palantir 有一句口號(hào)是 Surface data, not mining it(呈現(xiàn)數(shù)據(jù),而非挖掘)。是一個(gè)比較有意思的觀點(diǎn) :)