文/泰閣志

【作者曰:兩周前的新生大學(xué)《我眼中的大數(shù)據(jù)》分享會(huì)后有個(gè)答疑環(huán)節(jié),現(xiàn)將其中具有代表性的問(wèn)題和個(gè)人回答重新編輯后集結(jié)成篇,合為此文。寫給對(duì)通往大數(shù)據(jù)路上的人們,也包括我自己。】
1. 前端工程師想往大數(shù)據(jù)方向轉(zhuǎn)型,有什么建議嗎?
程序員往大數(shù)據(jù)方向轉(zhuǎn)型的最大優(yōu)勢(shì)就是自帶的程序開(kāi)發(fā)能力,但轉(zhuǎn)型時(shí)需要學(xué)習(xí)的技能則由具體的工作角色決定:
數(shù)據(jù)工程師:
需要補(bǔ)Hadoop/Hive/Spark/Java/C++等技能數(shù)據(jù)分析師:
業(yè)務(wù)知識(shí) + 數(shù)據(jù)庫(kù)(如Sql/NoSql)+ 腳本編程(如Python/R/Bash shell)+ 常用工具(如Excel/SAS/Tableau)數(shù)據(jù)挖掘師:
除了業(yè)務(wù)知識(shí)和數(shù)據(jù)庫(kù)外,首先要補(bǔ)數(shù)理統(tǒng)計(jì)等相關(guān)數(shù)學(xué)知識(shí);此外要熟悉和能用實(shí)現(xiàn)常用數(shù)據(jù)挖掘算法,能使用流行語(yǔ)言算法包,如Python的SciKit-learn/C++的MeTA數(shù)據(jù)產(chǎn)品經(jīng)理:
了解以上三個(gè)領(lǐng)域且必須擅長(zhǎng)數(shù)據(jù)分析,同時(shí)還須具備產(chǎn)品經(jīng)理的基本技能(如精通業(yè)務(wù)/原型設(shè)計(jì)/需求文檔等)
** 2.** 數(shù)據(jù)分析有什么書籍推薦嗎?
數(shù)據(jù)分析的書籍實(shí)在太多,泛泛推薦沒(méi)有意義,從入門角度而言如下教程可以考慮:
誰(shuí)說(shuō)菜鳥不會(huì)數(shù)據(jù)分析(工具篇):
https://book.douban.com/subject/24715620/深入淺出數(shù)據(jù)分析:
https://book.douban.com/subject/5257905/深入淺出統(tǒng)計(jì)學(xué):
https://book.douban.com/subject/7056708/Sql入門基礎(chǔ):
http://w3school.com.cn/sql/sql_syntax.asp
在如下帖子里也有相關(guān)內(nèi)容:
https://zhuanlan.zhihu.com/p/22001341?refer=tigerchi
3. 電網(wǎng)/自動(dòng)化工廠/建筑設(shè)計(jì)/美容美發(fā)軟件行業(yè)怎么用大數(shù)據(jù)?
所有這些行業(yè)要用大數(shù)據(jù)的前提是先得有數(shù)據(jù),我們國(guó)家的傳統(tǒng)行業(yè)之前非常缺乏“數(shù)據(jù)意識(shí)”,現(xiàn)在剛剛蘇醒,所以各行各業(yè)在試圖數(shù)據(jù)化時(shí)碰到的最大問(wèn)題是數(shù)據(jù)沉淀不足和“數(shù)據(jù)孤島”現(xiàn)象嚴(yán)重。
如何沉淀數(shù)據(jù)呢?大致來(lái)說(shuō),在你的行業(yè)里面,將每個(gè)產(chǎn)品/服務(wù)/流程/環(huán)節(jié)/結(jié)果分解到可以量化的指標(biāo),為他們量身定做地設(shè)計(jì)一個(gè)報(bào)表體系,同時(shí)需要建立對(duì)應(yīng)的數(shù)據(jù)倉(cāng)庫(kù)來(lái)存儲(chǔ)。
首先得有數(shù)據(jù),其次得有完整的數(shù)據(jù)。
有了之后,就可以利用現(xiàn)有的數(shù)據(jù)分析方法論、工具及算法了。此時(shí)談大數(shù)據(jù)分析/大數(shù)據(jù)驅(qū)動(dòng),乃至商業(yè)智能(BI)才比較現(xiàn)實(shí)。
這套數(shù)據(jù)驅(qū)動(dòng)方法其實(shí)很簡(jiǎn)單,只有如下三個(gè)步驟,它們環(huán)環(huán)相扣,不斷循環(huán)迭代:
- 第一步:數(shù)據(jù)沉淀
- 第二步:數(shù)據(jù)分析
- 第三步:依據(jù)分析的商業(yè)決策
4. 大數(shù)據(jù)的未來(lái)會(huì)是怎樣的,我們是不是都在“裸奔”了?
這個(gè)問(wèn)題反映了人類對(duì)大數(shù)據(jù)技術(shù)的恐懼。
實(shí)際上,哪怕是大數(shù)據(jù)時(shí)代還沒(méi)到來(lái)前的早期互聯(lián)網(wǎng)時(shí)代,我們都已經(jīng)在“裸奔”了。對(duì)于那些頂級(jí)個(gè)人黑客或黑客組織來(lái)說(shuō),但凡是聯(lián)上互聯(lián)網(wǎng)的電腦/網(wǎng)站/數(shù)據(jù)庫(kù),他們都能有辦法去侵入和取得數(shù)據(jù)。
至于這些數(shù)據(jù)(個(gè)人隱私和商業(yè)機(jī)密)的用途,就看這幫黑客的操守如何了。
對(duì)于大多數(shù)人,我們只能力所能及地保護(hù)好自己,首先要建立起數(shù)據(jù)隱私和個(gè)人數(shù)據(jù)資產(chǎn)重要性的意識(shí)。
5. 對(duì)于非專業(yè)人員,如何能將大數(shù)據(jù)運(yùn)用在自己的工作和生活中?是否必須用太專業(yè)的工具?
這個(gè)其實(shí)是數(shù)據(jù)分析的方法論,基本的數(shù)據(jù)分析人人都能掌握,并不要高深的專業(yè)知識(shí)和技能。實(shí)際上,新生大學(xué)的許多社群成員都在踐行這一點(diǎn)。他們用各種工具去個(gè)人的時(shí)間管理或理財(cái),也不需要太專業(yè)的。這個(gè)層面的數(shù)據(jù)管理和分析,Excel都有點(diǎn)牛刀小試了,理財(cái)App如Wally,時(shí)間管理App如aTimeLogger。
6. 日后的人工智能會(huì)讓 “基層”程序員下崗嗎?比如說(shuō),機(jī)器寫代碼。
人工智能(AI)確實(shí)在日常生活中有越來(lái)越多的應(yīng)用,今年早些時(shí)候,韓國(guó)的殿堂級(jí)棋手李世石都被AlphaGo干翻了。所以,基層程序員下崗的可能性不能排除。
從更高的層面來(lái)看,這是人類工業(yè)革命的另一次浪潮,只不過(guò),這次革命的武器是大數(shù)據(jù)。
在人工智能的沖擊下,人類在基礎(chǔ)的機(jī)械記憶、流程化這些肯定不是對(duì)手,因此各行各業(yè)最簡(jiǎn)單機(jī)械的那些職能肯定要被替代掉。
但也沒(méi)什么好怕的,上帝關(guān)上一扇門,肯定會(huì)給你打開(kāi)一扇窗子。對(duì)此,我們可以發(fā)揮和進(jìn)一步提升人類所擅長(zhǎng)的且機(jī)器和代碼在一定時(shí)間周期內(nèi)無(wú)法趕超的能力,如情感、藝術(shù)、抽象思維等。
7. 數(shù)據(jù)分析軟件具體有哪些?可以推薦兩款嗎?
數(shù)據(jù)分析軟件一般都是對(duì)應(yīng)不同的細(xì)分領(lǐng)域,各有所長(zhǎng),無(wú)法泛泛推薦。如果說(shuō)常見(jiàn)的數(shù)據(jù)分析或統(tǒng)計(jì)分析軟件,如下幾個(gè)可供參考:
Excel/Matlab/Mathematica/SAS/SPSS
在帖子 https://zhuanlan.zhihu.com/p/22001341?refer=tigerchi 里也有對(duì)應(yīng)的總結(jié)。
8. 如何將大數(shù)據(jù)應(yīng)用在醫(yī)療保險(xiǎn)領(lǐng)域?
已經(jīng)有不少公司在做這方面的探索或應(yīng)用了,這個(gè)方向可能美國(guó)比較領(lǐng)先。
如Dignity Health在致力于開(kāi)發(fā)基于云的大數(shù)據(jù)平臺(tái),從而實(shí)現(xiàn)如預(yù)防性疾病管理、預(yù)測(cè)特定疾病風(fēng)險(xiǎn)、改善醫(yī)藥成本和產(chǎn)出。
又如United Healthcare使用醫(yī)療大數(shù)據(jù)(如:成員信息、索賠、醫(yī)院、醫(yī)療提供方、臨床等)去改善臨床醫(yī)療、監(jiān)控保險(xiǎn)欺詐和濫用等。
9. 數(shù)據(jù)分析這個(gè)職位的前景怎么樣?
個(gè)人覺(jué)得未來(lái)10-20年內(nèi)都會(huì)長(zhǎng)盛不衰,因?yàn)槲覀冞M(jìn)入了數(shù)據(jù)爆炸的時(shí)代,所有的東西都將是量化的,否則無(wú)法提煉和分析其價(jià)值,因而高級(jí)數(shù)據(jù)分析的職能不可或缺。
10. 大數(shù)據(jù)不能做什么?
大數(shù)據(jù)更多是給你一種宏觀的、趨勢(shì)性的、概率層面的判斷和分析,相對(duì)而言,目前還不擅長(zhǎng)對(duì)個(gè)體行為作出特別精準(zhǔn)的預(yù)判。
11. 國(guó)內(nèi)做專門做大數(shù)據(jù)的服務(wù)性公司多嗎?好像只是大公司在用大數(shù)據(jù)。
不完全是這樣的,只能說(shuō)巨頭在這個(gè)方向比較有優(yōu)勢(shì)罷了。除了那些巨頭,也有很多公司致力于大數(shù)據(jù)服務(wù),但他們大多針對(duì)企業(yè)推出大數(shù)據(jù)解決方案和服務(wù),很少直接為個(gè)人服務(wù)。目前國(guó)內(nèi)的個(gè)人消費(fèi)者尚未形成為數(shù)據(jù)買單的消費(fèi)習(xí)慣,同時(shí)使用場(chǎng)景和訴求也相對(duì)缺少。為避嫌,這里不列出相關(guān)公司名單,有興趣請(qǐng)自行Google。
12. 大數(shù)據(jù)是不是更強(qiáng)調(diào)的是數(shù)據(jù)的收集和處理,在數(shù)據(jù)處理完成后建模、可視化其實(shí)只是數(shù)據(jù)分析的過(guò)程了吧?
個(gè)人理解不完全是這樣。只要處理數(shù)據(jù)的數(shù)量級(jí)夠大,對(duì)應(yīng)的建模、挖掘、可視化等操作都要納入大數(shù)據(jù)的范疇。
13. 給大家推薦本書吧,講大數(shù)據(jù)和智能革命的。
如果一定要推薦,KK的《失控》雖然只字未提大數(shù)據(jù),但其中的思想精髓早已覆蓋了大數(shù)據(jù)和人工智能的范疇。國(guó)內(nèi)大數(shù)據(jù)的原創(chuàng)科普書籍精品貌似不多,涂子培所著《數(shù)據(jù)之巔》反響似乎不錯(cuò)。
14. 文科生可以學(xué)習(xí)大數(shù)據(jù)嘛?
當(dāng)然可以,人人都能用數(shù)據(jù)。
大數(shù)據(jù)本身就是比較跨界的領(lǐng)域,之前提到的數(shù)據(jù)可視化里,就有很多感性的思維存在,并不都是理性和邏輯,如果你的專業(yè)是心理學(xué),在數(shù)據(jù)可視化方向會(huì)有加分。
即便是邏輯類的知識(shí)技能,如Python等腳本語(yǔ)言,其學(xué)習(xí)門檻都很平易近人。
基本上,學(xué)習(xí)數(shù)據(jù)分析這件事僅僅取決于你入門的決心和驅(qū)動(dòng)力;至于能學(xué)到什么程度,只能說(shuō)因人而異。
15. 大數(shù)據(jù)可以預(yù)測(cè)股市漲跌嗎?
國(guó)外金融市場(chǎng)這方面的例子不少。像華爾街那幫高頻交易程序員和量化分析師們天天都在做各種不同的大數(shù)據(jù)模型和算法去預(yù)測(cè)股市行情,然后做交易。舉例如下:
基金公司Derwent Capital Markets在2012年通過(guò)分析Twitter上幾億條用戶的推文去將用戶情緒提煉出一套金融規(guī)則,以此為據(jù)預(yù)測(cè)股市行情。當(dāng)用戶冷靜時(shí),道瓊斯工業(yè)指數(shù)呈現(xiàn)上揚(yáng)趨勢(shì),而當(dāng)用戶情緒激動(dòng)時(shí),股指下跌明顯。
16. 數(shù)據(jù)的一體化流程,包括收集、處理、建模和可視化,是不是都要學(xué)會(huì)?
這倒不見(jiàn)得。能做全棧數(shù)據(jù)大神當(dāng)然很爽,但哪怕精通某一個(gè)環(huán)節(jié)也足以讓你人見(jiàn)人愛(ài)了。開(kāi)始入門的時(shí)候不要想太多,貪多嚼不爛,Excel也好、Python也好,找些資料和例子用起來(lái)最重要,抱著玩的態(tài)度上手,而不是一開(kāi)始就給自己很大的壓力。
17. 您覺(jué)得大數(shù)據(jù)時(shí)代真正意義上到來(lái)還有多少時(shí)間?
未來(lái)已來(lái),我們?cè)缇瓦M(jìn)入了大數(shù)據(jù)時(shí)代,現(xiàn)在可能還是人工智能的早期階段吧。建議每個(gè)人都早點(diǎn)從心態(tài)和行動(dòng)上準(zhǔn)備起來(lái),一起迎接這個(gè)偉大的數(shù)據(jù)時(shí)代。
18. 簡(jiǎn)單談?wù)劥髷?shù)據(jù)和人工智能之間的關(guān)系吧?
大數(shù)據(jù)和人工智能其實(shí)是一體兩面。
人工智能不是很新的事物,半個(gè)多世紀(jì)前就有了,計(jì)算機(jī)之父圖靈就早已研究了這個(gè)問(wèn)題,可以說(shuō),人工智能是伴隨著計(jì)算機(jī)而生的,計(jì)算機(jī)誕生的意義之一也就是為了應(yīng)對(duì)人工智能是否可以實(shí)現(xiàn)的挑戰(zhàn)。
而大數(shù)據(jù)的如火如荼是因?yàn)槲覀兣龅搅诉@個(gè)海量數(shù)據(jù)井噴的時(shí)代。1997年IBM的超級(jí)計(jì)算機(jī)深藍(lán)擊敗了國(guó)際象棋冠軍,就就是人工智能,但它當(dāng)時(shí)的性能還無(wú)法解決圍棋的復(fù)雜度問(wèn)題。
現(xiàn)在大家所熟知的這些數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)算法,很多在幾十年前就已經(jīng)提出來(lái)了,比如人工神經(jīng)網(wǎng)絡(luò)。只不過(guò)巧婦難為無(wú)米之炊,當(dāng)時(shí)沒(méi)有現(xiàn)在的移動(dòng)互聯(lián)網(wǎng)所帶來(lái)的海量數(shù)據(jù)給這些模型和算法做訓(xùn)練。如今像Google這樣的互聯(lián)網(wǎng)巨頭每時(shí)每刻產(chǎn)生的海量數(shù)據(jù)給這些模型的提供了優(yōu)良的訓(xùn)練環(huán)境,在大規(guī)模的樣本訓(xùn)練中逼近它們的性能極限。
可以說(shuō),海量數(shù)據(jù)的存在(巨大的訓(xùn)練樣本)大大優(yōu)化了人工智能的性能,人工智能的發(fā)展又反過(guò)來(lái)提升了大數(shù)據(jù)的價(jià)值,兩者相輔相成,一體兩面。
19. 在大量數(shù)據(jù)被BAT和Google等公司壟斷的情況下,對(duì)于一個(gè)細(xì)分行業(yè)的數(shù)據(jù),采集數(shù)據(jù)有沒(méi)有合適的方法論?
這個(gè)視行業(yè)而定。具體到不同行業(yè)而言,采集數(shù)據(jù)的方法不一而足,對(duì)于互聯(lián)網(wǎng)行業(yè),爬蟲是采集大數(shù)據(jù)的有力武器。再者,也并不是所有的數(shù)據(jù)都掌握在線上的互聯(lián)網(wǎng)巨頭手里,這也是一個(gè)物聯(lián)網(wǎng)時(shí)代,海量的傳感器們每時(shí)每刻在都在采集、存儲(chǔ)、上傳甚至處理著大數(shù)據(jù)。
20. 國(guó)內(nèi)互聯(lián)網(wǎng)公司對(duì)隱私的重視程度如何?
這個(gè)問(wèn)題其實(shí)不能局限到某個(gè)行業(yè)層面。中國(guó)的公司目前普遍對(duì)用戶的人身隱私的重視程度不夠,一般而言歐美在個(gè)人數(shù)據(jù)和隱私的保護(hù)機(jī)制更加健全,有很多相關(guān)的立法。
個(gè)人數(shù)據(jù)既是隱私也是資產(chǎn),希望大家盡早建立這樣的意識(shí),保護(hù)個(gè)人數(shù)據(jù),尊重他人隱私和數(shù)據(jù)資產(chǎn)。
21. 大公司數(shù)據(jù)分析的核心技術(shù)是不是算法?
我理解的核心技術(shù)是指核心競(jìng)爭(zhēng)力,它包括算法,但不限于算法。首先,獲得海量數(shù)據(jù)和用戶本身就是巨大的壁壘;其次,底層的數(shù)據(jù)倉(cāng)庫(kù)和基礎(chǔ)架構(gòu)也是很重要的技術(shù),如阿里云和OceanBase(分布式數(shù)據(jù)庫(kù))同樣是阿里在大數(shù)據(jù)方向的核心競(jìng)爭(zhēng)力。
22. 云計(jì)算和大數(shù)據(jù)這兩個(gè)概念的區(qū)別在哪?
簡(jiǎn)單來(lái)說(shuō),云計(jì)算是硬件資源的虛擬化,而大數(shù)據(jù)則是海量數(shù)據(jù)的高效處理。從產(chǎn)業(yè)鏈關(guān)系來(lái)看,云計(jì)算作為計(jì)算資源的底層,支撐著頂層的大數(shù)據(jù)處理。大數(shù)據(jù)離不開(kāi)云計(jì)算,但兩者的著眼點(diǎn)和應(yīng)用不太一樣。
題圖作者:William Stitt
圖片授權(quán)基于:CC0協(xié)議