帖子來自:大數(shù)據(jù)社區(qū)|大數(shù)據(jù)學(xué)習(xí)交流社區(qū)|大數(shù)據(jù)免費學(xué)習(xí)資源_大數(shù)據(jù)巴士
頭像
檸檬學(xué)院大數(shù)據(jù) LV1
2016-12-6 15:28:04
樓主
大數(shù)據(jù)入門書籍(二)
大數(shù)據(jù)是眼下非常時髦的技術(shù)名詞,自然也催生出了一些與大數(shù)據(jù)相關(guān)的職業(yè),通過對數(shù)據(jù)的分析挖掘來影響企業(yè)的商業(yè)決策。
這群人被稱做數(shù)據(jù)科學(xué)家(DataScientist),這個頭銜最早由D.J.Pati和JeffHammerbacher于2008年提出,他們后來分別成為了領(lǐng)英(LinkedIn)和Facebook數(shù)據(jù)科學(xué)團隊的負(fù)責(zé)人。而數(shù)據(jù)科學(xué)家目前也已經(jīng)在美國傳統(tǒng)的電信、零售、金融、制造、物流、醫(yī)療、教育等行業(yè)里開始創(chuàng)造價值。
不過在國內(nèi),大數(shù)據(jù)的應(yīng)用才處于萌芽狀態(tài),人才市場還不太成熟,每家公司對大數(shù)據(jù)工作的要求不盡相同:有的強調(diào)資料庫編程、有的突出應(yīng)用數(shù)學(xué)和統(tǒng)計學(xué)知識、有的則要求有咨詢公司相關(guān)的經(jīng)驗、有些是希望能找到懂得產(chǎn)品和市場的應(yīng)用型人才。正因為如此,很多公司會針對自己的業(yè)務(wù)類型和團隊分工,給這群與大數(shù)據(jù)打交道的人一些新的頭銜和定義:數(shù)據(jù)挖掘工程師、大數(shù)據(jù)專家、數(shù)據(jù)研究員、用戶分析專家等都是經(jīng)常在國內(nèi)公司里出現(xiàn)的Title,我們將其統(tǒng)稱為「大數(shù)據(jù)工程師」。
那么如何進行大數(shù)據(jù)的入門級學(xué)習(xí)呢?首先我們需要了解大數(shù)據(jù)工程師是做什么的以及需要具備什么樣的能力。
一:大數(shù)據(jù)工程師是做什么的?
用一句大數(shù)據(jù)研究員的話來說,大數(shù)據(jù)工程師就是一群「玩數(shù)據(jù)」的人,玩出數(shù)據(jù)的商業(yè)價值,讓數(shù)據(jù)變成生產(chǎn)力。大數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)的最大區(qū)別在于,它是在線的、實時的,規(guī)模海量且形式不規(guī)整,無章法可循,因此「會玩」這些數(shù)據(jù)的人就很重要。
分析歷史、預(yù)測未來、優(yōu)化選擇,這是大數(shù)據(jù)工程師在「玩數(shù)據(jù)」時最重要的三大任務(wù)。通過這三個工作方向,他們幫助企業(yè)做出更好的商業(yè)決策。
二:需要具備的能力
數(shù)學(xué)及統(tǒng)計學(xué)相關(guān)的背景
就采訪過的BAT三家互聯(lián)網(wǎng)大公司來說,對于大數(shù)據(jù)工程師的要求都是希望有統(tǒng)計學(xué)和數(shù)學(xué)背景的碩士或博士學(xué)歷。缺乏理論背景的數(shù)據(jù)工作者,更容易進入一個技能上的危險區(qū)域(DangerZone)—一堆數(shù)字,按照不同的數(shù)據(jù)模型和演算法總能捯飭出一些結(jié)果來,但如果你不知道那代表什么,就不是真正有意義的結(jié)果,并且那樣的結(jié)果還容易誤導(dǎo)你。但是,有統(tǒng)計學(xué)和數(shù)據(jù)碩士和博士的能是很少的,又是學(xué)習(xí)大數(shù)據(jù)的那就更少了,所以,對于現(xiàn)在的大數(shù)據(jù)從業(yè)人員,90%都沒有那么高的學(xué)位,只要你能完成企業(yè)交給你的任務(wù),就行了。正所謂不看學(xué)歷,只看能力,就是這個道理。
電腦編碼能力
實際開發(fā)能力和大規(guī)模的數(shù)據(jù)處理能力是作為大數(shù)據(jù)工程師的必備要素。舉例來說,現(xiàn)在人們在社交網(wǎng)路上所產(chǎn)生的許多記錄都是非結(jié)構(gòu)化的數(shù)據(jù),如何從這些毫無頭緒的文字、語音、圖像甚至視頻中攫取有意義的信息就需要大數(shù)據(jù)工程師親自挖掘。即使在某些團隊中,大數(shù)據(jù)工程師的職責(zé)以商業(yè)分析為主,但也要熟悉電腦處理大數(shù)據(jù)的方式。
三:如何進行入門級學(xué)習(xí)
雖然數(shù)據(jù)科學(xué)并沒有一個獨立的學(xué)科體系,統(tǒng)計學(xué),機器學(xué)習(xí),數(shù)據(jù)挖掘,資料庫,分散式計算,云計算,信息可視化等技術(shù)或方法都可以來對付數(shù)據(jù)。但從狹義上來看,數(shù)據(jù)科學(xué)就是解決三個問題:
1.datapre-processing;
2.datainterpretation;
3.datamodelingandanalysis.
這也就是做數(shù)據(jù)工作的三個大步驟:
1、原始數(shù)據(jù)要經(jīng)過一連串收集、提取、清洗、整理等等的預(yù)處理過程,才能形成高質(zhì)量的數(shù)據(jù);
2、數(shù)據(jù)「長什么樣」,有什么特點和規(guī)律;
3、按照需要,比如要對數(shù)據(jù)貼標(biāo)簽分類,或者預(yù)測,或者想要從大量復(fù)雜的數(shù)據(jù)中提取有價值的且不易發(fā)現(xiàn)的信息,都要對數(shù)據(jù)建模,得到output。
這三個步驟未必嚴(yán)謹(jǐn),每個大步驟下面可能根據(jù)問題的不同也會有不同的小步驟,但按照這個大思路走,數(shù)據(jù)一般不會做跑偏。
四:有哪些適合初學(xué)者的書籍
這樣看來,數(shù)據(jù)科學(xué)其實就是門復(fù)合型的技術(shù),既然是技術(shù)就從編程語言談起,為了簡練,只說說R和Python。但既然是推薦數(shù)據(jù)科學(xué)方面的書,就不提R/Python編程基礎(chǔ)之類的書了,直接說跟數(shù)據(jù)科學(xué)相關(guān)的。
1:Rprogramming
如果只是想初步了解一下R語言已經(jīng)R在數(shù)據(jù)分析方面的應(yīng)用,那不妨就看看這兩本:
2:Rinaction:其實對于一個沒有任何編程基礎(chǔ)的人來說,一開始就學(xué)這本書,學(xué)習(xí)曲線可能會比較陡峭。但如果配合上一些輔助材料,如官方發(fā)布的Rbasics,stackoverflow上有tag-R的問題集(Newest『r』Questions),遇到復(fù)雜的問題可在上面搜索,總會找到解決方案的。這樣一來,用這本書拿來入門學(xué)習(xí)也問題不大。而且這本書作者寫得也比較輕松,緊貼實戰(zhàn)。
3:DataanalysisandgraphicswithR:使用R語言做數(shù)據(jù)分析的入門書。這本書的特點也是緊貼實戰(zhàn),沒有過多地講解統(tǒng)計學(xué)理論,所以喜歡通過情境應(yīng)用來學(xué)習(xí)的人應(yīng)該會喜歡這本入門書。而且這本書可讀性比較強,也就是說哪怕你手頭沒電腦寫不了代碼,有事沒事拿出這本書翻一翻,也能讀得進去。
但如果你先用R來從事實實在在的數(shù)據(jù)工作,那么上面兩本恐怕不夠,還需要這些:
4:ModernappliedstatisticswithS:這本書里統(tǒng)計學(xué)的理論就講得比較多了,好處就是你可以用一本書既復(fù)習(xí)了統(tǒng)計學(xué),又學(xué)了R語言。(S/Splus和R的關(guān)系就類似于Unix和Linux,所以用S教程學(xué)習(xí)R,一點問題都沒有)
5:DatamanipulationwithR:這本書實務(wù)性很強,它教給你怎么從不同格式的原始數(shù)據(jù)文件里讀取、清洗、轉(zhuǎn)換、整合成高質(zhì)量的數(shù)據(jù)。當(dāng)然和任何一本注重實戰(zhàn)的書一樣,這本書也有豐富的真實數(shù)據(jù)和模擬數(shù)據(jù)供你練習(xí)。對于真正從事數(shù)據(jù)處理工作的人來說,這本書的內(nèi)容非常重要,因為對于任何研究,一項熟練的數(shù)據(jù)預(yù)處理技能可以幫你節(jié)省大量的時間和精力。否則,你的研究總是要等待你的數(shù)據(jù)。
6:RGraphicsCookbook:想用R做可視化,就用這本書。150多個recipes,足以應(yīng)付絕大多數(shù)類型的數(shù)據(jù)。
7:AnintroductiontostatisticallearningwithapplicationinR:這本書算是著名的theelementofstatisticallearning的姊妹篇,后者更注重統(tǒng)計(機器)學(xué)習(xí)的模型和演算法,而前者所涉及的模型和演算法原沒有后者全面或深入,但卻是用R來學(xué)習(xí)和應(yīng)用機器學(xué)習(xí)的很好的入口。
8:AhandbookofstatisticalanalysisusingR:這本書內(nèi)容非常扎實,很多統(tǒng)計學(xué)的學(xué)生就是用這本書來學(xué)慣用R來進行統(tǒng)計建模的。
9:Python
ThinkPython,ThinkStats,ThinkBayes:這是AllenB.Downey寫的著名的ThinkXseries三大卷。其實是三本精致的小冊子,如果想快速地掌握Python在統(tǒng)計方面的操作,好好閱讀這三本書,認(rèn)真做習(xí)題,答案鏈接在書里有。這三本書學(xué)通了,就可以上手用Python進行基本的統(tǒng)計建模了。
10:PythonForDataAnalysis:作者是pandas的主要開發(fā)者,也正是Pandas使Python能夠像R一樣擁有dataframe的功能,能夠處理結(jié)構(gòu)比較復(fù)雜的數(shù)據(jù)。這本書其實analysis講得不多,說成數(shù)據(jù)處理應(yīng)該更合適。掌握了這本書,處理各種糟心的數(shù)據(jù)就問題不大了。
11:IntroductiontoPythonforEconometrics,StatisticsandDataAnalysis:這本書第一章就告訴你要安裝Numpy,Scipy,Matplotlib,Pandas,IPython等等。然后接下來的十好幾章就是逐一介紹這幾個庫該怎么用。很全面,但讀起來比較枯燥,可以用來當(dāng)工具書。
12:PythonDataVisualizationCookbook:用Python做可視化的教材肯定不少,我看過的也就這一本,覺得還不錯。其實這類書差別都不會很大,咬住一本啃下來就是王道。
?1
全部回復(fù)只看樓主 倒序排列
頭像 admin 2樓
感謝樓主{author}分享!給你233個贊!
在大數(shù)據(jù)巴士~開開心心學(xué)大數(shù)據(jù)!
2016-12-7 18:16:47
回復(fù) ?