大數(shù)據(jù)的入門級學(xué)習(xí)_上海大數(shù)據(jù)分析機構(gòu)

大數(shù)據(jù)時代,成為一名合格優(yōu)秀的數(shù)據(jù)分析師應(yīng)該是好多人的夢想。不過萬丈高樓平地起啊,想成為一名稱職的數(shù)據(jù)師,扎實堅硬的基礎(chǔ)是少不了的。所以學(xué)習(xí)的初步,必須不能過于心急氣躁,一定要沉得住氣,一步一個腳印,終究會達(dá)成目標(biāo)的。下面就來和大家講講怎樣進(jìn)行大數(shù)據(jù)的入門級學(xué)習(xí),希望能給未來大數(shù)據(jù)分析師的你帶來一些幫助。

數(shù)據(jù)科學(xué)并沒有一個獨立的學(xué)科體系,統(tǒng)計學(xué),機器學(xué)習(xí),數(shù)據(jù)挖掘,數(shù)據(jù)庫,分布式計算,云計算,信息可視化等技術(shù)或方法來對付數(shù)據(jù)。

但從狹義上來看,我認(rèn)為數(shù)據(jù)科學(xué)就是解決三個問題:

1. data pre-processing;(數(shù)據(jù)預(yù)處理)

2. data interpretation;(數(shù)據(jù)解讀)

3.data modeling and analysis.(數(shù)據(jù)建模與分析)

這也就是我們做數(shù)據(jù)工作的三個大步驟:

1、原始數(shù)據(jù)要經(jīng)過一連串收集、提取、清洗、整理等等的預(yù)處理過程,才能形成高質(zhì)量的數(shù)據(jù);

2、我們想看看數(shù)據(jù)“長什么樣”,有什么特點和規(guī)律;

3、按照自己的需要,比如要對數(shù)據(jù)貼標(biāo)簽分類,或者預(yù)測,或者想要從大量復(fù)雜的數(shù)據(jù)中提取有價值的且不易發(fā)現(xiàn)的信息,都要對數(shù)據(jù)建模。

這三個步驟未必嚴(yán)謹(jǐn),每個大步驟下面可能依問題的不同也會有不同的小步驟,但按我這幾年的經(jīng)驗來看,按照這個大思路走,數(shù)據(jù)一般不會做跑偏。

這樣看來,數(shù)據(jù)科學(xué)其實就是門復(fù)合型的技術(shù),既然是技術(shù)就從編程語言談起吧,為了簡練,只說說R和Python。但既然是薦數(shù)據(jù)科學(xué)方面的書,我這里就不提R/Python編程基礎(chǔ)之類的書了,直接上跟數(shù)據(jù)科學(xué)相關(guān)的。

R programming

如果只是想初步了解一下R語言已經(jīng)R在數(shù)據(jù)分析方面的應(yīng)用,那不妨就看看這兩本:

但如果你先用R來從事實實在在的數(shù)據(jù)工作,那么上面兩本恐怕不夠,還需要這些:

Modern applied statistics with S:這本書里統(tǒng)計學(xué)的理論就講得比較多了,好處就是你可以用一本書既復(fù)習(xí)了統(tǒng)計學(xué),又學(xué)了R語言。

Data manipulation with R:這本書實務(wù)性很強,它教給你怎么從不同格式的原始數(shù)據(jù)文件里讀取、清洗、轉(zhuǎn)換、整合成高質(zhì)量的數(shù)據(jù)。當(dāng)然和任何一本注重實戰(zhàn)的書一樣,本書也有豐富的真實數(shù)據(jù)或模擬數(shù)據(jù)供你練習(xí)。對于真正從事數(shù)據(jù)處理工作的人來說,這本書的內(nèi)容非常重要,因為對于任何研究,一項熟練的數(shù)據(jù)預(yù)處理技能可以幫你節(jié)省大量的時間和精力。否則,你的研究總是要等待你的數(shù)據(jù)。

Python

Think Python,Think Stats,Think Bayes:這是Allen B. Downey寫的著名的Think X series三大卷。其實是三本精致的小冊子,如果想快速地掌握Python在統(tǒng)計方面的操作,好好閱讀這三本書,認(rèn)真做習(xí)題,答案鏈接在書里有。這三本書學(xué)通了,就可以上手用Python進(jìn)行基本的統(tǒng)計建模了。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容