自從《哈佛商業(yè)評論》宣布,“數(shù)據(jù)科學(xué)家”是二十一世紀(jì)最性感的職業(yè)之后,數(shù)據(jù)科學(xué)方面的工作就越發(fā)增多,薪資也變得很高。對于數(shù)據(jù)科學(xué)來說,現(xiàn)在是發(fā)展的黃金時期。這是個新領(lǐng)域,但增長迅速,同時數(shù)據(jù)科學(xué)家的缺口也很大,據(jù)說他們的平均年薪可以達(dá)到10萬美元。哪里有高薪,哪里就吸引人們,但是數(shù)據(jù)科學(xué)技能的差距意味著許多人需要努力學(xué)習(xí)。
如何從頭開始學(xué)習(xí)數(shù)據(jù)科學(xué),我認(rèn)為數(shù)據(jù)科學(xué)就是解決三個問題:
- data pre-processing;(數(shù)據(jù)預(yù)處理)
- data interpretation;(數(shù)據(jù)解讀)
3.data modeling and analysis.(數(shù)據(jù)建模與分析)
數(shù)據(jù)科學(xué)其實就是門復(fù)合型的技術(shù),既然是技術(shù)就要從編程語言談起:
Python這門語言對于數(shù)據(jù)科學(xué)是非常重要的,Python擁有著極其豐富且穩(wěn)定的數(shù)據(jù)科學(xué)工具環(huán)境。因為是關(guān)于數(shù)據(jù)科學(xué),我就不推薦直接關(guān)于Python語言的書。

本書基于易于理解且具有數(shù)據(jù)科學(xué)相關(guān)的豐富的庫的Python語言環(huán)境,從零開始講解數(shù)據(jù)科學(xué)工作。具體內(nèi)容包括:Python速成,可視化數(shù)據(jù),線性代數(shù),統(tǒng)計,概率,假設(shè)與推斷,梯度下降法,如何獲取數(shù)據(jù),k近鄰法,樸素貝葉斯算法??梢杂糜谌腴T,了解數(shù)據(jù)科學(xué)的基本工作流程。

貝葉斯正在變得越來越常見與重要,對于數(shù)據(jù)科學(xué)來講,用到的地方很多。本書簡要介紹了貝葉斯統(tǒng)計法,用python建模,案例很多,很有意思,比單純的介紹貝葉斯統(tǒng)計學(xué)要容易理解。

《利用Python進(jìn)行數(shù)據(jù)分析》適合剛剛接觸Python的分析人員以及剛剛接觸科學(xué)計算的Python程序員。介紹了NumPy(NumericalPython)的基礎(chǔ)和高級知識;從pandas庫的數(shù)據(jù)分析工具開始利用高性能工具對數(shù)據(jù)進(jìn)行加載、清理、轉(zhuǎn)換、合并以及重塑;利用matpIotlib創(chuàng)建散點圖以及靜態(tài)或交互式的可視化結(jié)果;利用pandas的groupby功能對數(shù)據(jù)集進(jìn)行切片、切塊和匯總操作;處理各種各樣的時間序列數(shù)據(jù)。
關(guān)于python篇的介紹就到這了,除了看這些書,可以在網(wǎng)上的MOOC上找一些關(guān)于數(shù)據(jù)科學(xué)的視頻課程可以看看。下一篇我就來介紹R語言的如何開始數(shù)據(jù)科學(xué)的學(xué)習(xí)。
本人介紹:老實人一個,python愛好者,剛剛進(jìn)入數(shù)據(jù)科學(xué)