隨著大數(shù)據(jù)的發(fā)展,數(shù)據(jù)驅(qū)動被更多人談起,數(shù)據(jù)分析和挖掘越來越受企業(yè)界的重視。
python作為數(shù)據(jù)分析領(lǐng)域發(fā)展最快的編程語言,是入門數(shù)據(jù)科學(xué)的不二之選。
可以說,在21世紀(jì)每個人都應(yīng)該掌握編程和數(shù)據(jù)分析能力,才能更好地在大數(shù)據(jù)時代生存。
Python做數(shù)據(jù)分析有著得天獨厚的優(yōu)勢。
首先Python是一門高級編程語言,語法簡單,可以編寫復(fù)雜的分析代碼;其次Python開發(fā)社區(qū)非常強大,開源了很多優(yōu)秀的數(shù)據(jù)科學(xué)第三方庫,比如:pandas、numpy、matplotlib、sklearn、keras等等。有了這些庫,python才在數(shù)據(jù)科學(xué)領(lǐng)域獨領(lǐng)風(fēng)騷。
這幾天意外地在Github上發(fā)現(xiàn)一份非常棒的數(shù)據(jù)科學(xué)備忘小抄,作者將python、pandas、matplotlib、sklearn、keras等工具的使用方法、函數(shù)都匯總在一張表上,簡潔易懂。
下圖是對python數(shù)據(jù)科學(xué)過程的一個概覽:
python數(shù)據(jù)科學(xué)流程,圖片來源github
以下圖片均來自GitHub項目:
https://github.com/FavioVazquez/ds-cheatsheets
Python基礎(chǔ)
Pandas基礎(chǔ)
Pandas高級
數(shù)據(jù)導(dǎo)入
Numpy基礎(chǔ)
Jupyter?Notebook
Matplotlib可視化
Scipy-線性代數(shù)
Seaborn可視化
Bokeh可視化
Keras深度學(xué)習(xí)
Scikit-Learn機器學(xué)習(xí)
Python數(shù)據(jù)可視化案例
Pyspark-SQL基礎(chǔ)
Pyspark-RDD基礎(chǔ)
以上僅展示部分備忘小抄,更多還有R數(shù)據(jù)科學(xué)、Python機器學(xué)習(xí)、Python深度學(xué)習(xí)等。
