編程語(yǔ)言只是工具,核心在于你要做什么,很多python的高級(jí)方法和語(yǔ)言特性,前期可以全部不管。
作為數(shù)據(jù)分析和建模,先用python實(shí)現(xiàn)基本的需求,更高級(jí)的用法慢慢掌握,萬(wàn)事開(kāi)頭難。
一、掌握基本的數(shù)據(jù)結(jié)構(gòu)和控制流程(1周即可)
基本的數(shù)據(jù)結(jié)構(gòu):元組、列表、字典。
基本的控制流程:if判斷、for循環(huán)、while循環(huán)。
剩下的事情就是把數(shù)據(jù)存在合適的數(shù)據(jù)結(jié)構(gòu)中,然后使用控制流程操作數(shù)據(jù)。
其實(shí)數(shù)據(jù)操作和sql很像,就是增刪改排序查找,不同數(shù)據(jù)結(jié)構(gòu)有不同的方法,需要掌握,大致知道就好,用多了就熟了。
可以如下百度(示例如下):python 列表操作
https://www.cnblogs.com/Devilf/p/8039805.html
二、掌握pandas包的數(shù)據(jù)操作(1-2個(gè)月為宜)
python的優(yōu)勢(shì):包。通過(guò)導(dǎo)入包,利用別人封裝好的方法,可以更加高效的處理數(shù)據(jù)。
數(shù)據(jù)處理基本上用pandas就夠了(熟悉之后可以逐步使用numpy、scipy等),pandas學(xué)習(xí)方法:
1、10 minutes to pandas(http://pandas.pydata.org/pandas-docs/stable/getting_started/10min.html),官網(wǎng)的入門教程,雖然是英文,但很好讀,花一周堅(jiān)持讀下來(lái),會(huì)對(duì)pandas有很清晰的了解。
2、pandas的核心在于:
將數(shù)據(jù)存儲(chǔ)為dataframe類型,然后基于此數(shù)據(jù)類型進(jìn)行數(shù)據(jù)操作。
常見(jiàn)的數(shù)據(jù)操作有:數(shù)據(jù)輸入輸出、篩選數(shù)據(jù)、groupby數(shù)據(jù)、時(shí)間數(shù)據(jù)操作、數(shù)據(jù)可視化。閱讀官方教程即可:
http://pandas.pydata.org/pandas-docs/stable/getting_started/basics.html
3、閱讀Python for Data Analysis,中文版是:利用Python進(jìn)行數(shù)據(jù)分析?;臼窃诟釉敿?xì)的介紹如何使用pandas操作數(shù)據(jù)。
三、數(shù)據(jù)建模(長(zhǎng)期,難點(diǎn)在于知道應(yīng)該做什么,具體實(shí)現(xiàn)熟了很簡(jiǎn)單)
建模常用的包有pytorch、sklearn、tensorflow等,使用sklearn就可以滿足常見(jiàn)建模需求。
事實(shí)上,利用包建模很簡(jiǎn)單,基本就是:
1、導(dǎo)入包
2、利用包已實(shí)現(xiàn)的算法fit一下訓(xùn)練數(shù)據(jù)得到model;
3、利用model對(duì)測(cè)試數(shù)據(jù)做個(gè)predict;
4、利用各種模型性能評(píng)價(jià)指標(biāo)評(píng)估m(xù)odel性能。
5、調(diào)整參數(shù)、入模變量等,得到滿足性能指標(biāo)的model。
大量的工作是花費(fèi)在調(diào)參和模型性能指標(biāo)的驗(yàn)證上的,因?yàn)樾阅苤笜?biāo)可以反饋出數(shù)據(jù)本身的特點(diǎn)以及如何更好的調(diào)參得到好的模型。
四、其他
有了基礎(chǔ)后,注意提高自己的代碼效率或者通過(guò)不同的方法得到更好的結(jié)果。
可以關(guān)注pythonic方面的文章,會(huì)提高自己的編程能力。