學(xué)習(xí) Python
- 對(duì)于慕課網(wǎng), 它提供在線編輯器, 如果大家在機(jī)房上課時(shí)不需要安裝好環(huán)境即可進(jìn)行Python的編程學(xué)習(xí), 非常方便
- 一般而言官方文檔更具權(quán)威性, 所涉及的內(nèi)容也是最全面最新的, 并且官網(wǎng)還會(huì)提供Api(接口文檔)可方便查看各函數(shù)和類的作用和使用方式
Python相關(guān)庫的學(xué)習(xí)
對(duì)于相關(guān)庫的學(xué)習(xí), 我們目前的主要目標(biāo)是學(xué)會(huì)將庫運(yùn)用在機(jī)器學(xué)習(xí)當(dāng)中, 故此暫時(shí)不必太過深入, 在用多了以后再深入其原理和機(jī)制會(huì)達(dá)到更好的效果
0. Numpy: 創(chuàng)建和處理數(shù)值數(shù)據(jù), 數(shù)組和矩陣的擴(kuò)展模塊
Numpy 是一個(gè)用python實(shí)現(xiàn)的科學(xué)計(jì)算包。提供了許多強(qiáng)大的數(shù)據(jù)運(yùn)算函數(shù)如: 矩陣數(shù)據(jù)類型、矢量處理,以及精密的運(yùn)算庫
學(xué)習(xí)完P(guān)ython你會(huì)發(fā)現(xiàn)Python使用了list來代替array, list的效率并不高, 但慶幸的是我們有numpy, 其提供了數(shù)組和矩陣, numpy的許多函數(shù)不僅是用C實(shí)現(xiàn)了,還使用了BLAS. 在以后機(jī)器學(xué)習(xí)當(dāng)中, 從文件中讀取數(shù)據(jù)后我們通常會(huì)使用numpy的數(shù)據(jù)結(jié)構(gòu)來存取變量, 并且許多第三方庫的操作都會(huì)依賴于numpy的數(shù)據(jù)結(jié)構(gòu)進(jìn)行
1. Matplotlib: 2D繪圖庫, 將數(shù)據(jù)可視化
Matplotlib 是一個(gè)2D繪圖庫, 我們?cè)谧x取了數(shù)據(jù)之后可調(diào)用該庫的函數(shù)來將數(shù)據(jù)可視化, 數(shù)據(jù)可視化后可以讓我們更好的發(fā)現(xiàn)數(shù)據(jù)的規(guī)律
在這里直接舉個(gè)例子展示可視化的重要性
假設(shè)我們?cè)诮鉀Q一個(gè)分類問題, 我們?cè)谧x取訓(xùn)練數(shù)據(jù)后, 將其可視化后可看出三種不同分類的大致分布情況, 并得知setosa一類較其他兩類會(huì)更容易區(qū)分出來, 該圖正是通過調(diào)用matplotlib的庫實(shí)現(xiàn)的

2. Pandas: 數(shù)據(jù)的處理和清洗
Pandas 納入了大量庫和一些標(biāo)準(zhǔn)的數(shù)據(jù)模型,提供了高效地操作大型數(shù)據(jù)集所需的工具。pandas提供了大量能使我們快速便捷地處理數(shù)據(jù)的函數(shù)和方法
Pandas在機(jī)器學(xué)習(xí)中非常有用, 其方便我們對(duì)大量的數(shù)據(jù)進(jìn)行增刪改查操作
3. Seaborn: 數(shù)據(jù)可視化的庫
Matplotlib是Python主要的繪圖庫。雖然Matplotlib很強(qiáng)大,它本身就很復(fù)雜,經(jīng)常需要大量的調(diào)整才能將圖表變精致。seaborn是斯坦福大學(xué)出的一個(gè)非常好用的可視化包。為了控制matplotlib圖表的外觀,seaborn模塊自帶許多定制的主題和高級(jí)的接口。
使用seaborn可以加快我們數(shù)據(jù)可視化的效率, 其提供許多內(nèi)置的函數(shù)使作圖更加容易.j