讀取,輸出數(shù)據(jù)集:
import pandas
myData = pandas.read_csv("E:\Anaconda\Salary_Data.csv")??? #myData類型為DataFrame類型
print (myData.dtypes)
print (type(myData))
print (myData)

myData的類型為DataFrame(可以看作是矩陣),讀取的數(shù)據(jù)中有常見的3種類型int , float 和object(String)。
print (salary_Data.head(4) ) ???? #輸出salary_Data的前4條數(shù)據(jù),默認(rèn)5條
print (salary_Data.tail(4))? ????? #輸出尾部4條
print (salary_Data.columns) ??? #輸出每個(gè)feature的名字
print (salary_Data.shape) ????? #輸出數(shù)據(jù)的行列

從數(shù)據(jù)集提取數(shù)據(jù):
按行?。?/p>
print (salary_Data.loc[1])?????? #輸出index為1的數(shù)據(jù)
print (salary_Data.loc[0:3]) ??? #輸出index為0到3(包括3)的數(shù)據(jù)
print (salary_Data.loc[[0,4]]) ? #輸出index為0和4的數(shù)據(jù)

按列取:
print (salary_Data["Salary"]??? #輸出特征為Salary列的值
print (salary_Data["Salary"].loc[0:3]) ??? #取出Salary列的index為0到3的值
按要求?。?/p>
可以使用salary_Data.columns.tolist()將所有column轉(zhuǎn)換成一個(gè)list再使用for循環(huán)遍歷list挑選出符合條件的數(shù)據(jù)。

向已有的數(shù)據(jù)中加入新的列:
print (salary_Data.shape)
salary2 = salary_Data["Salary"] / 10????? #salary2的行數(shù)與Salary行數(shù)一致
salary_Data["Salary2"] = salary2????? #將salary2加入到新建的Salary2列中
print (salary_Data.head(2))
print (salary_Data.shape)

獲取某列一列的最值:
print salary_Data.head(5)
print salary_Data["Salary"].min()????? #獲取Salary列中的最小值

使用apply()函數(shù)調(diào)用自定義函數(shù):

import pandas as pd
titanic = pd.read_csv("E:/Anaconda/MachineLearningData/Titanic/test.csv")
def hundred_row(column):???? #自定義的函數(shù)用來(lái)輸出參數(shù)的第100行的數(shù)據(jù)
? ? hendredth_data = column.loc[99]
? ? return hendredth_data
hundred_value = titanic.apply(hundred_row)??? #使用apply來(lái)調(diào)用自定義函數(shù)
print hundred_value

def class_level(value):
? ? p_class = value["Pclass"]
? ? if pd.isnull(p_class):
? ? ? ? return "Unknown"
? ? elif p_class == 1:
? ? ? ? return "1 LEVEL"
? ? elif p_class == 2:
? ? ? ? return "2 LEVEL"
? ? elif p_class == 3:
? ? ? ? return "3 LEVEL"
class_level = titanic.apply(class_level,axis=1)????? #axis=0 豎著算(結(jié)果顯示column),1橫著算(結(jié)果顯示index)
print class_level
