簡(jiǎn)介
一個(gè)高效數(shù)據(jù)處理庫(kù),建立在Numpy基礎(chǔ)上。
安裝
conda install pandas #conda安裝
導(dǎo)入方法
import pandas as pd
基本使用方法
使用前,需要了解pandas有三種常見(jiàn)的數(shù)據(jù)結(jié)構(gòu),依次是:Series(序列),DateFrame(數(shù)據(jù)框),Panel(面板)??梢赃@樣理解,Panel是DateFrame的容器,DateFrame是Series的容器。DateFrame是最常用的數(shù)據(jù)結(jié)構(gòu)。
所以本文檔先介紹DateFrame的相關(guān)操作:
DateFrame是二維的帶標(biāo)簽的各列數(shù)據(jù)類(lèi)型可以不同的數(shù)據(jù)結(jié)構(gòu)??梢韵胂蟪呻娮颖砀窕蛘咦值湫蛄袛?shù)據(jù)結(jié)構(gòu)。
# 創(chuàng)建一個(gè)空的DataFrame
import pandas as pd
df = pd.DataFrame()
print(df)
#從列表創(chuàng)建DataFrame
import pandas as pd
data = [1,2,3,4,5]
df = pd.DataFrame(data)
print(df)
#使用字典結(jié)構(gòu)創(chuàng)建DataFrame
import pandas as pd
data = {'Name':['Tom', 'Jack', 'Steve', 'Ricky'],'Age':[28,34,29,42]}
df = pd.DataFrame(data)
print(df)
#通過(guò)傳遞columns參數(shù)來(lái)設(shè)置各列的順序
pd.DataFrame(data,columns=['Age','Name'])
#通過(guò)index參數(shù)定義各行標(biāo)簽
pd.DataFrame(data,index=['a','b','c','d'])
#選擇特定列
df['Age']
#刪除特定列
del df['Age']
#插入特定列
df.insert(0,'Age',[1,2,3,4])
讀寫(xiě)數(shù)據(jù)
- pandas提供了多種讀/寫(xiě)數(shù)據(jù)的接口,讀/寫(xiě)數(shù)據(jù)的范圍主要包括讀取文本數(shù)據(jù),從數(shù)據(jù)庫(kù)中讀取數(shù)據(jù),和其他庫(kù)中的數(shù)據(jù)交互。
- pandas可以讀取各種格式的文本數(shù)據(jù),并將它們轉(zhuǎn)換成DataFrame(數(shù)據(jù)框)。
- read_csv和read_table是讀取文本數(shù)據(jù)的兩個(gè)重要函數(shù)。
#直接讀取CSV文件
import pandas as pd
df=pd.read_csv('./example_1.csv')
print(df)
#使用read_table讀取文件(需定義分隔符)
df=pd.read_table('./example_1.csv',sep=',')
print(df)
#head默認(rèn)為第一行數(shù)據(jù)
df.head
#把數(shù)據(jù)寫(xiě)入文本中(以下為例子)
import numpy as np
import pandas as pd
data=pd.DataFrame(np.random.rand(4,4))
data.to_csv('./example_2.csv')