利用Python進行數據分析-讀書筆記(3)

pandas專門為處理表格和混雜數據設計
import pandas as pd
from pandas import Series,DataFrame

5.1 pandas數據結構

Series 類似于一維數組+索引
data = pd.Series([1,2,3,4,5]) 生成Series數據
data.values data.index
pd.Series([1,2],index = ['a','b']) 設置索引
data['a'] 通過索引選取Series中單個或一組值
data[data%2==0] 進行類似numpy數組的運算index仍會保留
'a' in data
pd.Series(python字典) 可以通過python字典創(chuàng)建Series
可以通過設置index改變Series元素順序
缺失值用NaN表示
pd.isnull(data) 檢測缺失數據
pd.notnull
data1 + data2 可以根據索引自動對齊數據進行運算,類似join操作
data.name data.index.name 可賦值
index可以通過賦值方式修改
pd.DataFrame(XXX)傳入元素為等長列表或np數組組成的字典可以生成DataFrame數據,字典key值為列名
frame.head() 前五行
pd.DataFrame(XXX, columns = [xxx], index = [xxxxx]) 可能產生NaN
frame['a'] 取列名為a的一列數據 等價于 frame.a(此時a需要是合理的變量名) 可以以列表形式取多列數據 返回的Series序列索引與原DataFrame相同
frame.loc[0] 行選取
可以用一個Series/值對某列賦值,需要長度相等
對不存在的列賦值可創(chuàng)建新列
del frame[列名] 刪除列
通過索引方式返回數據視圖,修改此返回數據也會影響源數據,Series.copy()可以創(chuàng)建副本
嵌套字典傳給DataFrame,外層字典的鍵作為列名,內層鍵作為行索引
frame.T 轉置

3.png

frame.columns.name frame.index.name
frame.values
index對象不可更改
不可變可以使Index對象在多個數據結構之間安全共享
labels = pd.Index(np.arange(3))
obj2 = pd.Series([1.5, -2.5, 0], index=labels)
obj2.index is labels→True
in操作可以用于index對象 查看某元素是否屬于index對象
index對象可以包含重復的標簽
4.jpg

5.2 基本功能

重新索引

frame.reindex(新索引列表) 根據新索引重排,若索引值當前不存在則NaN
列可以用columns關鍵字重新索引
obj3 = pd.Series(['blue', 'purple', 'yellow'], index=[0, 2, 4])
obj3.reindex(range(6), method='ffill') ffill實現前向值填充
reindex可以修改(行)索引和列。只傳遞一個序列時,會重新索引結果的行,列可以用columns關鍵字重新索引

5.jpg

series.drop(索引列表) 刪除Series行
frame.drop(行索引列表) 刪除行
frame.drop(列名列表, axis=1) 刪除列
frame..drop('c', inplace=True) 原地更改對象

索引、選取和過濾

Series索引
series(索引列表/數值范圍切片) 選取對應元素

?著作權歸作者所有,轉載或內容合作請聯系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容