data.frame 實用方法
-
pd.read_csv讀入文件作為data.frame
?header:指定是否有標(biāo)題,None無標(biāo)題
?sep:指定文件分隔符 超級實用 -
df.shape返回df的行數(shù)和列數(shù) 超級實用 -
df.columns返回列名 -
df.info()返回df各變量的信息 -
df["列名"]選取某列數(shù)據(jù) -
df.describe()返回數(shù)值類型列的描述性統(tǒng)計結(jié)果,包含均值、標(biāo)準(zhǔn)差、范圍等。 -
df.head()顯示數(shù)據(jù)前5行 超級實用 -
df.sort_values(by= , ascending=False)按照by指定列進行排序,默認(rèn)為升序,使用ascending=False改為降序。 超級實用 -
df['列名'].mean對任意一列計算均值 -
df['列名'].min對任意一列計算最小值 -
df['列名'].max對任意一列計算最大值 -
df['列名'].sum對任意一列求和。,此外,可對bool行求和,以獲得True的個數(shù) -
df['列名'] == 1索引,該列值是否等于1 ,返回True或False -
df[df['列名'] == 1]返回符合索引條件的行,屬性依舊是data.frame。超級實用 -
df[(df['列名a'] == 1) & (df['列名b'] == 1)]結(jié)合邏輯判斷使用多個索引條件。超級實用
data.frame 子集提取命令 loc, iloc
loc為名稱索引,iloc為數(shù)字索引
-
df.loc['行名']按行名提取子集 -
df.loc['行名','列名']提取指定行,列的內(nèi)容 -
df.loc['行名','列名'] = 1修改指定行,列內(nèi)容。取一行或一列時用列表。 -
df.iloc[0:2, 0:2]提取前兩行、前兩列的內(nèi)容
使用哈希替換某列的值
map
d = {'No': False, 'Yes': True}
df['列名'] = df['列名'].map(d)
replace
d = {'No': False, 'Yes': True}
df = df.replace({'列名': d})