如何修改 DataFrame 標(biāo)題?
- 參考 1 Essential Basic Functionality Renaming / mapping labels
rename()方法允許您基于某個(gè)映射(字典或系列)或任意函數(shù)重新標(biāo)記軸。
如果方法的參數(shù)傳遞的是一個(gè)函數(shù),那么該函數(shù)以任意標(biāo)簽為參數(shù)調(diào)用時(shí)必須返回一個(gè)值,并且該值必須是集合中的唯一值。
如何讀取 Excel 文件?
pandas I/O API 有一組頂層的 reader 函數(shù),以 pd.read_excel() 這樣的形式調(diào)用,通常返回一個(gè) pandas 對(duì)象。而對(duì)應(yīng)的 writer 函數(shù)是對(duì)象方法,以 df.to_excel() 這樣的形式調(diào)用。
其中 read_excel() 方法使用 xlrd 模塊,有能力讀取 Excel 2003 (.xls) 與 Excel 2007+ (.xlsx) 格式文件。實(shí)例方法 to_excel() 被用于將 DataFrame 保存為 Excel。
工作簿與表單
在通常的基本用例中,read_excel 使用指向 Excel 文件的路徑,及指示要解析表單的 sheet_name 參數(shù)。
# Returns a DataFrame
read_excel ('path/to/file.xlsx', sheet_name='sheet1')
ExcelFile 類
為了便于使用同一文件的多個(gè)表單工作,ExcelFile 類被用于封裝文件,結(jié)果可被傳入 read_excel 因?yàn)槎鄰埍韱我淮巫x入內(nèi)存,使得讀取性能也會(huì)有一些提升。
xlsx = pd.ExcelFile('path/to/file.xlsx')
df = pd.read_excel(xlsx, 'Sheet1')
ExcelFile 類也支持 with 語句
with pd.ExcelFile('path/to/file.xlsx') as xlsx:
df1 = pd.read_excel(xlsx, 'Sheet1')
df2 = pd.read_excel(xlsx, 'Sheet2')
ExcelFile 的基本用例是使用不同的參數(shù)解析多張表單
data = {}
with pd.ExcelFile('path/to/file.xlsx') as xlsx:
data['Sheet1'] = pd.read_excel(xlsx, 'Sheet1', index_col = None, na_values = ['NA'])
data['Sheet2'] = pd.read_excel(xlsx, 'Sheet2', index_col = 1)
值得注意的是,若同一參數(shù)用于所有的表單,簡(jiǎn)單的將表單名稱列表傳遞給 read_excel 并不會(huì)帶來性能的損失。
data = read_excel('path/to/file.xlsx', ['Sheet1', 'Sheet2'], index_col = None, na_values=['NA'])
指定表單
- 參數(shù) sheet_name 允許指定讀取的一張或多張表單
- 參數(shù) sheet_name 缺省值是 0 指示讀取第一張表單
- 傳遞一字符串以引用表單名稱
- 傳遞一個(gè)整數(shù)以引用表單索引
- 傳遞字符串或整數(shù)列表,獲得包含指定表單的一個(gè)字典
- 傳遞 None ,獲得包含所有可用表單的一個(gè)字典
read_excel('path/to/file.xlsx', ['Sheet1', 3])
表頭與數(shù)據(jù)區(qū)域
參數(shù) header 用基于 0 的整數(shù)指示作為列標(biāo)簽的行號(hào)。若參數(shù)為整數(shù)列表那么這些行將組成多重索引。若無表頭參數(shù)值為 None 。
參數(shù) skiprows 與 skip_footer 分別指示數(shù)據(jù)于第幾行開始,于倒數(shù)第幾行結(jié)束。
參數(shù) usecols 指示表單中列的子集將被解析裝載。usecols 可以是一個(gè)整數(shù)或整數(shù)列表,也可以是字符串。