Python與Excel 不得不說的事情

轉:

作者: Crossin

出處:https://zhuanlan.zhihu.com/p/22261597

數(shù)據(jù)處理是 Python 的一大應用場景,而 Excel 則是最流行的數(shù)據(jù)處理軟件。因此用 Python 進行數(shù)據(jù)相關的工作時,難免要和 Excel 打交道。

如果僅僅是要以表單形式保存數(shù)據(jù),可以借助 CSV 格式(一種以逗號分隔的表格數(shù)據(jù)格式)進行處理,Excel 也支持此格式。但標準的 Excel 文件(xls/xlsx)具有較復雜的格式,并不方便像普通文本文件一樣直接進行讀寫,需要借助第三方庫來實現(xiàn)。

常用的庫是 python-excel 系列:

xlrd、xlwt、xlutils

xlrd - 讀取 Excel 文件

xlwt - 寫入 Excel 文件

xlutils - 操作 Excel 文件的實用工具,如復制、分割、篩選等

盡管這是目前被用得最多的 Excel 庫,我還是很想吐槽為什么這三個包不能放在一個模塊里……另外它們有個缺陷,就是只能處理 xls 文件。如果你想用新版本的 xlsx,可以考慮 openpyxl 和 xlsxwriter。

非誠勿擾:正在學習python的小伙伴或者打算學習的,可以關注公眾號回復“資料”領取資料!

不過今天只說說這三個。

安裝

安裝的方法沒啥特別的,只是得裝三遍??梢韵螺d安裝包、下載代碼壓縮包、或者通過 pip 等。

如果安裝過之前推薦的 anaconda,那么就已經(jīng)有了 xlrd 和 xlwt,但 xlutils 沒有附帶在安裝包中,使用時仍需另行安裝。

讀取

結合一段簡單的代碼來看:

import xlrd# 打開 xls 文件book = xlrd.open_workbook("test.xls")print "表單數(shù)量:", book.nsheetsprint "表單名稱:", book.sheet_names()# 獲取第1個表單sh = book.sheet_by_index(0)print u"表單 %s 共 %d 行 %d 列" % (sh.name, sh.nrows, sh.ncols)print "第二行第三列:", sh.cell_value(1, 2)# 遍歷所有表單for s in book.sheets():? ? for r in range(s.nrows):? ? ? ? # 輸出指定行? ? ? ? print s.row(r)

測試文件:

輸出結果:

表單數(shù)量: 2

表單名稱: [u'Group.A', u'Group.B']

表單 Group.A 共 7 行 3 列

第二行第三列: 15.0

[text:u'Rank', text:u'Team', text:u'Points']

[number:1.0, text:u'Brazil', number:15.0]

[number:2.0, text:u'Russia', number:12.0]

...

常用的方法:

open_workbook 打開文件

sheet_by_index 獲取某一個表單

sheets 獲取所有表單

cell_value 獲取指定單元格的數(shù)據(jù)

寫入

還是看代碼:

import xlwt# 創(chuàng)建 xls 文件對象wb = xlwt.Workbook()# 新增一個表單sh = wb.add_sheet('A Test Sheet')# 按位置添加數(shù)據(jù)sh.write(0, 0, 1234.56)sh.write(1, 0, 8888)sh.write(2, 0, 'hello')sh.write(2, 1, 'world')# 保存文件wb.save('example.xls')

生成文件:

常用的方法:

Workbook 創(chuàng)建文件對象

add_sheet 新增一個表單

write 在指定單元格寫入數(shù)據(jù)

修改

很遺憾,并沒有直接修改 xls 文件的方法。通常的做法是,讀取出文件,復制一份數(shù)據(jù),對其進行修改,再保存。

在復制時,需要用到 xlutils 中的方法。

from xlrd import open_workbookfrom xlutils.copy import copy# 打開文件rb = open_workbook("example.xls")# 復制wb = copy(rb)# 選取表單s = wb.get_sheet(0)# 寫入數(shù)據(jù)s.write(0, 1, 'new data')# 保存wb.save('example.xls')

修改后文件:

特別要注意的是,選取讀取表單時,要使用 sheet_by_index,而在選取寫入表單時,則要用 get_sheet。不要問我為什么,我也很想知道這么設定的用意何在……

時間轉換

如果表單中有時間格式的數(shù)據(jù),通過處理之后,你會發(fā)現(xiàn)時間數(shù)據(jù)出了差錯。

輸出單元格內容:

[number:8888.0, xldate:42613.0]

因為這里 xldate 有自己的格式定義。如果要使用正確的格式,必須轉換:

new_date = xlrd.xldate.xldate_as_datetime(date, book.datemode)

date 是對應單元格的數(shù)據(jù),book 是打開的文件對象。

另外,在打開文件時,加上參數(shù) formatting_info=True,可以保證在時間數(shù)據(jù)在 copy 時保持原樣。

寫入時間數(shù)據(jù),則可通過此方法創(chuàng)建 excel 的時間對象:

xlrd.xldate.xldate_from_datetime_tuple

或者通過 xlwt.easyxf 指定時間格式:

style = xlwt.easyxf(num_format_str='D-MMM-YY')ws.write(1, 0, datetime.now(), style)

具體細節(jié)及更多功能這里不展開說明。

以上便是 Python 操作 Excel 文件的一些基本方法。實際使用過程中遇到問題或者需要了解更多功能,永遠記住兩個詞:

RTFM、STFW

:)

結尾

最后多說一句,小編是一名python開發(fā)工程師,這里有我自己整理了一套最新的python系統(tǒng)學習教程,包括從基礎的python腳本到web開發(fā)、爬蟲、數(shù)據(jù)分析、數(shù)據(jù)可視化、機器學習等。想要這些資料的可以關注公眾號回復:“ 資料 ”即可領取。

微信搜索關注公眾號【百戰(zhàn)編程】領取學習資料以及獲取更多Java、Python編程技術!

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容