Pandas(文件格式)

將數據寫出到文本格式

數據也可以被輸出為分隔符格式的文本

輸出

DataFrame的to_csv方法,我們可以將數據寫到一個以逗號分隔的文件中

查看

使用其他分隔符(由于這里直接寫出到sys.stdout,所以僅僅是打印出文本結果而已)

|

缺失值在輸出結果中會被表示為空字符串。你可能希望將其表示為別的標記值。

指定標記缺失值

沒有設置其他選項,則會寫出行和列的標簽。當然,它們也都可以被禁用。

禁用

你還可以只寫出一部分的列,并以你指定的順序排列。

按指定順序寫出部分列
完整讀寫

處理分隔符格式

JSON數據 pandas.read_json可以自動將特別格式的JSON數據集轉換為Series或DataFrame

讀json

從pandas輸出到JSON,使用to_json方法

寫json

XML和HTML:Web信息收集

pandas有一個內置的功能,read_html,它可以使用lxml和Beautiful Soup自動將HTML文件中的表格解析為DataFrame對象。
使用例子數據:美國聯邦存款保險公司一個HTML文件,它記錄了銀行倒閉的情況。

安裝read_html用到的庫

conda install lxml 
pip install beautifulsoup4 html5lib

需要說明的是安裝第三庫需要退出ipython的環(huán)境,也就是一開始進來的地方。筆者已經安裝過了,所以顯示頁面會有所不同。

已經安裝成功之后再次安裝的顯示
讀取網頁

做一些數據清洗和分析,比如計算按年份計算倒閉的銀行數

簡單的數據清洗和分析

二進制數據格式

pandas對象都有一個用于將數據以pickle格式保存到磁盤上的to_pickle方法

讀出exl文件以pickle格式保存到磁盤

讀取pickle數據

讀取pickle數據

注意: pickle僅建議用于短期存儲格式。其原因是很難保證該格式永遠是穩(wěn)定的;今天pickle 的對象可能無法被后續(xù)版本的庫unpickle出來。

使用HDF5格式

HDF5是一種存儲大規(guī)??茖W數組數據的非常好的文件格式。它可以被作為C標準庫,帶有許多語言的接口,如Java、Python和MATLAB等。HDF5中的HDF指的是層次型數據格式 (hierarchical data format)。每個HDF5文件都含有一個文件系統(tǒng)式的節(jié)點結構,它使你能夠存儲多個數據集并?支持元數據。與其他簡單格式相比,HDF5支持多種壓縮器的即時壓縮, 還能更高效地存儲重復模式數據。對于那些非常大的無法直接放入內存的數據集,HDF5就是 不錯的選擇,因為它可以高效地分塊讀寫。

創(chuàng)建

HDF5文件中的對象可以通過與字典一樣的API進行獲取

獲取文件中的對象

HDFStore支持兩種存儲模式,’fixed’和’table’。后者通常會更慢,但是支持使用特殊語法進行查詢操作。

存儲模式

讀取Microsoft Excel文件

pandas的ExcelFile類或pandas.read_excel函數支持讀取存儲在Excel 2003(或更高版本)中的表格型數據。這兩個工具分別使用擴展包xlrd和openpyxl讀取XLS和XLSX文件。你可以用 pip或conda安裝它們。

讀取方式

將pandas數據寫入為Excel格式

存儲成功,但直接讀取會亂碼
正確讀取及另一種寫入方法

Web APIs交互

交互展示

數據庫交互

在商業(yè)場景下,大多數數據可能不是存儲在文本或Excel文件中。基于SQL的關系型數據庫 (如SQL Server、PostgreSQL和MySQL等)使用非常廣泛。

這種數據規(guī)整操作相當多,你肯定不想每查一次數據庫就重寫一次。SQLAlchemy項目是一個 流行的Python SQL工具,它抽象出了SQL數據庫中的許多常見差異。pandas有一個read_sql 函數,可以讓你輕松的從SQLAlchemy連接讀取數據。

sql讀寫
?著作權歸作者所有,轉載或內容合作請聯系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容