pandas如何讀取大數(shù)據(jù)集

分塊迭代讀取

 import pandas as pd

data=pd.read_csv('your_data_file.csv',iterator=True,chunksize=10)
  1. 想看前5行
data.get_chunk(5)  #data是之前讀取數(shù)據(jù)集文件的對象

注意:當(dāng)iterator為True時,data實際上是一個迭代器,調(diào)用get_chunk(5)后迭代器會指向第6個元素

  1. 一種拼接方式是逐個讀取再拼接,利用pd.concat()方法
chunks=[]
for i in data:
    chunks.append(i)
df=pd.concat(chunks,axis=0,ignore_index=False)

參數(shù)說明:
axis:0的時候沿著行增加的方向拼接,即上下拼接;1的時候沿著列增加的方向拼接,即左右拼接
ignore_index:False的時候用原來的index,True的時候用默認(rèn)的index(0->n)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容