Pandas
Python Data Analysis Library 或 pandas 是基于NumPy 的一種工具,該工具是為了解決數(shù)據(jù)分析任務(wù)而創(chuàng)建的。pandas 納入了大量庫和一些標(biāo)準(zhǔn)的數(shù)據(jù)模型,提供了高效地操作大型數(shù)據(jù)集所需的工具。pandas提供了大量能使我們快速便捷地處理數(shù)據(jù)的函數(shù)和方法。你很快就會發(fā)現(xiàn),它是使Python成為強大而高效的數(shù)據(jù)分析環(huán)境的重要因素之一。
初識DataFrame
DataFrame是pandas處理數(shù)據(jù)的一種基本數(shù)據(jù)格式。DataFrame是一張二維的表格型數(shù)據(jù)結(jié)構(gòu),大家可以把它想象成一張Excel表單或者Sql表,很多功能與R中的data.frame類似。
廢話不多說,直接上代碼。
DataFrame創(chuàng)建
#相關(guān)庫的引入,約定俗成
import pandas as pd
import numpy as np
from pandas import DataFrame
a= (x for x in range(1,11))
df =DataFrame(np.random.rand(10,3),index=a,columns=list('ABC'))
print df
# 這樣就生成了3列10行的Dataframe
#列索引 'A','B','C', 行標(biāo)為1到10
A B C
1 0.763612 0.242719 0.551769
2 0.547879 0.216746 0.915410
3 0.433865 0.883527 0.450987
4 0.394149 0.313240 0.608217
5 0.775415 0.097958 0.681559
6 0.815500 0.253491 0.461712
7 0.279322 0.224802 0.569777
8 0.945772 0.779166 0.439949
9 0.977696 0.164328 0.793504
10 0.950061 0.877084 0.746057
Dataframe查看、檢查
#查看Dataframe的行數(shù)列數(shù)
print df.shape
(10, 3)
#DataFrame 查看、獲取左側(cè)索引
print df.index
Int64Index([1, 2, 3, 4, 5, 6, 7, 8, 9, 10], dtype='int64')
#DataFrame 查看、獲取列名,列索引
print df.columns
Index([u'A', u'B', u'C'], dtype='object')
#查看Dataframe的前n行
print df.head(2)
A B C
1 0.743068 0.775753 0.586364
2 0.726336 0.917315 0.770945
#查看Dataframe的最后n行
print df.tail(3)
A B C
8 0.395501 0.733482 0.228993
9 0.390069 0.493331 0.069293
10 0.679217 0.538165 0.376052
#查看Dataframe數(shù)值列的匯總統(tǒng)計
print df.describe()
A B C
count 10.000000 10.000000 10.000000
mean 0.530217 0.533390 0.566158
std 0.232962 0.309151 0.276984
min 0.076248 0.062748 0.069293
25% 0.408746 0.282737 0.404929
50% 0.478627 0.515748 0.591100
75% 0.714556 0.765185 0.787466
max 0.885991 0.966919 0.913809