Pandas是基于Numpy的一種工具,主要是為了解決數(shù)據(jù)分析任務(wù)創(chuàng)建的。提供了大量能使我們快速便捷地處理數(shù)據(jù)的函數(shù)和方法。pandas 基于兩種數(shù)據(jù)類型:Series和DataFrame。
1.Series。Series是pandas最基本的對象,只能存儲同樣的數(shù)據(jù)類型。類似于numpy的一維數(shù)組,沒有一般說的行或者列的概念。不同的是,Series可為索引自定義標簽。Series是DataFrame的某一行或某一列。

2.DataFrame.DataFrame是一個二維的表結(jié)構(gòu),類似于excel的數(shù)據(jù)表,可以存儲不同的數(shù)據(jù)類型。橫向和縱向都會有自己的標簽。


3.數(shù)據(jù)合并
除了concat外,還可以通過join和merge進行數(shù)據(jù)的合并。

4.數(shù)據(jù)預處理
????????數(shù)據(jù)預處理,一般包括對缺失數(shù)據(jù)(dropna())、重復數(shù)據(jù)(drop_duplicates())的處理。

5.數(shù)據(jù)處理(分組聚合等)
初級的數(shù)據(jù)處理,主要是指通過groupby()分組和pivot()透視對數(shù)據(jù)進行分組,以及通過各聚合函數(shù)對分組后的數(shù)據(jù)進行聚合的操作。
知識點1:分組。數(shù)據(jù)分組后生成為DataFrameGroupBy類型。

知識點2:數(shù)據(jù)透視表。pivot和groupby都是用來進行分組,功能差不多。

知識點3:聚合函數(shù)

知識點4:匿名函數(shù)

知識點5:map,apply和applymap。apply函數(shù)是pandas所有函數(shù)中自由度最高的函數(shù)。

知識點6:where和mask

補充:多層索引
