Pandas的基礎(chǔ)應(yīng)用

Pandas可以說是Python在數(shù)據(jù)分析應(yīng)用最廣最基礎(chǔ)也是最重要的一個(gè)包,復(fù)盤一下日常比較常用的pandas用法。

數(shù)據(jù)導(dǎo)入

import pandas as pd
import numpy as np
df=pd.read_csv(invest_sample.csv)

類似的導(dǎo)入還有 pd.read_table 和 pd.read_txt 等,但是,pd.read_csv 最為常用。因?yàn)閏sv格式的文件比較干凈,一般都是用轉(zhuǎn)好格式的csv文件來處理數(shù)據(jù)。

數(shù)據(jù)觀察

df.head()
WX20180203-224250@2x.png

默認(rèn)是查看前5行,括號中也可以輸入想要查看的行數(shù)。如df.head(10)代表查看前10行。
這個(gè)時(shí)候一般檢查是否有顯示亂碼和查看表頭字段。
還有個(gè)df.tail(),可以查看數(shù)據(jù)的后5行。

df.info()
WX20180203-224306@2x.png

主要查看每個(gè)字段的行數(shù)與字段類型,是否有缺失值,
可以打印出數(shù)據(jù)框的大小,代表11757行,7列。

df.shape
WX20180203-224321@2x.png
df.describe()
WX20180203-224331@2x.png

主要查看的每個(gè)字段(數(shù)值類型的字段)的描述統(tǒng)計(jì),包括記數(shù),平均值,方差,最小值,最大值和百分位數(shù)。
使用以上的pandas用法基本對要分析的數(shù)據(jù)有了一個(gè)大概了解。

數(shù)據(jù)認(rèn)知

數(shù)據(jù)源是一份脫敏過的數(shù)據(jù),字段包含 用戶id,購買日期,購買金額,購買人用戶屬性等,是一份典型的電商購買數(shù)據(jù)。繼續(xù)使用pandas包來進(jìn)行更深入的認(rèn)知和分析。

購買次數(shù)與金額最多的商品的,商品標(biāo)記是2和3的次數(shù)和金額都是最多的。

df.groupby('expect').count()['amount']
WX20180203-224403@2x.png
df.groupby('expect').sum()['amount']
WX20180203-224352@2x.png

數(shù)據(jù)集范圍內(nèi)的金額

df.sum()['amount']
WX20180203-224419@2x.png

客單價(jià)即單筆訂單的金額大小,可以反映用戶的消費(fèi)能力。
整體的客單價(jià)

df.mean()['amount']
WX20180203-224429@2x.png

不同省份的客單價(jià),不同省份的的客單價(jià)相差比較大了。
這時(shí)候首先要確認(rèn)的是 這種誤差是不是由于部分省份購買人數(shù)的過少造成的波動(dòng)(人數(shù)過少,個(gè)別大客戶會(huì)大幅影響平均水平,使算數(shù)平均值這個(gè)指標(biāo)衡量失真)
剔除異常情況后,客單價(jià)較高且人數(shù)較多的地區(qū)需要繼續(xù)保持,客單價(jià)較高大是人數(shù)較少的地區(qū)需要拉進(jìn)新用戶,用戶人數(shù)很多但是客單價(jià)不高的地區(qū)需要激勵(lì)用戶購買潛力。

df.groupby('province').mean()['amount']
WX20180203-224443@2x.png

不同產(chǎn)品的客單價(jià),用戶對不同產(chǎn)品的偏好程度

df.groupby('expect').mean()['amount']
WX20180203-224453@2x.png

不同性別的客單價(jià),不同性別用戶的單次消費(fèi)能力,女性用戶略高與男性用戶。

df.groupby('gender').mean()['amount']
WX20180203-224503@2x.png

發(fā)現(xiàn)了不同性別客單價(jià)的差異,繼續(xù)看下不同性別對平臺(tái)的貢獻(xiàn)能力。
金額貢獻(xiàn)女性是男性的兩倍。。。(跪了),人數(shù)勉強(qiáng)是兩倍。

df.groupby('gender').sum()['amount']
WX20180203-224521@2x.png
df.groupby('gender').count()['amount']
WX20180203-224529@2x.png

為什么用pandas

以上用pandas進(jìn)行了基本的數(shù)據(jù)觀察和分析,由于數(shù)據(jù)取的比較規(guī)范,基本沒有臟數(shù),省了清洗這一步。
很多人覺得python也沒比excel好到哪里去啊,以上實(shí)現(xiàn)的用excel也可以實(shí)現(xiàn),操作也更加友好。
其實(shí),不然。
以上只是 python在數(shù)據(jù)分析領(lǐng)域的小小冰山一角,python對數(shù)據(jù)的處理是異常靈活的。
只說一點(diǎn),數(shù)據(jù)量十萬量級的時(shí)候(日常的數(shù)據(jù)接觸也是萬級別起了),excel處理起來就比較費(fèi)事了,稍微操作一下會(huì)卡半天。
后續(xù)的畫圖/靈活性處理/建模,才是python的拿手好戲。


我的tableau public:yangliang的tableau public主頁

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • Python 和 Pandas 數(shù)據(jù)分析教程 原文:Data Analysis with Python and P...
    布客飛龍閱讀 83,411評論 9 225
  • 本文來自于 猴子數(shù)據(jù)分析社群的通關(guān)作業(yè),因?yàn)檎n程是用 R 語言教的,我是用 Python 實(shí)現(xiàn)了一遍,所以參考的文...
    禹洋閱讀 5,013評論 1 62
  • 看過一個(gè)段子說 男生不愿意看女友愛看的韓劇 女友不愛陪男友打游戲 說這不是愛 大家覺得矯情 可我覺得 這就是不愛 ...
    九月的草莓醬閱讀 247評論 2 1
  • 想給你寫封信 信中都是我的熱情 盡管紙短情長 那翩飛的字眼 是我溫柔的問候 哪怕只是問候 此時(shí) 也多了一絲幸福 少...
    念在天涯閱讀 219評論 7 10
  • 類 定義一個(gè)類使用class關(guān)鍵字 構(gòu)造函數(shù)定義的類有一個(gè)默認(rèn)的構(gòu)造函數(shù),可以在類名后面的大括號中傳入?yún)?shù)構(gòu)造函數(shù)...
    HolenZhou閱讀 542評論 0 0

友情鏈接更多精彩內(nèi)容