數(shù)據(jù)分析的80%的時(shí)間都是花費(fèi)在數(shù)據(jù)處理當(dāng)中,數(shù)據(jù)的準(zhǔn)確性和有效性也會(huì)決定對(duì)其他部門的影響,這一環(huán)節(jié),我們主要講講python數(shù)據(jù)處理的常見的方法和邏輯。
數(shù)據(jù)的導(dǎo)入
查看數(shù)據(jù)的情況
數(shù)據(jù)類型的調(diào)整
異常值和缺失值的處理
重復(fù)值的處理
選取相關(guān)維度的數(shù)據(jù)做數(shù)據(jù)分析
數(shù)據(jù)的可視化
接下來我以藥店銷售數(shù)據(jù)做個(gè)簡(jiǎn)單的分析,里面會(huì)包含著python中pandas常用的數(shù)據(jù)處理的方法,數(shù)據(jù)分析以之前需要確立分析的問題:
藥店銷售最好的藥有什么特點(diǎn)
1月份和3月份的銷售金額的比較(2月無數(shù)據(jù)),有什么趨勢(shì)
對(duì)于異常值的分析
1.數(shù)據(jù)的導(dǎo)入

這里要注意文件名有中文會(huì)出現(xiàn)打不開的情況,可以先用open函數(shù)先打開,再read_excel
2.對(duì)于藥店數(shù)據(jù)的查看


數(shù)據(jù)共有6578行,可以看出數(shù)據(jù)有缺失
3.數(shù)據(jù)類型的轉(zhuǎn)換,購藥時(shí)間換成時(shí)間類型,社??ㄌ?hào),商品編碼轉(zhuǎn)化為字符型,銷售數(shù)量轉(zhuǎn)化為int


這里時(shí)間的數(shù)據(jù)類型我將它拆成了日期和星期運(yùn)用apply和lambda匿名函數(shù)的組合,處理之后發(fā)現(xiàn)社??ㄌ?hào)和商品編碼都有小數(shù),可以用split函數(shù)處理

4.缺失值的處理

運(yùn)用dropna函數(shù)去除缺失值,對(duì)于缺失值的處理方式一般有填充和刪除,填充以平均值和眾數(shù)為主,這里缺失值較少,我就直接刪除。
異常值一般為和平均值相差3個(gè)標(biāo)注差的數(shù)據(jù),以及不符合常理的數(shù)據(jù),就比如銷售為負(fù)數(shù),但也有可能這表示為退貨數(shù)量,一下就選取銷售量大于0的數(shù)據(jù)


5.數(shù)據(jù)的建模

查看一下時(shí)間的跨度

選取1,3月份的數(shù)據(jù)查看一下銷售額和銷售數(shù)量

看一下單價(jià),三月比一月份總體而言價(jià)格和數(shù)量下降,單價(jià)也有所下降,成下降趨勢(shì)
7.查看一下1月和3月的需求最多的藥品


發(fā)現(xiàn)top藥品治療高血壓的較多,真是越老病越多
8.買藥最多的人分析

發(fā)現(xiàn)社??ㄌ?hào)1616528的人買的藥最多,單獨(dú)提取他的數(shù)據(jù)


數(shù)據(jù)中在插入一列月份,來查看他每月的買藥情況,查看的買藥的情況
9.數(shù)據(jù)可視化

將金額轉(zhuǎn)換為整形


學(xué)習(xí)資料點(diǎn)擊這里