運(yùn)用python的數(shù)據(jù)分析及數(shù)據(jù)可視化

數(shù)據(jù)分析的80%的時(shí)間都是花費(fèi)在數(shù)據(jù)處理當(dāng)中,數(shù)據(jù)的準(zhǔn)確性和有效性也會(huì)決定對(duì)其他部門的影響,這一環(huán)節(jié),我們主要講講python數(shù)據(jù)處理的常見的方法和邏輯。

數(shù)據(jù)的導(dǎo)入

查看數(shù)據(jù)的情況

數(shù)據(jù)類型的調(diào)整

異常值和缺失值的處理

重復(fù)值的處理

選取相關(guān)維度的數(shù)據(jù)做數(shù)據(jù)分析

數(shù)據(jù)的可視化

接下來我以藥店銷售數(shù)據(jù)做個(gè)簡(jiǎn)單的分析,里面會(huì)包含著python中pandas常用的數(shù)據(jù)處理的方法,數(shù)據(jù)分析以之前需要確立分析的問題:

藥店銷售最好的藥有什么特點(diǎn)

1月份和3月份的銷售金額的比較(2月無數(shù)據(jù)),有什么趨勢(shì)

對(duì)于異常值的分析

1.數(shù)據(jù)的導(dǎo)入

這里要注意文件名有中文會(huì)出現(xiàn)打不開的情況,可以先用open函數(shù)先打開,再read_excel

2.對(duì)于藥店數(shù)據(jù)的查看

數(shù)據(jù)共有6578行,可以看出數(shù)據(jù)有缺失

3.數(shù)據(jù)類型的轉(zhuǎn)換,購藥時(shí)間換成時(shí)間類型,社??ㄌ?hào),商品編碼轉(zhuǎn)化為字符型,銷售數(shù)量轉(zhuǎn)化為int

這里時(shí)間的數(shù)據(jù)類型我將它拆成了日期和星期運(yùn)用apply和lambda匿名函數(shù)的組合,處理之后發(fā)現(xiàn)社??ㄌ?hào)和商品編碼都有小數(shù),可以用split函數(shù)處理

4.缺失值的處理

運(yùn)用dropna函數(shù)去除缺失值,對(duì)于缺失值的處理方式一般有填充和刪除,填充以平均值和眾數(shù)為主,這里缺失值較少,我就直接刪除。

異常值一般為和平均值相差3個(gè)標(biāo)注差的數(shù)據(jù),以及不符合常理的數(shù)據(jù),就比如銷售為負(fù)數(shù),但也有可能這表示為退貨數(shù)量,一下就選取銷售量大于0的數(shù)據(jù)

5.數(shù)據(jù)的建模

查看一下時(shí)間的跨度

選取1,3月份的數(shù)據(jù)查看一下銷售額和銷售數(shù)量

看一下單價(jià),三月比一月份總體而言價(jià)格和數(shù)量下降,單價(jià)也有所下降,成下降趨勢(shì)

7.查看一下1月和3月的需求最多的藥品

發(fā)現(xiàn)top藥品治療高血壓的較多,真是越老病越多

8.買藥最多的人分析

發(fā)現(xiàn)社??ㄌ?hào)1616528的人買的藥最多,單獨(dú)提取他的數(shù)據(jù)

數(shù)據(jù)中在插入一列月份,來查看他每月的買藥情況,查看的買藥的情況

9.數(shù)據(jù)可視化

將金額轉(zhuǎn)換為整形

學(xué)習(xí)資料點(diǎn)擊這里

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • Live 簡(jiǎn)介: 誰適合本課程?想從零開始學(xué)會(huì)數(shù)據(jù)分析,實(shí)現(xiàn)升職加薪或者轉(zhuǎn)行數(shù)據(jù)分析的你,零基礎(chǔ)即可加入。 你將從...
    Rich_Billions閱讀 4,511評(píng)論 0 6
  • 數(shù)據(jù)分析的步驟:提出問題→理解數(shù)據(jù)→數(shù)據(jù)清洗→構(gòu)建模型→數(shù)據(jù)可視化 目標(biāo)數(shù)據(jù):2018年朝陽醫(yī)院銷售數(shù)據(jù).xlsx...
    龍貓君閱讀 2,533評(píng)論 1 1
  • ORA-00001: 違反唯一約束條件 (.) 錯(cuò)誤說明:當(dāng)在唯一索引所對(duì)應(yīng)的列上鍵入重復(fù)值時(shí),會(huì)觸發(fā)此異常。 O...
    我想起個(gè)好名字閱讀 5,974評(píng)論 0 9
  • 下午的時(shí)候,和朋友吃飯,她說人都是情感動(dòng)物,只是情感的寄托不一樣,可能是愛人,是朋友,是家人,是工作等等,然后分享...
    zoeyiyi閱讀 313評(píng)論 0 1
  • 3月8日,與小五先生還有YC老師一起開始做這樣一件事,剽悍英社。 事情的最初始于在社群中跟一位老鐵聊英語學(xué)習(xí)的事,...
    Miss_kiwi閱讀 287評(píng)論 14 16

友情鏈接更多精彩內(nèi)容