寫在前面的話
- 開始做數(shù)據(jù)分析,最頭疼的就是數(shù)據(jù)探索和清洗了。Pandas里面有很多函數(shù)用于初步探索和分析,例如pd.describe()。
- 今天逛著逛著,發(fā)現(xiàn)了一個(gè)數(shù)據(jù)庫,能夠用一行代碼就實(shí)現(xiàn)原始數(shù)據(jù)集的概覽分析并生成html文件,這對(duì)我們對(duì)數(shù)據(jù)分布的大致情況很有幫助滴。
- 不過我在安裝過程吃了很大的苦頭,折騰了整整一個(gè)下午才搞定,所以想和大家也分享一下,避免和我一樣踩坑!
1.先看一下它強(qiáng)大的report功能

從截圖可以知道,report由5部分組成,分別是
-
1.Overview(數(shù)據(jù)概況):包括列數(shù)、行數(shù)、缺失率、重復(fù)率、變量類型、內(nèi)存以及對(duì)數(shù)據(jù)的最終結(jié)論warning。
image.png -
2.Variables(變量情況):對(duì)每個(gè)變量進(jìn)行描述性統(tǒng)計(jì)分析,包括缺失值、最小值、Q1、中位數(shù)、Q3、最大值、標(biāo)準(zhǔn)差、變異系數(shù)等,此外還有直觀的直方圖可以查看。
image.png -
3.Interactions(交互性分析):對(duì)每?jī)蓚€(gè)變量進(jìn)行圖表展示。
image.png -
4.Correlations(相關(guān)性分析):制作變量間的熱力圖,進(jìn)行相關(guān)性展示,Spearman、Pearson等各類矩陣都可以查看。
image.png
-
5.Missing Values(缺失值情況):對(duì)全部變量進(jìn)行缺失值圖表展示。
image.png
-
6.Sample(數(shù)據(jù)示例):對(duì)數(shù)據(jù)的前10行和后10行進(jìn)行展示。
image.png
這個(gè)信息量很足的報(bào)告只需要一行代碼就可以完成:

是不是幫我們省了好多力氣呀~
2.安裝Pandas_profiling
安裝很簡(jiǎn)單,因?yàn)槲易约河玫氖茿naconda,所以本來想要conda安裝的,不過conda里面沒有,所以最終使用pip安裝的:
打開cmd》pip install pandas_profiling
安裝完如果你的Jupyter Notebook無法打開,并且顯示:[AttributeError: module 'attr' has no attribute 's'],則:
打開cmd》pip uninstall attr》pip install attrs
(想想我剛開始打不開Jupyter那痛苦的心情就覺得心塞)
3.使用Pandas_profiling
- 1.生成報(bào)告:data=pd.read_csv('train.csv')》data.profile_report(title='Data')
- 2.保存報(bào)告:data.profile_report(title='Data').to_file('Data.html')





