探索性數(shù)據(jù)分析(Exploratory Data Analysis)簡(jiǎn)稱EDA,往往是我們了解、挖掘數(shù)據(jù)的至關(guān)重要的步驟。
EDA的主要工作有:
(1)了解數(shù)據(jù)基本屬性:初步加載清洗數(shù)據(jù)、描述數(shù)據(jù)(了解數(shù)據(jù)大小、數(shù)據(jù)類型)、數(shù)據(jù)的異常情況分析(缺省值和異常值的刻畫、處理)
(2)了解數(shù)據(jù)間的關(guān)系:數(shù)據(jù)分布的刻畫、數(shù)據(jù)間關(guān)系刻畫、數(shù)據(jù)與目標(biāo)之間的關(guān)系刻畫
1、數(shù)據(jù)加載和描述
數(shù)據(jù)下載地址:https://tianchi.aliyun.com/competition/entrance/231784/information


(1) 顯示原始數(shù)據(jù)
? ? ? ? ? ? data.head(10),顯示訓(xùn)練數(shù)據(jù)的前10行,結(jié)果見下圖:

?這里可以看出,數(shù)據(jù)大小為 10*31,有31列數(shù)據(jù),但顯示的時(shí)候,僅顯示了一部分列。如果想顯示全部列,可以這樣設(shè)置,設(shè)置后顯示結(jié)果如下:
pd.set_option('display.max_rows', None) #設(shè)置最大顯示行數(shù)
pd.set_option('display.max_columns', None)?#設(shè)置最大顯示列數(shù)

(2)?查看數(shù)據(jù)信息
data.info 包括每個(gè)字段的名稱、非空數(shù)量、字段的數(shù)據(jù)類型,結(jié)果如下:

從結(jié)果中可以看出,該df,共有150000行,索引從0-149999,共有31列,每一列的名稱、非空行數(shù)、數(shù)據(jù)類型均給出;
且給出該df 有 20個(gè)float64, 10個(gè)int64, 1個(gè)object 數(shù)據(jù)類型;
占用內(nèi)存大小為35.5+ MB
(3)數(shù)據(jù)缺省值刻畫
? ? ? ? 找出有缺省值的數(shù)據(jù)列,并給出缺省的行數(shù),采用以下函數(shù)計(jì)算:

運(yùn)行結(jié)果:
train 空值列名稱,和空值個(gè)數(shù):
{'model': 1, 'bodyType': 4506, 'fuelType': 8680, 'gearbox': 5981}
(4)數(shù)據(jù)統(tǒng)計(jì)特征刻畫
? ? ? ? ? ? data.describe(),統(tǒng)計(jì)出所有列的以下信息:元素個(gè)數(shù)、均值、標(biāo)準(zhǔn)差、最小值、25%、50%、75%、以及最大值。從這里我們可看出,數(shù)據(jù)的取值范圍和大致分布,對(duì)應(yīng)數(shù)據(jù)有初步的了解。

2、數(shù)據(jù)間關(guān)系刻畫
(1)數(shù)據(jù)大致分類
????????根據(jù)數(shù)據(jù)類型,對(duì)數(shù)據(jù)進(jìn)行初步分類,可分為,時(shí)間類型、連續(xù)類型、離散類型。這里我們可以通過統(tǒng)計(jì)大致區(qū)分連續(xù)數(shù)據(jù)和離散數(shù)據(jù)。


? ? ? ? 從上述結(jié)果可以看出,v_0至v_14數(shù)據(jù)取值多樣化,占總比96%,可證明其為連續(xù)數(shù)值。同時(shí),我們可以觀測(cè)出部分變量的可取值范圍,對(duì)數(shù)據(jù)有初步的了解。
(2)數(shù)據(jù)間關(guān)系刻畫
? ? ? ? ? ? 畫圖可采用seaborn 庫,據(jù)圖函數(shù)可參考,因分析關(guān)系較多,且與個(gè)人假設(shè)相關(guān),后續(xù)如果時(shí)間允許,會(huì)添加部分自認(rèn)為重要的關(guān)系結(jié)果圖。
????????????????https://blog.csdn.net/qq_40195360/article/details/86605860