在充分了解賽題之后,準(zhǔn)備開始進行數(shù)據(jù)集的分析工作,分別從數(shù)據(jù)集維度,標(biāo)簽,字段屬性和類型。
本次數(shù)據(jù)集主要有44列,其中有連續(xù)性數(shù)據(jù)和離散型數(shù)據(jù)以及幾列臟數(shù)據(jù)。
- 數(shù)據(jù)總體了解:
- 讀取數(shù)據(jù)集并了解數(shù)據(jù)集大小,原始特征維度;
- 通過info熟悉數(shù)據(jù)類型;
- 粗略查看數(shù)據(jù)集中各特征基本統(tǒng)計量;
- 缺失值和唯一值:
- 查看數(shù)據(jù)缺失值情況
- 查看唯一值特征情況
- 深入數(shù)據(jù)-查看數(shù)據(jù)類型
- 類別型數(shù)據(jù)
- 數(shù)值型數(shù)據(jù)
- 離散數(shù)值型數(shù)據(jù)
- 連續(xù)數(shù)值型數(shù)據(jù)
- 數(shù)據(jù)間相關(guān)關(guān)系
- 特征和特征之間關(guān)系
- 特征和目標(biāo)變量之間關(guān)系
數(shù)據(jù)分析的目標(biāo)是了解數(shù)據(jù)集的特性為接下來得步驟做準(zhǔn)備。
我們可以借助seaborn庫與pandas 庫對數(shù)據(jù)集概況數(shù)據(jù)密度進行整體了解。
利用seaborn進行繪圖大致了解數(shù)據(jù)字段的密度
主要工作還是借助于各個簡單的統(tǒng)計量來對數(shù)據(jù)整體的了解,分析各個類型變量相互之間的關(guān)系,以及用合適的圖形可視化出來直觀觀察。