通過檢驗數(shù)據(jù)集的數(shù)據(jù)質(zhì)量、繪制圖表、計算某些特征量等手段,對樣本數(shù)據(jù)集的結構和規(guī)律進行分析的過程就是數(shù)據(jù)探索。
1 數(shù)據(jù)質(zhì)量分析
數(shù)據(jù)質(zhì)量分析的主要任務時檢查原始數(shù)據(jù)中是否存在臟數(shù)據(jù),臟數(shù)據(jù)一般指不符合要求,以及不能直接進行相應分析的數(shù)據(jù)。臟數(shù)據(jù)包括以下內(nèi)容:
□缺失值
□異常值
□不一致的值
□重復數(shù)據(jù)以及含有特殊符號(%,#)的數(shù)據(jù)
1.1 缺失值分析
(1)缺失值的影響
數(shù)據(jù)建模丟掉大量有用的信息,模型中蘊含的規(guī)律更難把握。包含空值得數(shù)據(jù)會使得建模過程陷入混亂,導致不可靠的輸出。
(2)缺失值分析
統(tǒng)計含有缺失值屬性的個數(shù),以及每個屬性的未缺失數(shù)。缺失數(shù)與缺失率等。從總體上說,缺失值的處理分為刪除存在的缺失值的記錄、對可能值進行插補和不處理三種情況。
1.2 異常值分析
異常值分析師檢驗數(shù)據(jù)是否有錄入錯誤以及含有不合常理的數(shù)據(jù)。忽視異常值的存在是十分危險的,不加剔除地把異常值包括進數(shù)據(jù)的計算分析過程中,對結果產(chǎn)生不良影響,重視異常值的出現(xiàn),分析其產(chǎn)生的原因,常常成為發(fā)現(xiàn)問題進而改進決策的契機
異常值指的是樣本中的個別值,其數(shù)值明顯偏離其余的預測值。異常值也稱為離群點,異常值分析也稱為離群點分析。
(1)簡單統(tǒng)計量分析
先對變量做一個描述性的統(tǒng)計,進而查看哪些數(shù)據(jù)是不合理的。最常用的統(tǒng)計量是最大值和最小值。比如年齡屬性中的最大值為199,則該變量取值異常。
(2)3σ原則
如果數(shù)據(jù)服從正太分布,異常值被定義為一組測定值中與平均值的偏差超過3倍標準差的值。如果數(shù)據(jù)不服從正太分布,也可以用遠離平均值的多少倍標準差來描述。
(3)箱型圖分析


1.3 一致性分析
數(shù)據(jù)不一致,來源不同或者其他方式導致的數(shù)據(jù)不一致
2 數(shù)據(jù)特征分析
對數(shù)據(jù)進行質(zhì)量分析以后,接下來可以通過繪制圖表、計算某些特征量等手段進行數(shù)據(jù)的特征分析。
2.1 分布分析
分布分析揭示數(shù)據(jù)的分布特征和分布類型。
定量數(shù)據(jù):繪制頻率分布圖,頻率分布直方圖來直觀分析 分布形式是對稱的還是非對稱的,發(fā)現(xiàn)某些特大或特小的可疑值。
定性數(shù)據(jù):可用餅圖和條形圖顯示分布情況
1 定量數(shù)據(jù)的分布分析

2 定性數(shù)據(jù)的分布分析
對于定性數(shù)據(jù),常常根據(jù)變量的分類類型來分組,可以采用餅圖和條形圖來描述定性變量的分布。

2.2 對比分析
比如根據(jù)時間上來進行對比,對比不同部分在各個月份的銷售額

2.3 統(tǒng)計量分析
常從集中趨勢和離中趨勢兩個方面進行分析。
平均水平反應個體集中趨勢的度量,常用均值和中位數(shù)。反映個體離開平均水平的度量,使用較為廣泛的是標準差,四分位間距
1集中趨勢度量


2 離中趨勢度量


2.4 周期性分析

2.5 貢獻度分析

2.6 相關性分析
分析連續(xù)變量之間線性相關程度的強弱,并用適當?shù)慕y(tǒng)計指標表示出來的過程成為相關分析。


2 計算相關系數(shù)
衡量線性相關:Pearson相關系數(shù),Spearman秩相關系數(shù)和判定系數(shù)
(1)協(xié)方差就是兩個樣本分別減去均值,然后取平均===》E((x-E(x))(Y-E(Y)))
衡量了線性相關性,pearson相關系數(shù)就是對數(shù)據(jù)進行標準化之后的相乘


(2)判定系數(shù)就是相關系數(shù)的平方