【數(shù)據(jù)清洗】
Part 1:缺失值處理
- 忽略元組
- 人工填寫缺失值
- 使用一個全局常量填充缺失值:例如將缺失值用“Unknown”表示
- 使用屬性的中心度量(mean or median):對于對稱數(shù)據(jù)分布使用mean,秦些數(shù)據(jù)分布使用median。
- 使用與給定元組屬同一類的所有樣本mean或median:例如將顧客按credit_risk分類,則用具有相同信用風(fēng)險的顧客平均收入替換income中的缺失值。若給定數(shù)據(jù)分布是傾斜的,則median是更好的選擇。
- 使用最可能的值填充缺失值:可以使用regression、Bayes形式化方法的基于推理的工具或者decision tree分類。
Part 2:噪聲數(shù)據(jù)的處理
<definition>噪聲(noise):是被測量的變量隨機誤差或方差。
數(shù)據(jù)光滑技術(shù):
- 分箱(binning):通過考查數(shù)據(jù)的近鄰來光滑有序數(shù)據(jù)集。常見的:用箱均值光滑;用箱中位數(shù)光滑;用箱邊界光滑。
- 回歸(regression):用一個函數(shù)擬合數(shù)據(jù)來光滑數(shù)據(jù)。
- 離群點分析(outlier analysis):通過如聚類來檢測離群點。
【數(shù)據(jù)集成】
Part 1:冗余和相關(guān)分析:
對于標(biāo)稱數(shù)據(jù),我們使用卡方檢驗發(fā)現(xiàn)。對于數(shù)值屬性,我們使用相關(guān)系數(shù)、協(xié)方差發(fā)現(xiàn)。