數(shù)據(jù)清洗原理
利用有關(guān)技術(shù)如數(shù)理統(tǒng)計(jì)、數(shù)據(jù)挖掘或預(yù)定義的清理規(guī)則將臟數(shù)據(jù)轉(zhuǎn)化為滿足數(shù)據(jù)質(zhì)量要求的數(shù)據(jù)。簡(jiǎn)單來說,數(shù)據(jù)清理是將數(shù)據(jù)庫(kù)精簡(jiǎn)以除去重復(fù)記錄,并使剩余部分轉(zhuǎn)換成標(biāo)準(zhǔn)可接收格式的過程。
數(shù)據(jù)缺失
1)定范圍:了解數(shù)據(jù)庫(kù)哪些字段缺失,缺失比例如何?重要性如何?是補(bǔ)充還是去掉?
2)刪字段:刪除沒用的、難以補(bǔ)齊的
3)補(bǔ)數(shù)據(jù):多數(shù)情況下,缺失的值要手工填入(即手工清理),靠業(yè)務(wù)知識(shí)/經(jīng)驗(yàn)填充或從本數(shù)據(jù)源/其他數(shù)據(jù)源推導(dǎo)出來
數(shù)據(jù)異常
1)格式:如時(shí)間/時(shí)期統(tǒng)一方式去規(guī)整等
2)字符:如半角/圓角;數(shù)據(jù)與字段對(duì)應(yīng)等
3)合理性:如年齡輸入200,則為不合理數(shù)據(jù)
4)一致性:如年齡或出生年月要與身份證字段相互印證
歸一化
1)含義:把絕對(duì)的數(shù)量改變成相對(duì)的數(shù)量,本質(zhì)是將帶有單位的絕對(duì)數(shù)量換成沒有單位的相對(duì)數(shù)量,純粹對(duì)比大小和比例關(guān)系
2)歸一化原因:① 去量綱操作 ② 避免極值問題
3)歸一化方法:
① 最值歸一化:使用一組數(shù)據(jù)中最大值和最小值進(jìn)行歸一化策略,適用于有限定范圍的數(shù)據(jù)
② 均值方差歸一化:無明顯邊界的數(shù)據(jù),正態(tài)分布數(shù)據(jù)為優(yōu)
③ 非線性歸一化:處理極值情況