數(shù)據(jù)清洗是數(shù)據(jù)分析的流程之一,也是需要花費(fèi)數(shù)據(jù)分析師很大一部分時(shí)間來(lái)做的一件事。
數(shù)據(jù)清洗包括數(shù)據(jù)缺失問(wèn)題和數(shù)據(jù)異常問(wèn)題:
一、如果清洗中發(fā)現(xiàn)是數(shù)據(jù)缺失的問(wèn)題,請(qǐng)你這樣問(wèn)自己?
1.缺失的信息來(lái)源于哪個(gè)數(shù)據(jù)表?在原表中它也是缺失的嗎?這樣可以排除數(shù)據(jù)是不是在提取過(guò)程中出現(xiàn)了失誤!
2.如果原表中該數(shù)據(jù)也是缺失的,那么會(huì)不會(huì)在收集信息的過(guò)程中出現(xiàn)了疏漏?請(qǐng)與業(yè)務(wù)部門溝通。
3.缺失信息的比例是多少?但缺失比例超過(guò)90%,該變量列可以刪除。當(dāng)缺失比例較低時(shí),可以采用平均值或中位數(shù)填充。

二、如果清洗中發(fā)現(xiàn)是數(shù)據(jù)異常的問(wèn)題
1.數(shù)據(jù)有明顯違背常識(shí)的錯(cuò)誤(格式錯(cuò)誤、內(nèi)容錯(cuò)誤-數(shù)據(jù)含有文本);
2.數(shù)據(jù)中出現(xiàn)了離群值,是波動(dòng)很大的數(shù)據(jù);
3.用戶自己填寫所收集的數(shù)據(jù)(可信度不高);
4.邏輯錯(cuò)誤的數(shù)據(jù)。

數(shù)據(jù)清洗不僅會(huì)花時(shí)間還需要分析師在清洗數(shù)據(jù)時(shí)投入更多的專注力與溝通,否則就會(huì)出錯(cuò)。
最后是數(shù)據(jù)整理:
1.對(duì)數(shù)據(jù)進(jìn)行統(tǒng)一的格式化和命名規(guī)則處理。
2.對(duì)某些信息(異常數(shù)據(jù))進(jìn)行重新編碼以滿足后續(xù)的分析需求。
完