數(shù)據(jù)清洗

數(shù)據(jù)清洗是數(shù)據(jù)分析的流程之一,也是需要花費(fèi)數(shù)據(jù)分析師很大一部分時(shí)間來(lái)做的一件事。


數(shù)據(jù)清洗包括數(shù)據(jù)缺失問(wèn)題和數(shù)據(jù)異常問(wèn)題:

一、如果清洗中發(fā)現(xiàn)是數(shù)據(jù)缺失的問(wèn)題,請(qǐng)你這樣問(wèn)自己?

1.缺失的信息來(lái)源于哪個(gè)數(shù)據(jù)表?在原表中它也是缺失的嗎?這樣可以排除數(shù)據(jù)是不是在提取過(guò)程中出現(xiàn)了失誤!

2.如果原表中該數(shù)據(jù)也是缺失的,那么會(huì)不會(huì)在收集信息的過(guò)程中出現(xiàn)了疏漏?請(qǐng)與業(yè)務(wù)部門溝通。

3.缺失信息的比例是多少?但缺失比例超過(guò)90%,該變量列可以刪除。當(dāng)缺失比例較低時(shí),可以采用平均值或中位數(shù)填充。



二、如果清洗中發(fā)現(xiàn)是數(shù)據(jù)異常的問(wèn)題

1.數(shù)據(jù)有明顯違背常識(shí)的錯(cuò)誤(格式錯(cuò)誤、內(nèi)容錯(cuò)誤-數(shù)據(jù)含有文本);

2.數(shù)據(jù)中出現(xiàn)了離群值,是波動(dòng)很大的數(shù)據(jù);

3.用戶自己填寫所收集的數(shù)據(jù)(可信度不高);

4.邏輯錯(cuò)誤的數(shù)據(jù)。

數(shù)據(jù)清洗不僅會(huì)花時(shí)間還需要分析師在清洗數(shù)據(jù)時(shí)投入更多的專注力與溝通,否則就會(huì)出錯(cuò)。



最后是數(shù)據(jù)整理:

1.對(duì)數(shù)據(jù)進(jìn)行統(tǒng)一的格式化和命名規(guī)則處理。

2.對(duì)某些信息(異常數(shù)據(jù))進(jìn)行重新編碼以滿足后續(xù)的分析需求。


?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
禁止轉(zhuǎn)載,如需轉(zhuǎn)載請(qǐng)通過(guò)簡(jiǎn)信或評(píng)論聯(lián)系作者。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容