清洗臟數(shù)據(jù)

雖然一直強調(diào)規(guī)范表格、規(guī)范數(shù)據(jù)的重要性,但是始終無法避免臟數(shù)據(jù)的產(chǎn)生。因此本文簡單介紹一下哪些數(shù)據(jù)需要清洗,轉(zhuǎn)換成規(guī)范數(shù)據(jù)和表格。

每一列的數(shù)據(jù)類型和數(shù)據(jù)格式。上一篇已經(jīng)提到,同一列的數(shù)據(jù)是同一種數(shù)據(jù)類型,避免在同一列混用多種類型。

空格和不可見字符。常見于從系統(tǒng)導(dǎo)出的表格,用眼睛無法觀察到,雙擊單元格進入編輯模式,或者使用單元格可以識別出來。

部分中文字符轉(zhuǎn)換為英文字符。數(shù)字中的中文逗號、時間中的中文冒號等。

重復(fù)數(shù)據(jù)。刪除會影響計算結(jié)果的重復(fù)數(shù)據(jù)。

空白行空白列。通常由不良的操作系統(tǒng)產(chǎn)生的,比如在數(shù)據(jù)行列中插入的空白行空白列;操作單元格時習(xí)慣性選擇整行整列,進行設(shè)置格式或者填充顏色,導(dǎo)致沒有數(shù)據(jù)的空單元格也變成已使用的單元格。

處理合并單元格。除了結(jié)果報表,避免的表格中使用合并單元格。

填充空單元格。比如取消合并單元格后,會出現(xiàn)大量空單元格,需要填充對應(yīng)的值。

數(shù)字。用于計算的數(shù)字,將文本型數(shù)字轉(zhuǎn)換為數(shù)值型;類似產(chǎn)品型號、編碼等不用于計算的數(shù)字,轉(zhuǎn)換為文本值。

日期。短橫線“-”分隔,如“2022-11-04”“2022-11”;斜杠“/”分隔,如“2022/11/04”“2022/11”;)使用中文年月日,如“2022年11月04日”“2022年11月”。

時間。時間的小時、分隔和秒數(shù)用英文冒號“:”分隔如“22:04:10”“22:04”。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容