雖然一直強調(diào)規(guī)范表格、規(guī)范數(shù)據(jù)的重要性,但是始終無法避免臟數(shù)據(jù)的產(chǎn)生。因此本文簡單介紹一下哪些數(shù)據(jù)需要清洗,轉(zhuǎn)換成規(guī)范數(shù)據(jù)和表格。
每一列的數(shù)據(jù)類型和數(shù)據(jù)格式。上一篇已經(jīng)提到,同一列的數(shù)據(jù)是同一種數(shù)據(jù)類型,避免在同一列混用多種類型。
空格和不可見字符。常見于從系統(tǒng)導(dǎo)出的表格,用眼睛無法觀察到,雙擊單元格進入編輯模式,或者使用單元格可以識別出來。
部分中文字符轉(zhuǎn)換為英文字符。數(shù)字中的中文逗號、時間中的中文冒號等。
重復(fù)數(shù)據(jù)。刪除會影響計算結(jié)果的重復(fù)數(shù)據(jù)。
空白行空白列。通常由不良的操作系統(tǒng)產(chǎn)生的,比如在數(shù)據(jù)行列中插入的空白行空白列;操作單元格時習(xí)慣性選擇整行整列,進行設(shè)置格式或者填充顏色,導(dǎo)致沒有數(shù)據(jù)的空單元格也變成已使用的單元格。
處理合并單元格。除了結(jié)果報表,避免的表格中使用合并單元格。
填充空單元格。比如取消合并單元格后,會出現(xiàn)大量空單元格,需要填充對應(yīng)的值。
數(shù)字。用于計算的數(shù)字,將文本型數(shù)字轉(zhuǎn)換為數(shù)值型;類似產(chǎn)品型號、編碼等不用于計算的數(shù)字,轉(zhuǎn)換為文本值。
日期。短橫線“-”分隔,如“2022-11-04”“2022-11”;斜杠“/”分隔,如“2022/11/04”“2022/11”;)使用中文年月日,如“2022年11月04日”“2022年11月”。
時間。時間的小時、分隔和秒數(shù)用英文冒號“:”分隔如“22:04:10”“22:04”。