生如夏花之絢爛,死如秋葉之靜美。
數(shù)據(jù)清洗聽(tīng)起來(lái)很神秘,其實(shí)每一個(gè)職場(chǎng)人在用 Excel 的時(shí)候幾乎都會(huì)重復(fù)的在做。在數(shù)據(jù)真正能為我們所用之前,對(duì)數(shù)據(jù)刪除空行空列、清除空格打印字符、分列、替換等都是數(shù)據(jù)清洗過(guò)程。
將雜亂無(wú)章的數(shù)據(jù)整理成有規(guī)則的、可供分析的過(guò)程,可以稱之為「數(shù)據(jù)清洗」。
導(dǎo)入 Power Query 查詢編輯器的數(shù)據(jù)如下,我們通過(guò)菜單中的 10 個(gè)功能進(jìn)行數(shù)據(jù)清洗。
Ch07 Examples\GL Jan-Mar
01、刪除行
導(dǎo)入數(shù)據(jù)的前10行都是無(wú)用的標(biāo)題行,可以使用 Power Query 主頁(yè)提供的「刪除行」功能進(jìn)行刪除。
PQ提供了豐富的刪除行操作,這里我們選擇:刪除最前面的幾行? > 10?>??確定。
02、修整和清除
現(xiàn)在數(shù)據(jù)看起來(lái)規(guī)整多了,但是我們仔細(xì)觀察可以看到列的兩邊有多余的空格,同時(shí)還有一些打印字符需要將其清除。
選中列,在轉(zhuǎn)換選項(xiàng)卡下,格式功能中可以找到「修整」和「清除」。
在 Excel 中有 Trim() 及 Clean()?函數(shù)可以將前導(dǎo)、尾隨及中間多余的空白單元格刪除
(字符中間僅保留一個(gè)單元格)
。不同的是,PQ的「修整」功能并不能刪除字符中間多余的空格。
03、按字符數(shù)拆分列
和 Excel 的拆分列功能相似,我們可以看到 PQ 將數(shù)據(jù)識(shí)別成了單獨(dú)的一列。需要我們自己手動(dòng)拆分列。
主頁(yè)?> 拆分列?> 按字符數(shù)?>?15
這里拆分的字符數(shù)可以根據(jù)日期列的字符數(shù)進(jìn)行確定初始值,然后進(jìn)行調(diào)試,找到最佳的拆分字符數(shù)。
拆分完后更具規(guī)則的數(shù)據(jù)
04、提升標(biāo)題
這時(shí)我們需要給每列一個(gè)有意義的名稱,可以看到第一行就是列的標(biāo)題。因此可以直接使用「將第一列用作標(biāo)題」提升標(biāo)題行。
05、更改數(shù)據(jù)類型
PQ 默認(rèn)會(huì)根據(jù)列的數(shù)據(jù)特征自動(dòng)更改列的數(shù)據(jù)類型,然而它并不能每次都準(zhǔn)確識(shí)別,所以有時(shí)我們需要自己更改數(shù)據(jù)類型。
06、刪除錯(cuò)誤值
轉(zhuǎn)換數(shù)據(jù)類型操作后,可以看到列的下方出現(xiàn)了紅色的標(biāo)記,這是 PQ 提醒我們數(shù)據(jù)列存在錯(cuò)誤值,往下拉到第 44 行可以發(fā)現(xiàn)錯(cuò)誤值。
因?yàn)閿?shù)據(jù)類型轉(zhuǎn)換失敗導(dǎo)致的錯(cuò)誤值
當(dāng)確認(rèn)了這些屬于無(wú)用字符導(dǎo)致的轉(zhuǎn)換失敗以后,可以刪除錯(cuò)誤行。
主頁(yè)??> 刪除行?>??刪除錯(cuò)誤
07、篩選剔除行
刪除錯(cuò)誤以后,第一列還有灰色的提示,說(shuō)明該列還有無(wú)用的空行。
可以通過(guò)列的篩選功能,剔除空行,選中第一列,篩選取消勾選 (null)。
08、刪除列
刪除數(shù)據(jù)中的空列。選中空列,右擊鼠標(biāo)刪除列。
09、合并列
處理到這一步數(shù)據(jù)已經(jīng)基本清洗干凈了。往后看,可以發(fā)現(xiàn)有兩列在開(kāi)始按字符數(shù)拆分時(shí),被錯(cuò)誤的拆開(kāi)了。
我們可以使用「合并列」功能進(jìn)行逆操作,「合并列」相當(dāng)于 Excel 中的連接字符?「&」。
選中以上兩列,點(diǎn)擊轉(zhuǎn)換> 合并列
彈出的對(duì)話框中指定新的列名,點(diǎn)擊確定完成合并。
10、按分隔符拆分列
合并的?Reference Information 列包含雙重信息,并且可以按照分隔符「 -?」進(jìn)行拆分。
選中該列,點(diǎn)擊轉(zhuǎn)換拆分列?>?按分隔符?>?-
學(xué)會(huì)以上十招,基本也就掌握了PQ 常用的數(shù)據(jù)清洗功能,只要認(rèn)真跟著操作一番,相信對(duì) PQ 會(huì)有不一樣的理解,同時(shí)對(duì)于文章沒(méi)有出現(xiàn)的其它數(shù)據(jù)轉(zhuǎn)換功能也會(huì)具備一定的自我探索能力。
也許你會(huì)問(wèn)這些都能在 Excel 中實(shí)現(xiàn),為什么要一定要在 PQ 中處理 ?,在 Excel 中當(dāng)你面臨同樣的需求時(shí),所有的導(dǎo)入文本、刪除行、合并拆分列,你都需要重新操作一遍。
而在 PQ 中,以上操作都已經(jīng)被錄制下來(lái)
(類似宏)
,當(dāng)你面臨同樣需求時(shí),只要更改數(shù)據(jù)源就可以一鍵執(zhí)行整個(gè)清洗工作。
Excel Tips & Tricks 使用蝴蝶圖讓數(shù)據(jù)對(duì)比更明顯
學(xué)會(huì)這兩個(gè)M函數(shù),合并文件更加得心應(yīng)手
牢記這三點(diǎn),你也可以高效管理度量值
你的在看
我的動(dòng)力 !