數(shù)據(jù)清洗很神秘?其實(shí)你每天都在重復(fù)做,學(xué)會(huì)這十招幫你擺脫重復(fù)

生如夏花之絢爛,死如秋葉之靜美。

數(shù)據(jù)清洗聽(tīng)起來(lái)很神秘,其實(shí)每一個(gè)職場(chǎng)人在用 Excel 的時(shí)候幾乎都會(huì)重復(fù)的在做。在數(shù)據(jù)真正能為我們所用之前,對(duì)數(shù)據(jù)刪除空行空列、清除空格打印字符、分列、替換等都是數(shù)據(jù)清洗過(guò)程。

將雜亂無(wú)章的數(shù)據(jù)整理成有規(guī)則的、可供分析的過(guò)程,可以稱之為「數(shù)據(jù)清洗」。

導(dǎo)入 Power Query 查詢編輯器的數(shù)據(jù)如下,我們通過(guò)菜單中的 10 個(gè)功能進(jìn)行數(shù)據(jù)清洗。

Ch07 Examples\GL Jan-Mar

01、刪除行

導(dǎo)入數(shù)據(jù)的前10行都是無(wú)用的標(biāo)題行,可以使用 Power Query 主頁(yè)提供的「刪除行」功能進(jìn)行刪除。

PQ提供了豐富的刪除行操作,這里我們選擇:刪除最前面的幾行? > 10?>??確定。


02、修整和清除

現(xiàn)在數(shù)據(jù)看起來(lái)規(guī)整多了,但是我們仔細(xì)觀察可以看到列的兩邊有多余的空格,同時(shí)還有一些打印字符需要將其清除。

選中列,在轉(zhuǎn)換選項(xiàng)卡下,格式功能中可以找到「修整」和「清除」。

在 Excel 中有 Trim() 及 Clean()?函數(shù)可以將前導(dǎo)、尾隨及中間多余的空白單元格刪除

(字符中間僅保留一個(gè)單元格)

。不同的是,PQ的「修整」功能并不能刪除字符中間多余的空格。

03、按字符數(shù)拆分列

和 Excel 的拆分列功能相似,我們可以看到 PQ 將數(shù)據(jù)識(shí)別成了單獨(dú)的一列。需要我們自己手動(dòng)拆分列。

主頁(yè)?> 拆分列?> 按字符數(shù)?>?15

這里拆分的字符數(shù)可以根據(jù)日期列的字符數(shù)進(jìn)行確定初始值,然后進(jìn)行調(diào)試,找到最佳的拆分字符數(shù)。

拆分完后更具規(guī)則的數(shù)據(jù)

04、提升標(biāo)題

這時(shí)我們需要給每列一個(gè)有意義的名稱,可以看到第一行就是列的標(biāo)題。因此可以直接使用「將第一列用作標(biāo)題」提升標(biāo)題行。

05、更改數(shù)據(jù)類型

PQ 默認(rèn)會(huì)根據(jù)列的數(shù)據(jù)特征自動(dòng)更改列的數(shù)據(jù)類型,然而它并不能每次都準(zhǔn)確識(shí)別,所以有時(shí)我們需要自己更改數(shù)據(jù)類型。

06、刪除錯(cuò)誤值

轉(zhuǎn)換數(shù)據(jù)類型操作后,可以看到列的下方出現(xiàn)了紅色的標(biāo)記,這是 PQ 提醒我們數(shù)據(jù)列存在錯(cuò)誤值,往下拉到第 44 行可以發(fā)現(xiàn)錯(cuò)誤值。

因?yàn)閿?shù)據(jù)類型轉(zhuǎn)換失敗導(dǎo)致的錯(cuò)誤值

當(dāng)確認(rèn)了這些屬于無(wú)用字符導(dǎo)致的轉(zhuǎn)換失敗以后,可以刪除錯(cuò)誤行。

主頁(yè)??> 刪除行?>??刪除錯(cuò)誤


07、篩選剔除行

刪除錯(cuò)誤以后,第一列還有灰色的提示,說(shuō)明該列還有無(wú)用的空行。



可以通過(guò)列的篩選功能,剔除空行,選中第一列,篩選取消勾選 (null)。


08、刪除列


刪除數(shù)據(jù)中的空列。選中空列,右擊鼠標(biāo)刪除列。


09、合并列

處理到這一步數(shù)據(jù)已經(jīng)基本清洗干凈了。往后看,可以發(fā)現(xiàn)有兩列在開(kāi)始按字符數(shù)拆分時(shí),被錯(cuò)誤的拆開(kāi)了。

我們可以使用「合并列」功能進(jìn)行逆操作,「合并列」相當(dāng)于 Excel 中的連接字符?「&」。


選中以上兩列,點(diǎn)擊轉(zhuǎn)換> 合并列



彈出的對(duì)話框中指定新的列名,點(diǎn)擊確定完成合并。

10、按分隔符拆分列


合并的?Reference Information 列包含雙重信息,并且可以按照分隔符「 -?」進(jìn)行拆分。

選中該列,點(diǎn)擊轉(zhuǎn)換拆分列?>?按分隔符?>?-


學(xué)會(huì)以上十招,基本也就掌握了PQ 常用的數(shù)據(jù)清洗功能,只要認(rèn)真跟著操作一番,相信對(duì) PQ 會(huì)有不一樣的理解,同時(shí)對(duì)于文章沒(méi)有出現(xiàn)的其它數(shù)據(jù)轉(zhuǎn)換功能也會(huì)具備一定的自我探索能力。

也許你會(huì)問(wèn)這些都能在 Excel 中實(shí)現(xiàn),為什么要一定要在 PQ 中處理 ?,在 Excel 中當(dāng)你面臨同樣的需求時(shí),所有的導(dǎo)入文本、刪除行、合并拆分列,你都需要重新操作一遍。

而在 PQ 中,以上操作都已經(jīng)被錄制下來(lái)

(類似宏)

,當(dāng)你面臨同樣需求時(shí),只要更改數(shù)據(jù)源就可以一鍵執(zhí)行整個(gè)清洗工作。


Excel Tips & Tricks 使用蝴蝶圖讓數(shù)據(jù)對(duì)比更明顯

學(xué)會(huì)這兩個(gè)M函數(shù),合并文件更加得心應(yīng)手

牢記這三點(diǎn),你也可以高效管理度量值

你的在看

我的動(dòng)力 !

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容