
文:數(shù)據(jù)觀 https://www.shujuguan.cn/?from=jianshu
[摘要]:
數(shù)據(jù)清洗在數(shù)據(jù)分析中的重要性毋庸置疑。就像日料一樣,“食材”質(zhì)量越高,“食物”的口感就越好。然而這個(gè)過程并不簡單,令很多有分析愿望的業(yè)務(wù)人員都望“洗”生畏。其實(shí),數(shù)據(jù)觀的ETL工具就可以幫助你快速地完成一些主要的清洗工作,而且非常簡單。快跟小觀練起來吧!
[主文]:
料理菜式:
找出最近30天內(nèi),訪問量最高的7個(gè)入口頁面(不含首頁),并能下鉆查看網(wǎng)頁的累計(jì)訪問次數(shù)和平均訪問時(shí)長。
所需食材:
1、一份Down自百度統(tǒng)計(jì)的實(shí)時(shí)訪客CSV文件。

2、一個(gè)數(shù)據(jù)觀免費(fèi)使用賬號。
料理前的準(zhǔn)備工作:
1、連接數(shù)據(jù)

點(diǎn)擊“數(shù)據(jù)連接”,選擇“文件”,選擇“上傳CSV”,上傳您的實(shí)時(shí)訪客數(shù)據(jù)即可。
2、新建ETL

點(diǎn)擊“創(chuàng)建數(shù)據(jù)”,選擇“ETL”,進(jìn)入到這張畫布,激動人心的時(shí)刻就要開始啦!
食材處理難關(guān)之——
[日子每天都在過,表格每天都得做?]
描述:我每天都想知道最近30天訪問量最高的入口頁面,但是我并不想每天調(diào)數(shù)據(jù)。有自動跟著變的方案嗎?
答案:有!
秘密武器:[日期計(jì)算]+[過濾]

[日期計(jì)算]顧名思義,就是對日期進(jìn)行計(jì)算。您可以對日期、月份、年份、季度等不同時(shí)間段動手腳。而我們這次要用的叫做“日期差”,可以很輕松地計(jì)算出每一次訪問的“距今時(shí)間”。

將新列命名為“距今天數(shù)”,將操作方式選擇為“日期差”,用“當(dāng)前日期”減去“訪問時(shí)間”,您的原始表格上就會出現(xiàn)一個(gè)名為“距今天數(shù)”的新列,并且里面是算好的天數(shù)啦!

接下來,我們用一手[過濾],直接解決“30天內(nèi)”這個(gè)需求。

將需要過濾的列選為“距今天數(shù)”,比較類型為“小于等于”,因?yàn)樘鞌?shù)是我們自己設(shè)定的,所以選成“與指定值比較”,并輸入“30”。
PS:如果您希望得到的7天或者15天,那么輸入“7”或“15”就可以了。

我們會得到“距今天數(shù)”小于等于30的數(shù)據(jù),也就是在30天內(nèi)的訪問數(shù)據(jù)。
食材處理難關(guān)之——
[時(shí)長構(gòu)成太混亂,不是整數(shù)怎么算?]
描述:我要計(jì)算訪問時(shí)長的平均值,但默認(rèn)格式是文本,里面有空值、未知、正在訪問等等,時(shí)長數(shù)值后面還有個(gè)單位‘s’,完全不具備把它轉(zhuǎn)換為“整數(shù)”的條件。有什么功能能批量把單位去掉,并把空值、未知、正在訪問都轉(zhuǎn)換為空值嗎?
答案:有!
秘密武器:[替換文本]+[修改列類型]

第一次[替換文本],解決的是單位問題。

我們需要處理的列是“訪問時(shí)長”,所以選擇該列,輸入要去掉的字符“s”,將之替換為“空字符串”即可。
第二次[替換文本],解決的是將“未知”轉(zhuǎn)成空值的問題。

第三次[替換文本],解決的是將“正在訪問”轉(zhuǎn)成空值的問題。
最終,“訪問時(shí)長”只剩下數(shù)值及空值,此時(shí)再來一招[修改列類型],將“文本”轉(zhuǎn)換成“整數(shù)”即可。

此時(shí),“訪問時(shí)長”已經(jīng)變成“整數(shù)”類型了。

是數(shù)字就好辦——計(jì)數(shù)、平均、最大值、最小值……想怎么算就怎么算!
食材處理難關(guān)之——
[入口頁面一大批 偏偏只想看前七]
描述:訪客從各個(gè)頁面來訪,但我們最關(guān)注的是前七個(gè)頁面,能實(shí)現(xiàn)只看TOPN,而不看其它嗎?
答案:能!
秘密武器:[排序和累計(jì)]

首先捫心自問——我要對什么排序?在空白框中寫下你的答案——“訪問量排序”。
接下來選擇排序的方法——“排序值(連續(xù))”。
然后找到右上方那個(gè)“應(yīng)用”按鈕,點(diǎn)擊,即可進(jìn)入下一步設(shè)置了。

選擇要排序的列——“訪問入口頁面”
然后選擇排序方式——“降序”
所有訪問入口頁面的名次就出來啦!不過,這還不是前七啊?別著急,前七的問題,“擺盤”的時(shí)候就給您解決!
擺盤:

首先,將圖表類型選擇為“條圖”——最適合展示 TopN的圖表類型。
然后,將“縱軸”選為“訪問入口頁面”,橫軸選為“訪問IP”(統(tǒng)計(jì)方式為“計(jì)數(shù)”),所有訪問入口頁面就按照訪問量排列出來了。

此時(shí),我們添加“過濾”,將過濾字段選為“訪問量排序”,將數(shù)值設(shè)為“1~7”,前七位就出來啦!當(dāng)然,如果您想看前10,前20,也可以隨時(shí)調(diào)整,非常方便。

最后,點(diǎn)擊“數(shù)據(jù)下鉆”,添加想要查看的列,就可以看到該頁面的詳情。是不是很方便呢?
最方便的是,這些處理您只做一次就行。以后,更新數(shù)據(jù),結(jié)果自動出圖哦~

手動處理這些數(shù)據(jù),臺前1分鐘,臺后一天功。
交給數(shù)據(jù)觀ETL工具的話,臺前1分鐘,臺后也就10分鐘。
[結(jié)語]:
百度統(tǒng)計(jì)后臺設(shè)計(jì)的已經(jīng)足夠好,但如果能把百度統(tǒng)計(jì)的數(shù)據(jù)按照自己的需求進(jìn)行分析,甚至和產(chǎn)品數(shù)據(jù)、其它推廣渠道的數(shù)據(jù)結(jié)合起來共同分析,那就更好。
當(dāng)很多運(yùn)營都止步于那份看起來密密麻麻的CSV文件時(shí),你手起刀落,干凈利索地將之變成一份有價(jià)值的數(shù)據(jù)洞察,是多么有成就感的事。
大家的原始字段雖然都是流水線出品,但有些字段的待遇卻是薩維爾街的,這就是運(yùn)營與運(yùn)營之間的不同。
當(dāng)普通運(yùn)營把后臺當(dāng)作一切,而你把后臺當(dāng)作一切的開始時(shí),你就贏了。
讓我們都具備讓數(shù)據(jù)說話、讓商業(yè)智能的魔力吧!
更多ETL知識,請閱讀:數(shù)據(jù)觀數(shù)據(jù)處理手冊
親手做過才是自己的哦!