數(shù)據(jù)cpjl修煉手冊3

3.5 數(shù)據(jù)管理系統(tǒng)

在對業(yè)務(wù)預(yù)測時,我們需要建立合適的模型,把歷史數(shù)據(jù)輸入模型中,進(jìn)行預(yù)測,然后與真實(shí)數(shù)據(jù)對比,不斷參數(shù)調(diào)優(yōu)改進(jìn)模型。這時候,數(shù)據(jù)的準(zhǔn)確性和完整性等因素確實(shí)很重要。如果數(shù)據(jù)質(zhì)量出現(xiàn)問題,就會導(dǎo)致結(jié)果偏差很大,甚至是錯誤的,也就是所謂的“垃圾進(jìn),垃圾出”

從各方面把控數(shù)據(jù)質(zhì)量,前面介紹的建立指標(biāo)字典就是保障數(shù)據(jù)可讀性的基礎(chǔ)。如果數(shù)據(jù)的可讀性非常差,就會浪費(fèi)很多的時間來分析數(shù)據(jù),更嚴(yán)重的是在大數(shù)據(jù)平臺中,難以滿足各種業(yè)務(wù)應(yīng)用場景下的需求與決策支持。

在過去、現(xiàn)在和未來,無論影響數(shù)據(jù)質(zhì)量的因素發(fā)生什么樣的變化,保證數(shù)據(jù)質(zhì)量永遠(yuǎn)都是業(yè)務(wù)使用必須解決的問題。因此,對于數(shù)據(jù)產(chǎn)品經(jīng)理來說,建立一個數(shù)據(jù)管理系統(tǒng),對公司的業(yè)務(wù)發(fā)展顯得至關(guān)重要。

3.5.1數(shù)據(jù)管理系統(tǒng)的質(zhì)量檢測

數(shù)據(jù)管理系統(tǒng)側(cè)重于從時效性和數(shù)據(jù)一致性兩大質(zhì)量方向保證數(shù)據(jù)的可讀性。

1.數(shù)據(jù)倉庫的數(shù)據(jù)時效性檢查

明確每天的每一個層級、每一個數(shù)據(jù)表的最早和最晚生成時間,發(fā)現(xiàn)影響當(dāng)天數(shù)據(jù)生成延誤的數(shù)據(jù)表,并能夠通過數(shù)據(jù)管理系統(tǒng)回答以下問題:

當(dāng)天MySQL表和Hive表中的核心指標(biāo)是何時生成的?

有哪些表的產(chǎn)出時間比預(yù)期時間延遲了

任務(wù)延遲的原因是由哪幾張表造成的?

瓶頸在哪里?優(yōu)化哪幾層?哪幾張表可以提高核心指標(biāo)等的生成時間

2.數(shù)據(jù)倉庫的數(shù)據(jù)一致性檢查

通過數(shù)據(jù)一致性檢查,在數(shù)據(jù)質(zhì)量視圖的展現(xiàn)下,我們可以快速了解存在依賴關(guān)系的數(shù)據(jù)表的分維度數(shù)據(jù)變化情況。

因此,大數(shù)據(jù)管理系統(tǒng)項(xiàng)目需要做的事情主要分為以下幾步:

第一步,建立數(shù)據(jù)依賴引擎,實(shí)現(xiàn)依賴圖譜。依賴圖譜用于構(gòu)建數(shù)據(jù)倉庫表之間的分層級依賴關(guān)系,然后存入MySQL表并能支持可視化展現(xiàn)。

第二步,計算數(shù)據(jù)準(zhǔn)備情況。各個表、各個分區(qū)的數(shù)據(jù)準(zhǔn)備就緒時間按天、小時級進(jìn)行匯總。根據(jù)Hive 倉庫的Meta信息可以獲取Hive表各個分區(qū)的創(chuàng)建時間,根據(jù)創(chuàng)建時間確定數(shù)據(jù)的實(shí)效性,用來分析展現(xiàn)每天、每小時的狀態(tài)和瓶頸。如果需要對MySQL進(jìn)行驗(yàn)證則通過SQL語句查詢的方式獲取對應(yīng)時間在MySQL中是否存在。

第三步,建立數(shù)據(jù)計算引擎。根據(jù)定義的小時級指標(biāo)、天級別指標(biāo)規(guī)則,結(jié)合數(shù)據(jù)表各個分區(qū)的準(zhǔn)備就緒時間,調(diào)用Spark SQL計算核心指標(biāo)

第四步,建立數(shù)據(jù)比較引擎。根據(jù)表和表之間核心指標(biāo)的關(guān)系、表和表之間的規(guī)則進(jìn)行比較驗(yàn)證。例如,A==B,A+B==C,B/A < 0.95等邏輯判斷。

3.5.2數(shù)據(jù)管理系統(tǒng)的功能

數(shù)據(jù)管理系統(tǒng)的功能主要分為數(shù)據(jù)流管理、任務(wù)管理、數(shù)據(jù)管理三大功能。

數(shù)據(jù)流管理,也可以叫血緣分析。單從字面上來看,它屬于一種數(shù)據(jù)關(guān)系的分析,用來解釋數(shù)據(jù)之間相互影響的一種描述。數(shù)據(jù)流管理,對于當(dāng)前大數(shù)據(jù)背景下的數(shù)據(jù)治理具有十分重要的意義,它能讓你快速了解數(shù)據(jù)組成結(jié)構(gòu),并制定有效的管理方式。

例如,有一天,我們發(fā)現(xiàn)大數(shù)據(jù)分析平臺某個業(yè)務(wù)指標(biāo)的數(shù)據(jù)沒有產(chǎn)出,就要去查看到底哪里出了問題,是數(shù)據(jù)集市里的表、主題層的表還是基礎(chǔ)層的表出了問題。而在更多的時候,數(shù)據(jù)集市的表會依賴多張表,那么這個排查問題的過程就會變得很麻煩,而且很浪費(fèi)時間。

數(shù)據(jù)血緣關(guān)系會首先通過指標(biāo)對應(yīng)的庫表關(guān)系,找出它所屬的表,再根據(jù)計算關(guān)系找到計算過程中與它有關(guān)聯(lián)的表,最終把整個鏈路上的相關(guān)表展現(xiàn)出來。

任務(wù)管理會對每天的任務(wù)執(zhí)行情況進(jìn)行管理,展現(xiàn)每張表的任務(wù)完成時間、任務(wù)延時情況以及延時的原因等,一旦任務(wù)出現(xiàn)問題,可以快速聯(lián)系到數(shù)據(jù)表的負(fù)責(zé)人。同時,能夠方便查看每張表的依賴關(guān)系、完成時長的歷史情況以及表的字段信息,讓整個大數(shù)據(jù)分析平臺變得清晰易懂

數(shù)據(jù)管理功能會展現(xiàn)數(shù)據(jù)倉庫表的信息,包括所屬數(shù)據(jù)庫、存儲類型、負(fù)責(zé)人、產(chǎn)出狀態(tài)、數(shù)據(jù)庫地址、標(biāo)簽、備注、所屬業(yè)務(wù)組等,并可進(jìn)行查看和編輯操作。

以上只是數(shù)據(jù)管理系統(tǒng)應(yīng)該具備的最基礎(chǔ)的三大功能,還可以加入數(shù)據(jù)接入中的集群管理功能、數(shù)據(jù)指標(biāo)字典管理等。

四、大數(shù)據(jù)分析平臺實(shí)踐

隨著公司業(yè)務(wù)的不斷發(fā)展,公司會積累大量各種類型的數(shù)據(jù),這些海量數(shù)據(jù)如果沒有得到有效的分析和利用,那么便不會對業(yè)務(wù)產(chǎn)生該有的價值。

通過大數(shù)據(jù)分析平臺的名字就可以看出,它是由大數(shù)據(jù)+分析構(gòu)成的,其實(shí)在大數(shù)據(jù)出現(xiàn)之前,BI(Business Intelligence,商業(yè)智能)就已經(jīng)存在很久了,兩者是緊密關(guān)聯(lián)的、相輔相成的。

在大數(shù)據(jù)時代,企業(yè)會積累大量的數(shù)據(jù),有前端的埋點(diǎn)數(shù)據(jù),也有各種業(yè)務(wù)數(shù)據(jù),通過前面介紹的數(shù)據(jù)倉庫和大數(shù)據(jù)管理系統(tǒng)等方式,已經(jīng)可以對數(shù)據(jù)進(jìn)行有效的存儲和管理了。然而,這些海量的數(shù)據(jù)并沒有得到有效的統(tǒng)計分析和展現(xiàn),并沒有對業(yè)務(wù)形成有價值的數(shù)據(jù)支撐。

5.1 大數(shù)據(jù)分析平臺應(yīng)用實(shí)戰(zhàn)

按照大數(shù)據(jù)分析平臺的版本迭代路線,講一下大數(shù)據(jù)分析平臺建設(shè)的四個階段:可拓展的報表分析平臺(V1.0版本)、自助式分析平臺(V2.0版本)、智能化分析平臺(V3.0版本)、業(yè)務(wù)場景分析平臺(V4.0版本)

5.1.1可拓展的報表分析平臺

提起報表分析平臺,很多人還停留在后端接口查詢數(shù)據(jù)庫數(shù)據(jù)、前端頁面展現(xiàn)數(shù)據(jù)這種傳統(tǒng)的定制化的報表分析平臺上。確實(shí),公司在業(yè)務(wù)規(guī)模不大和人力不足的情況下,可以實(shí)現(xiàn)這種原始的報表分析平臺,更準(zhǔn)確地說,應(yīng)該是指標(biāo)展現(xiàn)頁面??墒牵?b>這種傳統(tǒng)的方式太定制化了,沒有任何的可拓展性,如果增加一個指標(biāo),前端和后端代碼修改的成本都比較高,可以毫不夸張地說,前者就像還停留在冷兵器時代的軍隊(duì),只能招兵買馬、堆積人力,辛苦和艱難程度可想而知。

為了提高大數(shù)據(jù)分析平臺的可擴(kuò)展性,終于找到了用實(shí)現(xiàn)QueryAdapter的方式解決問題,具體的方式就是通過前端配置JSON,并在API層下添加QueryAdapter層把API的接口翻譯成相應(yīng)的SQL,然后通過SQL查詢具體的數(shù)據(jù)庫,進(jìn)一步提高前端的擴(kuò)展性和報表的靈活性。上面的這一過程可以用如圖5-2所示的架構(gòu)實(shí)現(xiàn)。

5.1.2自助式分析平臺

隨著業(yè)務(wù)人員的需求的多樣性不斷增加,數(shù)據(jù)分析師和產(chǎn)品經(jīng)理的業(yè)務(wù)需求應(yīng)接不暇,而且有很大的溝通成本,面對上面的痛點(diǎn),就需要為業(yè)務(wù)人員實(shí)現(xiàn)一個他們自己能夠快速、方便搭建報表的平臺。

自助式分析功能主要包含創(chuàng)建數(shù)據(jù)源、創(chuàng)建單圖、創(chuàng)建看板

5.1.3智能化分析平臺

一個完善的大數(shù)據(jù)分析平臺,不僅僅是單純展現(xiàn)數(shù)據(jù)的,更不是一些業(yè)務(wù)常用報表的羅列,還要能夠?yàn)閿?shù)據(jù)分析師、業(yè)務(wù)人員提供更多對數(shù)據(jù)的洞察,讓數(shù)據(jù)更加智能化。例如,可以支持對數(shù)據(jù)進(jìn)行多維度下鉆、單圖之間數(shù)據(jù)聯(lián)動、對數(shù)據(jù)異常點(diǎn)進(jìn)行標(biāo)注、指標(biāo)異常檢測等功能,可以讓使用人員方便、快捷地分析更精細(xì)的業(yè)務(wù)場景,實(shí)現(xiàn)從更多維度的數(shù)據(jù)出發(fā)去了解業(yè)務(wù),讓數(shù)據(jù)發(fā)揮更立體的價值。

5.1.3業(yè)務(wù)場景分析平臺

大數(shù)據(jù)分析平臺要更方便地服務(wù)于不同的業(yè)務(wù)場景進(jìn)行數(shù)據(jù)分析,整理數(shù)據(jù)報告是數(shù)據(jù)分析師必不可少的工作,無論是周報、月報,還是新版本表現(xiàn)的分析報告,都需要在圍繞報告目標(biāo)的基礎(chǔ)上,對數(shù)據(jù)整理、分析并提煉要點(diǎn),最后形成一份有指導(dǎo)意義、易讀且美觀的數(shù)據(jù)報告。而這些報告,就是每個業(yè)務(wù)場景都會沉淀下來的一套固定的分析思路和分析架構(gòu),這套固定的分析架構(gòu)就可以放在平臺上實(shí)現(xiàn),例如渠道分析、用戶留存分析、用戶活躍分析及日常的周月報等。通過分析模板,我們可以方便、智能地查看分析數(shù)據(jù),提高效率。

5.2移動端大數(shù)據(jù)平臺

對于一款移動端大數(shù)據(jù)分析平臺而言,我們可以從產(chǎn)品定位、數(shù)據(jù)內(nèi)容、產(chǎn)品結(jié)構(gòu)、整體架構(gòu)設(shè)計、其他一些局部細(xì)節(jié)問題等方面考慮設(shè)計。

1.產(chǎn)品定位

首先,它主要滿足管理層和各方業(yè)務(wù)人員看數(shù)據(jù)的需求,因?yàn)檫@里面有一部分人經(jīng)常出差在外,比較依賴于移動端獲取信息。

2.數(shù)據(jù)內(nèi)容

數(shù)據(jù)內(nèi)容一般都是根據(jù)每個公司的業(yè)務(wù)情況設(shè)計的,即用戶以什么樣的思路使用,看什么樣的數(shù)據(jù)。數(shù)據(jù)內(nèi)容決定了產(chǎn)品如何組織目錄結(jié)構(gòu),決定了產(chǎn)品業(yè)務(wù)上的指標(biāo)架構(gòu)。

3.產(chǎn)品結(jié)構(gòu)

移動端的大數(shù)據(jù)分析平臺,由于屏幕尺寸和操作的限制,要注意頁面的樣式和一些控件是與PC端很不一樣的,主要以展現(xiàn)為主、操作為輔,要注意產(chǎn)品的功能性和易用性。在設(shè)計上,要遵循“Less is more”的原則,化繁為簡,讓用戶快速高效地獲取數(shù)據(jù)。

4.整體架構(gòu)設(shè)計

系統(tǒng)的導(dǎo)航結(jié)構(gòu)和頁面的基本元素,構(gòu)成了大數(shù)據(jù)分析平臺的實(shí)體和結(jié)構(gòu)。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容