淺談數(shù)據(jù)中臺(tái)

標(biāo)簽(空格分隔): 數(shù)據(jù)倉庫


一、什么是數(shù)據(jù)中臺(tái)

數(shù)據(jù)中臺(tái)的概念最是阿里提出來的是為了實(shí)現(xiàn)數(shù)據(jù)的分層和水平解耦,提供數(shù)據(jù)服務(wù)能力??戳四敲炊嘀信_(tái)的概念,對(duì)中臺(tái)也有些自己的理解。筆者認(rèn)為中臺(tái)主要是為了提供全域的數(shù)據(jù)服務(wù)。主要包括以下4部分:數(shù)據(jù)資產(chǎn)、數(shù)據(jù)治理、數(shù)據(jù)模型、數(shù)據(jù)服務(wù)。
image

打通數(shù)據(jù)建模對(duì)全域數(shù)據(jù)進(jìn)行沉淀形成數(shù)據(jù)資產(chǎn),從而提供統(tǒng)一的數(shù)據(jù)服務(wù)功能。

二、如何建立數(shù)據(jù)中臺(tái)

建設(shè)數(shù)據(jù)中臺(tái)主要就是從數(shù)據(jù)模型、數(shù)據(jù)資產(chǎn)、數(shù)據(jù)治理、數(shù)據(jù)服務(wù)四部分出發(fā)。

首先需要做整體規(guī)劃,哪些數(shù)據(jù)需要納入到數(shù)據(jù)中臺(tái)中,根據(jù)數(shù)據(jù)接入的情況,進(jìn)行技術(shù)選型,評(píng)估集群的配置,規(guī)劃至少3年的計(jì)算和存儲(chǔ)資源。

1、數(shù)據(jù)模型

數(shù)據(jù)模型,就是我們熟悉的數(shù)據(jù)倉庫中的模型,按照數(shù)據(jù)倉庫規(guī)范分層開發(fā)模型,實(shí)現(xiàn)數(shù)據(jù)的標(biāo)準(zhǔn)化,多采用維度建模。還有一些挖掘模型,如果用的多了,也可以沉淀到數(shù)據(jù)中臺(tái)中。我們可以看出數(shù)據(jù)中臺(tái)中的模型具有通用性。

數(shù)據(jù)建模一般分為2個(gè)步驟:

  1. 確認(rèn)事實(shí)表,分析業(yè)務(wù)的生命周期,明確業(yè)務(wù)的關(guān)鍵步驟。在進(jìn)行指標(biāo)定義的時(shí)候是否覆蓋了本主題語中的全部指標(biāo),判斷哪些指標(biāo)可以通過加減乘除計(jì)算得到等。

  2. 確定維度,粒度是模型設(shè)計(jì)的關(guān)鍵,太細(xì)的粒度不利于上層數(shù)據(jù)分析匯總,太粗的粒度又不能滿足前段多維度個(gè)性化查詢需求。基于此,模型設(shè)計(jì)時(shí)候一般考慮分層,層級(jí)越往后,粒度越粗。冗余維度也是需要考慮的,設(shè)計(jì)冗余的維度可以避免統(tǒng)計(jì)中過多的關(guān)聯(lián)導(dǎo)致復(fù)雜的計(jì)算邏輯,影響性能。

2、數(shù)據(jù)資產(chǎn)

在數(shù)據(jù)倉庫中我們已經(jīng)建立了一些模型,但是只有打通數(shù)據(jù)孤島后才可以稱為資產(chǎn)。需要規(guī)范指標(biāo)庫,這些指標(biāo)可以組合處理滿足外部人員個(gè)性化的指標(biāo)需求。資產(chǎn)管理的基礎(chǔ)是做好元數(shù)據(jù)管理,元數(shù)據(jù)包括采集的接口信息,模型信息、指標(biāo)定義,作業(yè)的血緣關(guān)系、數(shù)據(jù)存儲(chǔ)以及訪問情況等。

3、數(shù)據(jù)治理

很多數(shù)據(jù)倉庫人員曾淪為“表哥”,天天忙著提取數(shù)據(jù)核對(duì)指標(biāo),時(shí)間長(zhǎng)了,業(yè)務(wù)人員容易對(duì)你的數(shù)據(jù)不信任。數(shù)據(jù)治理主要是為了保障數(shù)據(jù)資產(chǎn)的完整性、準(zhǔn)確性、一致性、及時(shí)性。根據(jù)指定的規(guī)范開發(fā)模型、校驗(yàn)?zāi)P?、管理模型,為業(yè)務(wù)提供統(tǒng)一的、準(zhǔn)確的指標(biāo)保駕護(hù)航。

4、數(shù)據(jù)服務(wù)

數(shù)據(jù)中臺(tái)最重要的就是要對(duì)外提供統(tǒng)一的服務(wù)能力。數(shù)據(jù)服務(wù)需要包含以下幾個(gè)能力:

  • 數(shù)據(jù)接口標(biāo)準(zhǔn)化:提供統(tǒng)一的數(shù)據(jù)服務(wù)在線查詢視圖,讓開發(fā)者能夠快速、簡(jiǎn)單的訪問數(shù)據(jù)服務(wù);

  • 數(shù)據(jù)開發(fā)可視化:提供服務(wù)接口的可視化配置,開發(fā)者只需要配置SQL就可以生產(chǎn)API,減低接口開發(fā)技術(shù)要求,便于維護(hù)和接口管理。對(duì)于業(yè)務(wù)分析人員可以讓他們輕松的進(jìn)行算法分析,包括模型管理、可視化編排流程,算法模型發(fā)布等功能。

三、數(shù)據(jù)中臺(tái)和數(shù)據(jù)倉庫有什么不同

很多人對(duì)數(shù)據(jù)中臺(tái)和數(shù)據(jù)倉庫兩個(gè)概念可能不是很清楚,其實(shí)最主要的是思維理念不同,數(shù)據(jù)倉庫是“管理數(shù)據(jù)”,數(shù)據(jù)中臺(tái)是“經(jīng)營(yíng)數(shù)據(jù)”,數(shù)據(jù)中臺(tái)是為了提供服務(wù)而生(也有說是為了前臺(tái)而生)。

參考資料:《數(shù)據(jù)中臺(tái)-阿里巴巴的數(shù)據(jù)整合、價(jià)值發(fā)掘、社會(huì)賦能之道

[1] https://img-blog.csdnimg.cn/20190226204152675.jpg

[2] https://yq.aliyun.com/articles/297782

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容