標(biāo)簽(空格分隔): 數(shù)據(jù)倉庫
一、什么是數(shù)據(jù)中臺(tái)
數(shù)據(jù)中臺(tái)的概念最是阿里提出來的是為了實(shí)現(xiàn)數(shù)據(jù)的分層和水平解耦,提供數(shù)據(jù)服務(wù)能力??戳四敲炊嘀信_(tái)的概念,對(duì)中臺(tái)也有些自己的理解。筆者認(rèn)為中臺(tái)主要是為了提供全域的數(shù)據(jù)服務(wù)。主要包括以下4部分:數(shù)據(jù)資產(chǎn)、數(shù)據(jù)治理、數(shù)據(jù)模型、數(shù)據(jù)服務(wù)。
打通數(shù)據(jù)建模對(duì)全域數(shù)據(jù)進(jìn)行沉淀形成數(shù)據(jù)資產(chǎn),從而提供統(tǒng)一的數(shù)據(jù)服務(wù)功能。
二、如何建立數(shù)據(jù)中臺(tái)
建設(shè)數(shù)據(jù)中臺(tái)主要就是從數(shù)據(jù)模型、數(shù)據(jù)資產(chǎn)、數(shù)據(jù)治理、數(shù)據(jù)服務(wù)四部分出發(fā)。
首先需要做整體規(guī)劃,哪些數(shù)據(jù)需要納入到數(shù)據(jù)中臺(tái)中,根據(jù)數(shù)據(jù)接入的情況,進(jìn)行技術(shù)選型,評(píng)估集群的配置,規(guī)劃至少3年的計(jì)算和存儲(chǔ)資源。
1、數(shù)據(jù)模型
數(shù)據(jù)模型,就是我們熟悉的數(shù)據(jù)倉庫中的模型,按照數(shù)據(jù)倉庫規(guī)范分層開發(fā)模型,實(shí)現(xiàn)數(shù)據(jù)的標(biāo)準(zhǔn)化,多采用維度建模。還有一些挖掘模型,如果用的多了,也可以沉淀到數(shù)據(jù)中臺(tái)中。我們可以看出數(shù)據(jù)中臺(tái)中的模型具有通用性。
數(shù)據(jù)建模一般分為2個(gè)步驟:
確認(rèn)事實(shí)表,分析業(yè)務(wù)的生命周期,明確業(yè)務(wù)的關(guān)鍵步驟。在進(jìn)行指標(biāo)定義的時(shí)候是否覆蓋了本主題語中的全部指標(biāo),判斷哪些指標(biāo)可以通過加減乘除計(jì)算得到等。
確定維度,粒度是模型設(shè)計(jì)的關(guān)鍵,太細(xì)的粒度不利于上層數(shù)據(jù)分析匯總,太粗的粒度又不能滿足前段多維度個(gè)性化查詢需求。基于此,模型設(shè)計(jì)時(shí)候一般考慮分層,層級(jí)越往后,粒度越粗。冗余維度也是需要考慮的,設(shè)計(jì)冗余的維度可以避免統(tǒng)計(jì)中過多的關(guān)聯(lián)導(dǎo)致復(fù)雜的計(jì)算邏輯,影響性能。
2、數(shù)據(jù)資產(chǎn)
在數(shù)據(jù)倉庫中我們已經(jīng)建立了一些模型,但是只有打通數(shù)據(jù)孤島后才可以稱為資產(chǎn)。需要規(guī)范指標(biāo)庫,這些指標(biāo)可以組合處理滿足外部人員個(gè)性化的指標(biāo)需求。資產(chǎn)管理的基礎(chǔ)是做好元數(shù)據(jù)管理,元數(shù)據(jù)包括采集的接口信息,模型信息、指標(biāo)定義,作業(yè)的血緣關(guān)系、數(shù)據(jù)存儲(chǔ)以及訪問情況等。
3、數(shù)據(jù)治理
很多數(shù)據(jù)倉庫人員曾淪為“表哥”,天天忙著提取數(shù)據(jù)核對(duì)指標(biāo),時(shí)間長(zhǎng)了,業(yè)務(wù)人員容易對(duì)你的數(shù)據(jù)不信任。數(shù)據(jù)治理主要是為了保障數(shù)據(jù)資產(chǎn)的完整性、準(zhǔn)確性、一致性、及時(shí)性。根據(jù)指定的規(guī)范開發(fā)模型、校驗(yàn)?zāi)P?、管理模型,為業(yè)務(wù)提供統(tǒng)一的、準(zhǔn)確的指標(biāo)保駕護(hù)航。
4、數(shù)據(jù)服務(wù)
數(shù)據(jù)中臺(tái)最重要的就是要對(duì)外提供統(tǒng)一的服務(wù)能力。數(shù)據(jù)服務(wù)需要包含以下幾個(gè)能力:
數(shù)據(jù)接口標(biāo)準(zhǔn)化:提供統(tǒng)一的數(shù)據(jù)服務(wù)在線查詢視圖,讓開發(fā)者能夠快速、簡(jiǎn)單的訪問數(shù)據(jù)服務(wù);
數(shù)據(jù)開發(fā)可視化:提供服務(wù)接口的可視化配置,開發(fā)者只需要配置SQL就可以生產(chǎn)API,減低接口開發(fā)技術(shù)要求,便于維護(hù)和接口管理。對(duì)于業(yè)務(wù)分析人員可以讓他們輕松的進(jìn)行算法分析,包括模型管理、可視化編排流程,算法模型發(fā)布等功能。
三、數(shù)據(jù)中臺(tái)和數(shù)據(jù)倉庫有什么不同
很多人對(duì)數(shù)據(jù)中臺(tái)和數(shù)據(jù)倉庫兩個(gè)概念可能不是很清楚,其實(shí)最主要的是思維理念不同,數(shù)據(jù)倉庫是“管理數(shù)據(jù)”,數(shù)據(jù)中臺(tái)是“經(jīng)營(yíng)數(shù)據(jù)”,數(shù)據(jù)中臺(tái)是為了提供服務(wù)而生(也有說是為了前臺(tái)而生)。
參考資料:《數(shù)據(jù)中臺(tái)-阿里巴巴的數(shù)據(jù)整合、價(jià)值發(fā)掘、社會(huì)賦能之道》