一站式大數(shù)據(jù)開發(fā)治理DataWorks學(xué)習(xí)

大數(shù)據(jù)開發(fā)治理平臺 DataWorks產(chǎn)品文檔
大數(shù)據(jù)開發(fā)治理平臺 DataWorks體驗(yàn)館
一站式大數(shù)據(jù)開發(fā)治理DataWorks使用寶典
一站式大數(shù)據(jù)開發(fā)治理DataWorks學(xué)習(xí)路徑
實(shí)驗(yàn):全鏈路數(shù)據(jù)治理
實(shí)踐:基于DataWorks的大數(shù)據(jù)一站式開發(fā)及數(shù)據(jù)治理


DataWorks

DataWorks 是什么?

DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大數(shù)據(jù)引擎,為數(shù)據(jù)倉庫、數(shù)據(jù)湖、湖倉一體等解決方案提供統(tǒng)一的全鏈路大數(shù)據(jù)開發(fā)治理平臺。從2009年起,DataWorks不斷沉淀阿里巴巴大數(shù)據(jù)建設(shè)方法論,支撐數(shù)據(jù)中臺建設(shè),同時(shí)與數(shù)萬名政務(wù)、央國企、金融、零售、互聯(lián)網(wǎng)、能源、制造、工業(yè)等行業(yè)的客戶攜手,不斷提升數(shù)據(jù)應(yīng)用效率,助力產(chǎn)業(yè)數(shù)字化升級。


DataWorks 業(yè)務(wù)構(gòu)架

產(chǎn)品定位

DataWorks致力于為數(shù)據(jù)開發(fā)者、數(shù)據(jù)分析師、數(shù)據(jù)資產(chǎn)管理者,打造一個(gè)具備開放自主開發(fā)與全棧數(shù)據(jù)研發(fā)能力的一站式、標(biāo)準(zhǔn)化、可視化、透明化的智能大數(shù)據(jù)全生命周期云研發(fā)平臺。DataWorks賦予用戶僅通過單一平臺,即可實(shí)現(xiàn)數(shù)據(jù)傳輸、數(shù)據(jù)計(jì)算、數(shù)據(jù)治理、數(shù)據(jù)分享的各類復(fù)雜組合場景的能力。

同時(shí),DataWorks持續(xù)打造符合企業(yè)級數(shù)倉、數(shù)據(jù)中臺構(gòu)建要求的功能模塊,為企業(yè)業(yè)務(wù)的數(shù)字化轉(zhuǎn)型提供支持。

產(chǎn)品受眾

從事數(shù)據(jù)開發(fā)、算法開發(fā)等崗位的技術(shù)人員
從事銷售運(yùn)營、商業(yè)智能分析等崗位的業(yè)務(wù)人員
從事數(shù)據(jù)安全與合規(guī)工作的管理人員
從事數(shù)據(jù)應(yīng)用開發(fā)的開發(fā)人員
把控公司核心數(shù)據(jù)資產(chǎn)的管理人員

核心能力

基于DataWorks,您可以獲得如下能力:

  • 數(shù)據(jù)集成:復(fù)雜網(wǎng)絡(luò)環(huán)境、豐富數(shù)據(jù)源之間的數(shù)據(jù)傳輸與上云。
  • 數(shù)據(jù)開發(fā):在線批處理、流處理和機(jī)器學(xué)習(xí)等多引擎任務(wù)開發(fā),構(gòu)建復(fù)雜的調(diào)度依賴,提供開發(fā)、生產(chǎn)環(huán)境隔離的研發(fā)模式。
  • 實(shí)時(shí)分析(僅公共云):提供基于電子表格的快速、靈活的即時(shí)查詢。
  • 數(shù)據(jù)服務(wù):零代碼快速生成Serverless化的API。
  • 數(shù)據(jù)質(zhì)量:通過表級別、字段級別監(jiān)控規(guī)則定義,第一時(shí)間感知臟數(shù)據(jù)。
  • 智能監(jiān)控:一鍵實(shí)現(xiàn)復(fù)雜工作流的全鏈路監(jiān)控報(bào)警配置。
  • 數(shù)據(jù)地圖(公共云)/數(shù)據(jù)管理(專有云):提供強(qiáng)大的數(shù)據(jù)搜索、數(shù)據(jù)類目、數(shù)據(jù)血緣等能力。
  • 數(shù)據(jù)資產(chǎn)管理(僅專有云):統(tǒng)一管理整個(gè)平臺的數(shù)據(jù)表、API等各類數(shù)據(jù)資產(chǎn)。
  • 數(shù)據(jù)安全:數(shù)據(jù)審計(jì)、數(shù)據(jù)脫敏、權(quán)限控制等能力。
    應(yīng)用開發(fā)(僅公共云):基于Web端的組件拖拉拽輕松構(gòu)建數(shù)據(jù)應(yīng)用。
  • 工作空間管理(公共云)/平臺管理(專有云):從系統(tǒng)層面,為管理者提供對使用DataWorks的用戶(成員)權(quán)限、DataWorks底層計(jì)算引擎配置的管理能力。

總之,使用DataWorks,您不僅可以進(jìn)行海量數(shù)據(jù)的離線加工分析,還能完成數(shù)據(jù)的匯聚集成、開發(fā)、生產(chǎn)調(diào)度與運(yùn)維、離線與實(shí)時(shí)分析、數(shù)據(jù)質(zhì)量治理與資產(chǎn)管理、安全審計(jì)、數(shù)據(jù)共享與服務(wù)、機(jī)器學(xué)習(xí)、應(yīng)用搭建等覆蓋大數(shù)據(jù)全生命周期的最佳實(shí)踐。讓數(shù)據(jù)從采集到展現(xiàn)、從分析到驅(qū)動(dòng)應(yīng)用得以一站式解決,真正實(shí)現(xiàn)數(shù)據(jù)業(yè)務(wù)化、業(yè)務(wù)數(shù)據(jù)化。


數(shù)據(jù)治理的概念、需求層次和目標(biāo)

對于數(shù)據(jù)治理概念的一些基本理解

當(dāng)我們在談?wù)摂?shù)據(jù)治理時(shí),經(jīng)常會跟數(shù)據(jù)管理這一概念一起討論。DataWorks設(shè)計(jì)數(shù)據(jù)治理產(chǎn)品功能時(shí),參考的主要也是數(shù)據(jù)管理領(lǐng)域內(nèi)的三大理論依據(jù):第一個(gè)是數(shù)據(jù)管理協(xié)會知識體系,也就是大家熟知的DAMA、DMBOK2;第二個(gè)是DCMM數(shù)據(jù)管理能力成熟度評估;第三個(gè)是信通院的數(shù)據(jù)資產(chǎn)管理實(shí)踐白皮書。


數(shù)據(jù)治理概念

從左右這兩張圖對比可以看出,DMBOK和DCMM對于數(shù)據(jù)管理和數(shù)據(jù)治理的范圍和定義是略微有區(qū)別的。DMBOK將數(shù)據(jù)管理劃分為十大職能領(lǐng)域,數(shù)據(jù)治理位于最中間的位置,用于串聯(lián)其十大職能領(lǐng)域。而DCMM將數(shù)據(jù)管理定成八大過程域,數(shù)據(jù)治理是和數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全并列的過程域之一。顯然,業(yè)界不同的組織和群體對于數(shù)據(jù)管理和數(shù)據(jù)治理概念的理解會存在一些出入。

數(shù)據(jù)治理的需求層次

DAMS有這樣的一個(gè)描述:在數(shù)據(jù)管理過程中,要保證一個(gè)組織已經(jīng)將數(shù)據(jù)轉(zhuǎn)換成有用的信息,這項(xiàng)工作所需要的流程和工具就是數(shù)據(jù)治理的工作。這里強(qiáng)調(diào)兩個(gè)概念:第一,數(shù)據(jù)治理是數(shù)據(jù)管理的一部分;第二,數(shù)據(jù)治理的核心是流程和與之配套的工具的保障。DataWorks也是參考了這個(gè)定義,聚焦于保障與數(shù)據(jù)資產(chǎn)化配套的數(shù)據(jù)治理方面的需求來設(shè)計(jì)產(chǎn)品能力。當(dāng)然產(chǎn)品能力建設(shè)也是一個(gè)逐步的過程,DataWorks的功能也在持續(xù)擴(kuò)展中。
根據(jù)數(shù)據(jù)治理的需求,結(jié)合在阿里巴巴內(nèi)部數(shù)據(jù)治理的實(shí)踐過程,以及跟外部許多客戶和同行的交流,我們發(fā)現(xiàn)企業(yè)的數(shù)字化轉(zhuǎn)型階段不同,數(shù)據(jù)治理方面的核心需求是存在差異的。抽象來看,數(shù)據(jù)治理的需求可以分為五個(gè)層次:第一層是時(shí)效性,指的是數(shù)據(jù)產(chǎn)出的及時(shí)性要求; 第二層是質(zhì)量,數(shù)據(jù)的質(zhì)量管控,治理覆蓋數(shù)據(jù)的完備性,正確性,準(zhǔn)確性等; 第三層是數(shù)據(jù)的可用,這里主要強(qiáng)調(diào)的是數(shù)據(jù)的共享使用,易查找,好理解,或可復(fù)用;第四層是數(shù)據(jù)安全方面的要求,比如說數(shù)據(jù)權(quán)限的申請和審批,流程的管控,敏感數(shù)據(jù)的識別和保護(hù),以及合規(guī)性要求;第五層是數(shù)據(jù)的生產(chǎn)、存儲和使用的成本優(yōu)化控制。


五個(gè)層次

這五個(gè)層次的需求,越下面的需求相對來說越基礎(chǔ),需要優(yōu)先滿足。但隨著企業(yè)數(shù)字化轉(zhuǎn)型過程的加深,上層的需求就會逐步地體現(xiàn)出來。阿里內(nèi)部也是這樣的過程,在十多年前最開始的階段,阿里優(yōu)先關(guān)注的是數(shù)據(jù)任務(wù)的運(yùn)行穩(wěn)定,數(shù)據(jù)能及時(shí)產(chǎn)出,數(shù)據(jù)是正確的、可用的。當(dāng)這些需求被很好地滿足和保障之后,現(xiàn)階段阿里內(nèi)部數(shù)據(jù)治理最關(guān)注的是金字塔頂端的需求,也就是成本的考量。
當(dāng)然,這五個(gè)需求層次,并不是必須逐層演進(jìn)的。在一個(gè)階段,企業(yè)很大可能會同時(shí)有不同層次的需求,只是相對而言,它關(guān)注的需求重點(diǎn)會有所不同。
這五個(gè)需求層級實(shí)際上也就定義出了數(shù)據(jù)治理的一個(gè)核心目標(biāo),就是企業(yè)數(shù)字化轉(zhuǎn)型要最大程度地將數(shù)據(jù)資產(chǎn)化,來挖掘出數(shù)據(jù)的價(jià)值。在這個(gè)過程中,要滿足產(chǎn)出的及時(shí)性,質(zhì)量可靠,數(shù)據(jù)易找易用,數(shù)據(jù)安全可控以及生產(chǎn)經(jīng)濟(jì)這五個(gè)方面的要求。

數(shù)據(jù)治理的目標(biāo)

在數(shù)據(jù)治理的實(shí)施策略上來說,有自下而上和自上而下兩種方式。這兩種方式相結(jié)合的方式在阿里內(nèi)部實(shí)踐驗(yàn)證后更行之有效。頂層用來解決全局的數(shù)據(jù)規(guī)劃和組織建設(shè),以及制度制定這些問題,為治理提供上層的賦權(quán);而下層聚焦于核心業(yè)務(wù)流程的梳理、平臺工具和運(yùn)營體系的構(gòu)建,為數(shù)據(jù)治理落地提供支撐。


數(shù)據(jù)治理的目標(biāo)

通過自上而下和自下而上密切的結(jié)合,隨后循環(huán)的演進(jìn),來進(jìn)行數(shù)據(jù)治理的推動(dòng)。而數(shù)據(jù)治理的需求分層,也為數(shù)據(jù)治理給出了一個(gè)啟示,我們可以整體去規(guī)劃數(shù)據(jù)治理的藍(lán)圖,但是需要分階段去實(shí)施。在特定階段,企業(yè)數(shù)據(jù)治理的訴求重點(diǎn)是有所區(qū)別的,建議結(jié)合企業(yè)的實(shí)際情況,關(guān)注重點(diǎn)層次的訴求,逐步迭代演進(jìn)。

數(shù)據(jù)治理概要總結(jié)

一、數(shù)據(jù)治理是數(shù)據(jù)管理的一個(gè)核心組成部分,是數(shù)據(jù)管理過程中的流程和工具的一個(gè)支撐。
二、企業(yè)在數(shù)字化轉(zhuǎn)型的不同階段,對數(shù)據(jù)治理的需求層次是有區(qū)別的,共有五個(gè)需求層次。
三、需要一個(gè)統(tǒng)一的開發(fā)和治理平臺來減少重復(fù)工作,提高擴(kuò)展性。
四、數(shù)據(jù)治理治理的對象是數(shù)據(jù)和產(chǎn)出數(shù)據(jù)的任務(wù),DataWorks的核心理念是基于數(shù)據(jù)來進(jìn)行數(shù)據(jù)治理工作,用工具和平臺能力服務(wù)好使用者,來推動(dòng)數(shù)據(jù)治理的落地。
五、平臺和引擎的技術(shù)演進(jìn),尤其是MaxCompute這個(gè)底層引擎技術(shù)的演進(jìn),是數(shù)據(jù)治理落地的一個(gè)催化劑,底層引擎的優(yōu)化工作,對于成本優(yōu)化是有著關(guān)鍵性的影響。
六、DataWorks提供了極好的開放性,如果大家有自定義數(shù)據(jù)治理方面的需求,可以通過DataWorks 的開放API、開放數(shù)據(jù)和開放消息來獲取相應(yīng)的數(shù)據(jù)進(jìn)行自定義治理。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容