[阿里巴巴]大數(shù)據(jù)系統(tǒng)架構(gòu)概述

“NASA”計(jì)劃背后,阿里巴巴大數(shù)據(jù)系統(tǒng)架構(gòu)概述 - 大數(shù)據(jù)_CIO時(shí)代網(wǎng) - CIO時(shí)代—新IT知識(shí)與資源庫(kù) http://www.ciotimes.com/bigdata/126101.html

Paste_Image.png

阿里數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)加工鏈路也是遵循業(yè)界的分層理念:包括操作數(shù)據(jù)層(ODS,Operational Data Store)、明細(xì)數(shù)據(jù)層(DWD,Data Warehouse Detail)、匯總數(shù)據(jù)層(DWS, Data Warehouse Summary)和應(yīng)用數(shù)據(jù)層(ADS,Application Data Store)。通過(guò)數(shù)據(jù)倉(cāng)庫(kù)不同層次之間的加工過(guò)程實(shí)現(xiàn)從數(shù)據(jù)資產(chǎn)向信息資產(chǎn)的轉(zhuǎn)化,并且對(duì)整個(gè)過(guò)程進(jìn)行有效的元數(shù)據(jù)管理及數(shù)據(jù)質(zhì)量處理。


DT時(shí)代,人們比以往任何時(shí)候都收集到更多的數(shù)據(jù)。據(jù)IDC報(bào)告,預(yù)計(jì)到2020年,全球數(shù)據(jù)總量將超過(guò)40ZB(相當(dāng)于40萬(wàn)億GB),這一數(shù)據(jù)量是2011年的22倍!正在“爆炸式”增長(zhǎng)的數(shù)據(jù),其潛在巨大價(jià)值有待發(fā)掘。它作為一種新的能源,正在發(fā)生聚變,變革著我們的生產(chǎn)和生活,催生了當(dāng)下大數(shù)據(jù)行業(yè)的熱火朝天。但是我們?nèi)绻荒軐?duì)這些數(shù)據(jù)進(jìn)行有序、有結(jié)構(gòu)的分類組織和存儲(chǔ),如果不能有效利用并發(fā)掘產(chǎn)生價(jià)值,那么它也是一個(gè)數(shù)據(jù)災(zāi)難,它猶如堆積如山的垃圾,給我們企業(yè)帶來(lái)的是極大的成本。
  現(xiàn)實(shí)情況是:阿里集團(tuán)的數(shù)據(jù)存儲(chǔ)已經(jīng)逼近EB級(jí)別,部分單張表每天的數(shù)據(jù)記錄數(shù)高達(dá)幾千億條;阿里內(nèi)部,離線數(shù)據(jù)處理每天面對(duì)的是百萬(wàn)級(jí)規(guī)模的作業(yè),每天有數(shù)千位活躍的工程師在進(jìn)行數(shù)據(jù)處理工作,加上阿里大數(shù)據(jù)的井噴式爆發(fā),給數(shù)模型、數(shù)據(jù)研發(fā)、數(shù)據(jù)質(zhì)量和運(yùn)維保障工作增加了更高的難度。

面對(duì)阿里內(nèi)部成千上萬(wàn)對(duì)數(shù)據(jù)有著深刻需求的員工,以及外部千萬(wàn)級(jí)對(duì)數(shù)據(jù)有迫切渴望的商家和合作伙伴,如何有效滿足他們的需求,提高他們對(duì)數(shù)據(jù)使用的滿意度,是數(shù)據(jù)服務(wù)、數(shù)據(jù)產(chǎn)品面臨的更大挑戰(zhàn)。

![](http://upload-images.jianshu.io/upload_images/2569324-2b734c687597dd05.jpg?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

注:阿里巴巴數(shù)據(jù)體系架構(gòu)圖

上圖是阿里巴巴數(shù)據(jù)體系架構(gòu)圖,可以清晰地看到我們的數(shù)據(jù)體系主要分為數(shù)據(jù)采集、數(shù)據(jù)計(jì)算、數(shù)據(jù)服務(wù)和數(shù)據(jù)應(yīng)用四大層次。

  1數(shù)據(jù)采集層

阿里巴巴是一家多業(yè)態(tài)的互聯(lián)網(wǎng)公司,幾億規(guī)模的用戶(如商家、消費(fèi)者、商業(yè)組織等)在平臺(tái)上從事商業(yè)、消費(fèi)、娛樂(lè)等活動(dòng),每時(shí)每刻都在產(chǎn)生海量的數(shù)據(jù),數(shù)據(jù)采集作為阿里數(shù)據(jù)體系第一環(huán)尤為重要。因此阿里巴巴建立了一套標(biāo)準(zhǔn)的數(shù)據(jù)采集體系方案,并致力全面、高性能、規(guī)范地完成海量數(shù)據(jù)的采集,并將其傳輸?shù)酱髷?shù)據(jù)平臺(tái)。

阿里巴巴的日志采集體系包括兩大體系:Aplus.JS是Web端日志采集技術(shù)方案;UserTack是APP端日志采集技術(shù)方案。

在采集技術(shù)之上,阿里巴巴有面向各個(gè)場(chǎng)景的埋點(diǎn)規(guī)范,來(lái)滿足通用瀏覽、點(diǎn)擊、特殊交互、APP事件、H5及APP里的H5和Native日志數(shù)據(jù)打通等多種業(yè)務(wù)場(chǎng)景。同時(shí),建立了一套高性能、高可靠性的數(shù)據(jù)傳輸體系完成數(shù)據(jù)從生產(chǎn)業(yè)務(wù)端到大數(shù)據(jù)系統(tǒng)的傳輸;在傳輸方面我們采用TimeTunnel(TT),它既包括數(shù)據(jù)庫(kù)的增量數(shù)據(jù)傳輸,也包括日志數(shù)據(jù)的傳輸;TT作為數(shù)據(jù)傳輸服務(wù)的基礎(chǔ)架構(gòu),既能支持實(shí)時(shí)流式計(jì)算、也能實(shí)時(shí)各種時(shí)間窗口的批量計(jì)算。另一方面,也通過(guò)數(shù)據(jù)同步工具(DataX和同步中心,其中同步中心是基于DataX易用性封裝)直連異構(gòu)數(shù)據(jù)庫(kù)(備庫(kù))來(lái)抽取各種時(shí)間窗口的數(shù)據(jù)。

  2數(shù)據(jù)計(jì)算層

從采集系統(tǒng)中收集了大量的原始數(shù)據(jù)后,數(shù)據(jù)只有被整合、計(jì)算才能洞察商業(yè)規(guī)律、挖掘潛在信息、實(shí)現(xiàn)大數(shù)據(jù)價(jià)值,達(dá)到賦能商業(yè)、創(chuàng)造商業(yè)的目的。面對(duì)海量的數(shù)據(jù)和復(fù)雜的計(jì)算,阿里巴巴的數(shù)據(jù)計(jì)算層包括兩大體系:數(shù)據(jù)存儲(chǔ)及計(jì)算云平臺(tái)(離線計(jì)算平臺(tái)MaxCompute和實(shí)時(shí)計(jì)算平臺(tái)StreamCompute)和數(shù)據(jù)整合及管理體系(OneData)。MaxCompute是阿里巴巴自主研發(fā)的離線大數(shù)據(jù)平臺(tái),其豐富的功能和強(qiáng)大的存儲(chǔ)及計(jì)算能力使得阿里巴巴的大數(shù)據(jù)有了強(qiáng)大的存儲(chǔ)和計(jì)算引擎;StreamCompute是阿里巴巴自主研發(fā)的流式大數(shù)據(jù)平臺(tái),在內(nèi)部較好的支持了阿里巴巴流式計(jì)算需求;OneData是數(shù)據(jù)整合及管理的方法體系和工具,阿里巴巴的大數(shù)據(jù)工程師在其體系下,構(gòu)建統(tǒng)一、規(guī)范、可共享的全域數(shù)據(jù)體系,避免數(shù)據(jù)的冗余和重復(fù)建設(shè),規(guī)避數(shù)據(jù)煙囪和不一致,充分發(fā)揮阿里巴巴在大數(shù)據(jù)海量、多樣性方面的獨(dú)特優(yōu)勢(shì)。

  借助OneData方法體系,我們構(gòu)建了阿里巴巴的數(shù)據(jù)公共層,并可以幫助相似大數(shù)據(jù)項(xiàng)目快速落地實(shí)現(xiàn)。

從數(shù)據(jù)計(jì)算頻率角度來(lái)看,阿里數(shù)據(jù)倉(cāng)庫(kù)可以分為離線數(shù)據(jù)倉(cāng)庫(kù)和實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù)。離線數(shù)據(jù)倉(cāng)庫(kù)主要是傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)概念,數(shù)據(jù)計(jì)算頻率是主要是以天(包含小時(shí)、周和月)為單位;如T-1,則每天凌晨處理上一天的數(shù)據(jù)。但是隨著業(yè)務(wù)的發(fā)展特別是交易過(guò)程的縮短,用戶對(duì)數(shù)據(jù)產(chǎn)出的實(shí)時(shí)性要求逐漸提高,所以阿里的實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù)應(yīng)運(yùn)而生。雙11實(shí)時(shí)數(shù)據(jù)直播大屏,就是實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù)的一種典型應(yīng)用。

阿里數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)加工鏈路也是遵循業(yè)界的分層理念:包括操作數(shù)據(jù)層(ODS,Operational Data Store)、明細(xì)數(shù)據(jù)層(DWD,Data Warehouse Detail)、匯總數(shù)據(jù)層(DWS, Data Warehouse Summary)和應(yīng)用數(shù)據(jù)層(ADS,Application Data Store)。通過(guò)數(shù)據(jù)倉(cāng)庫(kù)不同層次之間的加工過(guò)程實(shí)現(xiàn)從數(shù)據(jù)資產(chǎn)向信息資產(chǎn)的轉(zhuǎn)化,并且對(duì)整個(gè)過(guò)程進(jìn)行有效的元數(shù)據(jù)管理及數(shù)據(jù)質(zhì)量處理。

在阿里大數(shù)據(jù)系統(tǒng)中,元數(shù)據(jù)模型整合及應(yīng)用是一個(gè)重要的組成部分。主要包含數(shù)據(jù)源元數(shù)據(jù)、數(shù)據(jù)倉(cāng)庫(kù)元數(shù)據(jù)、數(shù)據(jù)鏈路元數(shù)據(jù)、工具類元數(shù)據(jù)、數(shù)據(jù)質(zhì)量類元數(shù)據(jù)等。元數(shù)據(jù)應(yīng)用主要面向數(shù)據(jù)發(fā)現(xiàn)、數(shù)據(jù)管理等,如用于存儲(chǔ)、計(jì)算和成本管理等。

  3數(shù)據(jù)服務(wù)層

當(dāng)數(shù)據(jù)已被整合和計(jì)算好,需要提供給產(chǎn)品和應(yīng)用進(jìn)行數(shù)據(jù)消費(fèi),為了更好的性能和體驗(yàn),阿里巴巴構(gòu)建了自己的數(shù)據(jù)服務(wù)層,通過(guò)接口服務(wù)化方式對(duì)外提供數(shù)據(jù)服務(wù)。針對(duì)不同的需求,數(shù)據(jù)服務(wù)層的數(shù)據(jù)源架構(gòu)在多種數(shù)據(jù)庫(kù)之上,如Mysql和Hbase等。后續(xù)將逐漸遷移至阿里云云數(shù)據(jù)庫(kù)ApsaraDB for RDS(簡(jiǎn)稱RDS)和表格存儲(chǔ)(Table Store)等。

數(shù)據(jù)服務(wù)可以使應(yīng)用對(duì)底層數(shù)據(jù)存儲(chǔ)透明,將海量數(shù)據(jù)方便高效地開(kāi)放給集團(tuán)內(nèi)部各應(yīng)用使用?,F(xiàn)數(shù)據(jù)服務(wù)每天幾十億的數(shù)據(jù)調(diào)用量,如何在性能、穩(wěn)定性、擴(kuò)展性等多方面更好地服務(wù)用戶;如何滿足應(yīng)用各種復(fù)雜的數(shù)據(jù)服務(wù)需求;如何保證雙11媒體大屏的數(shù)據(jù)服務(wù)接口的高可用;隨著業(yè)務(wù)的發(fā)展,數(shù)據(jù)服務(wù)也在不斷前進(jìn)。

數(shù)據(jù)服務(wù)層對(duì)外提供數(shù)據(jù)服務(wù)主要是通過(guò)OneService平臺(tái)。OneService以數(shù)據(jù)倉(cāng)庫(kù)整合計(jì)算好的數(shù)據(jù)作為數(shù)據(jù)源,對(duì)外通過(guò)接口的方式提供數(shù)據(jù)服務(wù),主要提供簡(jiǎn)單數(shù)據(jù)查詢服務(wù)、復(fù)雜數(shù)據(jù)查詢服務(wù)(類似用戶畫(huà)像(GProfile)等復(fù)雜數(shù)據(jù)查詢服務(wù))和實(shí)時(shí)數(shù)據(jù)推送服務(wù)等三大特色數(shù)據(jù)服務(wù)。

  4數(shù)據(jù)應(yīng)用層

數(shù)據(jù)已經(jīng)準(zhǔn)備好,需要通過(guò)合適的應(yīng)用提供給用戶,讓數(shù)據(jù)最大化地發(fā)揮價(jià)值。阿里對(duì)數(shù)據(jù)的應(yīng)用表現(xiàn)在各個(gè)方面,搜索、推薦、廣告、金融、信用、保險(xiǎn)、文娛、物流等。商家,阿里內(nèi)部的搜索、推薦、廣告、金融等平臺(tái),阿里內(nèi)部的運(yùn)營(yíng)和管理人員等,都是數(shù)據(jù)應(yīng)用方,各種應(yīng)用產(chǎn)品百花齊放; ISV、研究機(jī)構(gòu)和社會(huì)組織等也可以利用我們開(kāi)放的數(shù)據(jù)能力和技術(shù)。

阿里巴巴基于數(shù)據(jù)的應(yīng)用有很多。我們相信,數(shù)據(jù)作為新能源,為社會(huì)注入的改變是顯而易見(jiàn)的。我們對(duì)數(shù)據(jù)新能源的探索也不僅僅停留在狹義的技術(shù)、服務(wù)和應(yīng)用上。我們正在挖掘大數(shù)據(jù)更深層次的價(jià)值,為社會(huì)經(jīng)濟(jì)和民生基礎(chǔ)建設(shè)等提供數(shù)據(jù)層面的解讀。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容