作者簡(jiǎn)介:王春波,《高效使用Greenplum:入門(mén)、進(jìn)階和數(shù)據(jù)中臺(tái)》作者,“數(shù)據(jù)中臺(tái)研習(xí)社”號(hào)主,十年數(shù)據(jù)開(kāi)發(fā)從業(yè)者,資深零售數(shù)倉(cāng)項(xiàng)目實(shí)施專(zhuān)家。
以下內(nèi)容為《高效使用Greenplum:入門(mén)、進(jìn)階和數(shù)據(jù)中臺(tái)》刪減內(nèi)容。歡迎大家關(guān)注我的公眾號(hào)“數(shù)據(jù)中臺(tái)研習(xí)社”或者購(gòu)買(mǎi)本書(shū)。
數(shù)據(jù)倉(cāng)庫(kù)簡(jiǎn)史
提到數(shù)據(jù)中臺(tái),我們不得不從它的前輩數(shù)據(jù)倉(cāng)庫(kù)說(shuō)起。數(shù)據(jù)倉(cāng)庫(kù)的概念可以追溯到20世紀(jì)80年代,當(dāng)時(shí)IBM的研究人員提出了商業(yè)數(shù)據(jù)倉(cāng)庫(kù)的概念。本質(zhì)上,數(shù)據(jù)倉(cāng)庫(kù)試圖提供一種從操作型系統(tǒng)到?jīng)Q策支持環(huán)境的數(shù)據(jù)流架構(gòu)模型。數(shù)據(jù)倉(cāng)庫(kù)概念的提出,是為了解決和數(shù)據(jù)流相關(guān)的各種問(wèn)題,特別是多重?cái)?shù)據(jù)復(fù)制帶來(lái)的高成本問(wèn)題。
在沒(méi)有數(shù)據(jù)倉(cāng)庫(kù)的時(shí)代,數(shù)據(jù)分析人員需要收集、清洗、整合來(lái)自多個(gè)數(shù)據(jù)源的數(shù)據(jù),并為每個(gè)決策支持環(huán)境做部分?jǐn)?shù)據(jù)復(fù)制,過(guò)程耗時(shí)長(zhǎng)并且準(zhǔn)確率低。在當(dāng)時(shí)的大型企業(yè)里,通常是多個(gè)決策支持環(huán)境獨(dú)立運(yùn)作。一方面,由于系統(tǒng)迭代更新快,數(shù)據(jù)源通常是已經(jīng)下線的舊業(yè)務(wù)系統(tǒng),為數(shù)據(jù)分析工作增添了難度。另一方面,盡管每個(gè)決策分析系統(tǒng)服務(wù)于不同的用戶(hù),但這些環(huán)境經(jīng)常需要大量相似或者相同的數(shù)據(jù),導(dǎo)致數(shù)據(jù)清洗過(guò)程重復(fù)且煩瑣。在這個(gè)發(fā)展背景下,數(shù)據(jù)倉(cāng)庫(kù)應(yīng)運(yùn)而生。
數(shù)據(jù)倉(cāng)庫(kù)之父Bill Inmon在1991年出版的Building the Data Warehouse一書(shū)中首次提出了數(shù)據(jù)倉(cāng)庫(kù)的概念。Inmon將數(shù)據(jù)倉(cāng)庫(kù)描述為一個(gè)面向主題的、集成的、隨時(shí)間變化的、非易失的數(shù)據(jù)集合,用于支持管理者的決策過(guò)程。這個(gè)定義比較復(fù)雜并且難以理解,下面我們將它分解開(kāi)來(lái)進(jìn)行說(shuō)明。
1. 面向主題
傳統(tǒng)的操作型系統(tǒng)是圍繞系統(tǒng)的功能性應(yīng)用進(jìn)行組織的,而數(shù)據(jù)倉(cāng)庫(kù)是面向主題的。主題是一個(gè)抽象概念,簡(jiǎn)單地說(shuō)就是與業(yè)務(wù)相關(guān)的數(shù)據(jù)的類(lèi)別,每一個(gè)主題基本對(duì)應(yīng)一個(gè)宏觀的分析領(lǐng)域。數(shù)據(jù)倉(cāng)庫(kù)可以輔助人們分析數(shù)據(jù),例如一個(gè)公司要分析銷(xiāo)售數(shù)據(jù),就可以建立一個(gè)用于銷(xiāo)售的數(shù)據(jù)倉(cāng)庫(kù),使用這個(gè)數(shù)據(jù)倉(cāng)庫(kù),就可以回答類(lèi)似“去年誰(shuí)是我們這款產(chǎn)品的最佳用戶(hù)”這樣的問(wèn)題。這個(gè)場(chǎng)景下的銷(xiāo)售,就是一個(gè)數(shù)據(jù)主題,而這種通過(guò)劃分主題定義數(shù)據(jù)倉(cāng)庫(kù)的能力,使得數(shù)據(jù)倉(cāng)庫(kù)是面向主題的。主題域是對(duì)某個(gè)主題進(jìn)行分析后確定的主題的邊界,如客戶(hù)、銷(xiāo)售、產(chǎn)品。
2. 集成
集成的概念與面向主題是密切相關(guān)的。還是用銷(xiāo)售的例子,假設(shè)公司有多條產(chǎn)品線和多種產(chǎn)品銷(xiāo)售渠道,而每個(gè)產(chǎn)品線都有獨(dú)立的銷(xiāo)售數(shù)據(jù)庫(kù)。此時(shí)要想從公司層面整體分析銷(xiāo)售數(shù)據(jù),必須先將多個(gè)分散的數(shù)據(jù)源統(tǒng)一成一致的、無(wú)歧義的數(shù)據(jù)格式,再放置到數(shù)據(jù)倉(cāng)庫(kù)中。因此數(shù)據(jù)倉(cāng)庫(kù)必須能夠解決諸如產(chǎn)品命名沖突、計(jì)量單位不一致等問(wèn)題。當(dāng)完成了這些數(shù)據(jù)整合工作后,該數(shù)據(jù)倉(cāng)庫(kù)就可稱(chēng)為是集成的。
3. 隨時(shí)間變化
為了發(fā)現(xiàn)業(yè)務(wù)變化的趨勢(shì)、存在的問(wèn)題、新的機(jī)會(huì),需要分析大量的歷史數(shù)據(jù),這與聯(lián)機(jī)事務(wù)處理(On-Line Transaction Processing,OLTP)系統(tǒng)形成鮮明的對(duì)比。聯(lián)機(jī)事務(wù)處理反應(yīng)的是當(dāng)前時(shí)間點(diǎn)的數(shù)據(jù)情況,要求高性能、高并發(fā)和極短的響應(yīng)時(shí)間,出于這樣的需求考慮,聯(lián)機(jī)事務(wù)處理系統(tǒng)中一般將數(shù)據(jù)依照活躍程度分級(jí),把歷史數(shù)據(jù)遷移到歸檔數(shù)據(jù)庫(kù)中。而數(shù)據(jù)倉(cāng)庫(kù)關(guān)注的是數(shù)據(jù)隨時(shí)間變化的情況,并且能反映在過(guò)去某個(gè)時(shí)間點(diǎn)的數(shù)據(jù)是怎樣的。換句話(huà)說(shuō),數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是反映了某一歷史時(shí)間點(diǎn)的數(shù)據(jù)快照,這也是術(shù)語(yǔ)“隨時(shí)間變化”的含義。當(dāng)然,任何一個(gè)存儲(chǔ)結(jié)構(gòu)都不可能無(wú)限擴(kuò)展,數(shù)據(jù)也不可能只入不出地永久停留在數(shù)據(jù)倉(cāng)庫(kù)中,它在數(shù)據(jù)倉(cāng)庫(kù)中也有自己的生命周期。到了一定時(shí)候,數(shù)據(jù)會(huì)從數(shù)據(jù)倉(cāng)庫(kù)中移除。移除的方式可能是將細(xì)節(jié)數(shù)據(jù)匯總后刪除、將舊數(shù)據(jù)轉(zhuǎn)儲(chǔ)到大容量介質(zhì)后再刪除或者直接物理刪除等。
4. 非易失
非易失指的是一旦進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)中,數(shù)據(jù)就不應(yīng)該再有改變。操作型環(huán)境中的數(shù)據(jù)一般都會(huì)頻繁更新,而在數(shù)據(jù)倉(cāng)庫(kù)環(huán)境中一般不進(jìn)行數(shù)據(jù)更新。當(dāng)改變的操作型數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)時(shí)會(huì)產(chǎn)生新的記錄,這樣就保留了數(shù)據(jù)變化的歷史軌跡。也就是說(shuō),數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)基本是靜態(tài)的。這是一個(gè)不難理解的邏輯概念,數(shù)據(jù)倉(cāng)庫(kù)就是要根據(jù)曾經(jīng)發(fā)生的事件進(jìn)行分析,如果數(shù)據(jù)是可修改的,歷史分析就沒(méi)有意義了。
除了以上4個(gè)特性,數(shù)據(jù)倉(cāng)庫(kù)還有一個(gè)非常重要的概念就是粒度。粒度問(wèn)題遍布數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)的各個(gè)部分。粒度是指數(shù)據(jù)的細(xì)節(jié)或匯總程度,細(xì)節(jié)程度越高,粒度級(jí)別越低。例如,單個(gè)事務(wù)是低粒度級(jí)別,全部一個(gè)月事務(wù)的匯總就是高粒度級(jí)別。
數(shù)據(jù)粒度一直是設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)需要重點(diǎn)思考的問(wèn)題。在早期的操作型系統(tǒng)中,當(dāng)細(xì)節(jié)數(shù)據(jù)被更新時(shí),總是將其存放在最低粒度級(jí)別上。而在數(shù)據(jù)倉(cāng)庫(kù)環(huán)境中,通常都不這樣做。例如,如果數(shù)據(jù)被裝載進(jìn)數(shù)據(jù)倉(cāng)庫(kù)的頻率是每天一次,那么一天之內(nèi)的數(shù)據(jù)更新將被忽略。粒度之所以是設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)環(huán)境的關(guān)鍵問(wèn)題,是因?yàn)樗鼧O大地影響了數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)量和可以查詢(xún)的類(lèi)型。粒度級(jí)別越低,數(shù)據(jù)量越大,查詢(xún)的細(xì)節(jié)程度越高,可查詢(xún)的范圍越廣泛,反之亦然。
以上4個(gè)特性再綜合數(shù)據(jù)粒度的考慮,數(shù)據(jù)倉(cāng)庫(kù)的存儲(chǔ)和計(jì)算能力就逐步成為了數(shù)據(jù)倉(cāng)庫(kù)的瓶頸。由于傳統(tǒng)的數(shù)據(jù)庫(kù)設(shè)計(jì)大部分都是綜合OLTP和OLAP(On-Line Analytical Processing)來(lái)考慮的,主流的數(shù)據(jù)庫(kù)只有Teradata專(zhuān)注于數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì),其他數(shù)據(jù)庫(kù)(比較常用于數(shù)據(jù)倉(cāng)庫(kù)的有Oracle、DB2、SQL SERVER等)都是綜合性數(shù)據(jù)庫(kù),且以滿(mǎn)足OLTP需求為優(yōu)先考慮方向。大數(shù)據(jù)技術(shù)的興起,正是為了解決這一窘境。

大數(shù)據(jù)平臺(tái)
雖然數(shù)據(jù)倉(cāng)庫(kù)技術(shù)自誕生之日起的二十多年里一直被用來(lái)處理大數(shù)據(jù),但“大數(shù)據(jù)”這個(gè)名詞卻是近年來(lái)隨著以Hadoop為代表的一系列分布式計(jì)算框架的產(chǎn)生發(fā)展才流行起來(lái)的。
所謂大數(shù)據(jù)是這樣一個(gè)數(shù)據(jù)集合,它的數(shù)據(jù)量和復(fù)雜度是傳統(tǒng)的數(shù)據(jù)處理應(yīng)用無(wú)法應(yīng)對(duì)的。大數(shù)據(jù)帶來(lái)的挑戰(zhàn)包括數(shù)據(jù)分析、數(shù)據(jù)捕獲、數(shù)據(jù)治理、搜索、共享、存儲(chǔ)、傳輸、可視化、查詢(xún)、更新和信息安全等?!按髷?shù)據(jù)”很少指一個(gè)特定大小的數(shù)據(jù)集,它通常指的是對(duì)大規(guī)模的數(shù)據(jù)應(yīng)用預(yù)測(cè)分析、用戶(hù)行為分析或其他數(shù)據(jù)分析方法,從數(shù)據(jù)中提煉出有用的信息,使數(shù)據(jù)產(chǎn)生價(jià)值,因此大數(shù)據(jù)更像是一套處理數(shù)據(jù)的方法和解決方案。如果非要給出一個(gè)定量的標(biāo)準(zhǔn),大數(shù)據(jù)的數(shù)據(jù)量至少是TB級(jí)別的,在當(dāng)前這個(gè)信息爆炸的時(shí)代,PB級(jí)別的數(shù)據(jù)量已經(jīng)較為常見(jiàn)了。用于分析的數(shù)據(jù)量越大,分析得到的結(jié)果就越精確,基于分析結(jié)果做出的決策也就越有說(shuō)服力,而更好的決策能夠降低成本、規(guī)避風(fēng)險(xiǎn)、提高業(yè)務(wù)運(yùn)營(yíng)的效率。
大數(shù)據(jù)所包含的數(shù)據(jù)集合的大小通常超越了普通軟件工具的處理能力,換句話(huà)說(shuō),普通軟件沒(méi)辦法在一個(gè)可以容忍的時(shí)間范圍內(nèi)完成大數(shù)據(jù)的捕獲和處理。大數(shù)據(jù)的數(shù)據(jù)量一直在飛速增長(zhǎng),2012年的時(shí)候,一般要處理的數(shù)據(jù)集合還只是TB級(jí),而現(xiàn)在PB級(jí)甚至更大量級(jí)的數(shù)據(jù)已不新鮮。要管理如此龐大的數(shù)據(jù),需要一系列新的技術(shù)和方法,它們必須具有新的數(shù)據(jù)整合形式,從各種各樣大量的復(fù)雜數(shù)據(jù)中洞察有價(jià)值的信息。
正是在這樣的背景之下,以Hadoop為核心的一系列開(kāi)源技術(shù)應(yīng)運(yùn)而生。Hadoop最早起源于Doug Cutting等人設(shè)計(jì)的Nutch項(xiàng)目。Nutch的設(shè)計(jì)目標(biāo)是構(gòu)建一個(gè)大型的全網(wǎng)搜索引擎,包括網(wǎng)頁(yè)抓取、索引、查詢(xún)等功能,隨著抓取網(wǎng)頁(yè)數(shù)量的增加,遇到了嚴(yán)重的可擴(kuò)展性問(wèn)題——如何解決數(shù)十億網(wǎng)頁(yè)的存儲(chǔ)和索引問(wèn)題。2003年~2004年,Google公布了部分GFS和MapReduce思想的細(xì)節(jié),受此啟發(fā)的Doug Cutting等人用兩年的業(yè)余時(shí)間基于Java實(shí)現(xiàn)了DFS和MapReduce機(jī)制,使Nutch性能飆升。隨后Yahoo收購(gòu)了Doug Gutting及其項(xiàng)目。2005年,Hadoop作為L(zhǎng)ucene的子項(xiàng)目Nutch的一部分正式引入Apache基金會(huì)。2006年2月被分離出來(lái),成為一套完整且獨(dú)立的軟件,起名為Hadoop。從此Hadoop進(jìn)入快車(chē)道,Hadoop生態(tài)快速發(fā)展,衍生出一系列開(kāi)源組件。
2008年1月,Hadoop成為Apache頂級(jí)項(xiàng)目。
2010年5月,HBase脫離Hadoop項(xiàng)目,成為Apache頂級(jí)項(xiàng)目。
2010年5月,Mahout脫離Hadoop項(xiàng)目,成為Apache頂級(jí)項(xiàng)目。
2010年9月,F(xiàn)acebook開(kāi)源的Hive脫離Hadoop,成為Apache頂級(jí)項(xiàng)目。
2010年9月,Pig脫離Hadoop,成為Apache頂級(jí)項(xiàng)目。
2010年底,Linkedin將Kafka貢獻(xiàn)給了Apache基金會(huì)并成為頂級(jí)項(xiàng)目。
2011年1月,ZooKeeper 脫離Hadoop,成為Apache頂級(jí)項(xiàng)目。
2011年底,Cloudera 將Flume 貢獻(xiàn)給Apache基金會(huì)并升級(jí)為頂級(jí)項(xiàng)目。
2013年,F(xiàn)acebook在Hive的基礎(chǔ)上開(kāi)發(fā)的即時(shí)查詢(xún)組件Presto 開(kāi)源并成為Apache基金會(huì)頂級(jí)項(xiàng)目。
2014年2月,Spark項(xiàng)目成為Apache基金會(huì)頂級(jí)項(xiàng)目。
2014年9月,Twitter開(kāi)源的Storm正式畢業(yè),升級(jí)為Apache基金會(huì)頂級(jí)項(xiàng)目。
2015 年1月,F(xiàn)link 正式升級(jí)成為Apache基金會(huì)頂級(jí)項(xiàng)目。
2015年11月,一款由中國(guó)人主導(dǎo)的開(kāi)源MOLAP Cube框架Kylin橫空出世,加入Apache基金會(huì)頂級(jí)項(xiàng)目群。
2016年5月,Zeppelin作為一個(gè)支持交互式數(shù)據(jù)分析的基于Web的網(wǎng)絡(luò)編輯器,升級(jí)為Apache頂級(jí)項(xiàng)目。
2016年7月,Cloudera主導(dǎo)開(kāi)發(fā)的數(shù)據(jù)存儲(chǔ)系統(tǒng)Kudu升級(jí)為Apache頂級(jí)項(xiàng)目。
2017年1月,Google 貢獻(xiàn)給Apache 基金會(huì)的Beam正式畢業(yè)成為頂級(jí)項(xiàng)目。
2017年11月,Cloudera開(kāi)發(fā)的基于MPP框架SQL引擎Impala晉升為Apache基金會(huì)頂級(jí)項(xiàng)目。
2018年8月,中國(guó)人主導(dǎo)開(kāi)發(fā)的Apache HAWQ成為Apache頂級(jí)項(xiàng)目。
隨著Hadoop生態(tài)系統(tǒng)的不斷擴(kuò)容,各種大數(shù)據(jù)計(jì)算技術(shù)如雨后春筍般涌現(xiàn),開(kāi)源框架越來(lái)越多,海量數(shù)據(jù)的處理能力和計(jì)算速度也在節(jié)節(jié)攀升。但是總體來(lái)說(shuō),大數(shù)據(jù)的框架都在往SQL方向聚焦,朝著使用越來(lái)越便捷的方向發(fā)展。從早期的NoSQL,到后來(lái)的Not Only SQL,現(xiàn)在發(fā)展為New SQL的趨勢(shì)。從早期拋棄SQL,到現(xiàn)在SQL的全面回歸。
早期,Hadoop剛誕生的時(shí)代,主要是為了處理和存儲(chǔ)海量的網(wǎng)頁(yè)數(shù)據(jù)、日志數(shù)據(jù)等傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)無(wú)法處理的數(shù)據(jù)結(jié)果,于是以MapReduce、HBase、Redis、MongoDB等數(shù)據(jù)存儲(chǔ)系統(tǒng)紛紛涌現(xiàn),這種定位于存儲(chǔ)和分析非結(jié)構(gòu)化數(shù)據(jù)的工具具有傳統(tǒng)數(shù)據(jù)庫(kù)無(wú)法比擬的處理效率,于是人們紛紛以為數(shù)據(jù)庫(kù)將進(jìn)入一個(gè)新的時(shí)代。隨著NoSQL數(shù)據(jù)庫(kù)的普及,人們認(rèn)識(shí)到了NoSQL數(shù)據(jù)處理的煩瑣和高門(mén)檻,以Hive和SparkSQL為代表的大數(shù)據(jù)組件重新加入對(duì)SQL的支持,于是人們將“NoSQL”解釋為“No noly SQL”。隨著數(shù)據(jù)分析和數(shù)據(jù)應(yīng)用的深入發(fā)展,業(yè)務(wù)對(duì)數(shù)據(jù)的時(shí)效性提出了更高的要求,以Flink為代表的實(shí)時(shí)框架重回SQL的懷抱。SQL成為新一代大數(shù)據(jù)組件的標(biāo)配,從而誕生了NewSQL的概念。
NewSQL 是一種新方式關(guān)系型數(shù)據(jù)庫(kù),意在整合RDBMS所提供的ACID事務(wù)特性(即原子性、一致性、隔離性和可持久性),以及NoSQL提供的橫向可擴(kuò)展性。NewSQL系統(tǒng)的提出,滿(mǎn)足了整合NoSQL和RDBMS特性的需求。其中,NoSQL提供了可擴(kuò)展性和高可用性,傳統(tǒng)RDBMS提供了關(guān)系模型、ACID事務(wù)支持和 SQL。用戶(hù)已不再考慮一招解決所有問(wèn)題(one-size-fits-all)的方案,逐漸轉(zhuǎn)向針對(duì)OLTP等不同工作負(fù)載給出特定數(shù)據(jù)庫(kù)。大多數(shù)NewSQL數(shù)據(jù)庫(kù)做了全新的設(shè)計(jì),或是主要聚焦于OLTP,或是采用了OLTP/OLAP的混合架構(gòu)載的全新設(shè)計(jì)。

數(shù)據(jù)中臺(tái)興起
中臺(tái)概念起源于芬蘭的小公司Supercell,這家公司僅有不到200名員工,卻推出了一系列爆款游戲,年利潤(rùn)高達(dá)15億美元,這家規(guī)模很小的公司,設(shè)置了一個(gè)強(qiáng)大的中臺(tái),用以支持眾多小團(tuán)隊(duì)進(jìn)行游戲研發(fā)。這樣一來(lái),各個(gè)團(tuán)隊(duì)就可以專(zhuān)心創(chuàng)新,不用擔(dān)心基礎(chǔ)又至關(guān)重要的技術(shù)支撐問(wèn)題。
2015年,馬云帶領(lǐng)了阿里巴巴眾多高管拜訪了Supercell,讓他們驚嘆的是,年利潤(rùn)15億美元的Supercell竟然只有不到200人,他們分散作戰(zhàn),每個(gè)團(tuán)隊(duì)只需要不超過(guò)7名員工。團(tuán)隊(duì)可以自行決定開(kāi)發(fā)什么產(chǎn)品,并以最快的速度推出公測(cè)版。如果用戶(hù)不歡迎,則迅速放棄,尋找新的方向。
這一點(diǎn)讓阿里巴巴集團(tuán)感受到了中臺(tái)的強(qiáng)大,也因此受到了啟發(fā)。接著,阿里巴巴提出了“大中臺(tái)、小前臺(tái)”的戰(zhàn)略,將組織架構(gòu)進(jìn)行了全面的調(diào)整,他們將支持類(lèi)似的業(yè)務(wù)工作放在中臺(tái),讓中臺(tái)擔(dān)當(dāng)支撐的工作,讓小前臺(tái)離一線更近,貼切客戶(hù),使得業(yè)務(wù)更新更加快速。從此,中臺(tái)的概念在中國(guó)開(kāi)始興起。
接下來(lái)的兩年里,阿里對(duì)數(shù)據(jù)中臺(tái)的探索有了一些成果,并逐漸趨于穩(wěn)定,他們開(kāi)始對(duì)外推廣數(shù)據(jù)中臺(tái)機(jī)制。參與過(guò)阿里中臺(tái)建設(shè)的團(tuán)隊(duì)也開(kāi)始尋找一些新的機(jī)遇,2017年以來(lái),隨著一些企業(yè)數(shù)據(jù)中臺(tái)成功案例的發(fā)布,國(guó)內(nèi)很多企業(yè)開(kāi)始花大力氣探索和建設(shè)數(shù)據(jù)中臺(tái),研究建設(shè)數(shù)據(jù)中臺(tái)的價(jià)值所在,以及如何建設(shè)數(shù)據(jù)中臺(tái),為企業(yè)數(shù)字化轉(zhuǎn)型賦能。
那么,什么是數(shù)據(jù)中臺(tái)呢?
總的來(lái)說(shuō),數(shù)據(jù)中臺(tái)是指通過(guò)數(shù)據(jù)技術(shù),對(duì)海量數(shù)據(jù)進(jìn)行采集、計(jì)算、存儲(chǔ)、加工,同時(shí)統(tǒng)一標(biāo)準(zhǔn)和口徑。數(shù)據(jù)中臺(tái)把數(shù)據(jù)統(tǒng)一之后,會(huì)形成標(biāo)準(zhǔn)數(shù)據(jù),再進(jìn)行存儲(chǔ),形成大數(shù)據(jù)資產(chǎn)層,進(jìn)而為客戶(hù)提供高效服務(wù)。
原阿里巴巴資深大數(shù)據(jù)專(zhuān)家,數(shù)瀾科技聯(lián)合創(chuàng)始人付登坡認(rèn)為:“數(shù)據(jù)中臺(tái)是一套可持續(xù)‘讓企業(yè)的數(shù)據(jù)用起來(lái)’的機(jī)制,是一種戰(zhàn)略選擇和組織形式,是依據(jù)企業(yè)特有的業(yè)務(wù)模式和組織架構(gòu),通過(guò)有形的產(chǎn)品和實(shí)施方法論支撐,構(gòu)建的一套持續(xù)不斷把數(shù)據(jù)變成資產(chǎn)并服務(wù)于業(yè)務(wù)的機(jī)制。”這是站在企業(yè)戰(zhàn)略層面對(duì)數(shù)據(jù)中臺(tái)的理解。阿里巴巴數(shù)據(jù)中臺(tái)全景圖如圖1-1所示。

圖1-1 阿里巴巴數(shù)據(jù)中臺(tái)全景圖
從數(shù)據(jù)中臺(tái)的進(jìn)化過(guò)程來(lái)說(shuō),它是數(shù)據(jù)倉(cāng)庫(kù)的下一代產(chǎn)物,也是業(yè)務(wù)和技術(shù)發(fā)展成熟的必然要求。一方面,建設(shè)數(shù)據(jù)倉(cāng)庫(kù),解決了企業(yè)歷史數(shù)據(jù)的存儲(chǔ)問(wèn)題,但是隨著企業(yè)的發(fā)展和數(shù)據(jù)的急速膨脹,數(shù)據(jù)倉(cāng)庫(kù)變得臃腫低效,缺乏靈活性。另一方面,大數(shù)據(jù)技術(shù)的發(fā)展大大提升了數(shù)據(jù)處理能力,讓高效、敏捷的數(shù)據(jù)開(kāi)發(fā)變得可能,讓數(shù)據(jù)服務(wù)成為可能。同時(shí),隨著AI技術(shù)的發(fā)展和人們理念的升級(jí),傳統(tǒng)的BI已經(jīng)不能滿(mǎn)足數(shù)據(jù)分析的需求,我們需要把數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)的大量數(shù)據(jù)盤(pán)活、讓數(shù)據(jù)發(fā)揮效能,產(chǎn)生價(jià)值。
我們可以簡(jiǎn)單地認(rèn)為數(shù)據(jù)中臺(tái)是由AI驅(qū)動(dòng),在數(shù)據(jù)倉(cāng)庫(kù)的基礎(chǔ)上運(yùn)用大數(shù)據(jù)技術(shù)實(shí)現(xiàn)的敏捷數(shù)據(jù)服務(wù)平臺(tái)。
與數(shù)據(jù)倉(cāng)庫(kù)相比,數(shù)據(jù)中臺(tái)主要有以下變化。
1.敏捷化
傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)傾向于大而全,因此實(shí)施成本高、周期長(zhǎng),同時(shí)因?yàn)榧軜?gòu)復(fù)雜、層級(jí)較多,所以對(duì)新業(yè)務(wù)的適應(yīng)能力弱。筆者曾長(zhǎng)期在銀行業(yè)從事管理會(huì)計(jì)數(shù)據(jù)集市的建設(shè),經(jīng)歷和見(jiàn)證了諸多數(shù)據(jù)倉(cāng)庫(kù)的問(wèn)題。銀行業(yè)是數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用較早,也是最普遍的行業(yè)。銀行業(yè)基于監(jiān)管要求和業(yè)務(wù)特殊性,比其他行業(yè)更早的認(rèn)識(shí)到了數(shù)據(jù)的重要性。一般的銀行數(shù)據(jù)倉(cāng)庫(kù)的建設(shè)周期都在一年以上,數(shù)據(jù)模型在3到6層,整個(gè)批處理鏈條很長(zhǎng),通常在4到6個(gè)小時(shí)。一方面,由于數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)覆蓋面全,導(dǎo)致新上線系統(tǒng)的數(shù)據(jù)接入變得復(fù)雜;另一方面,數(shù)據(jù)模型層級(jí)的增加,也給數(shù)據(jù)倉(cāng)庫(kù)接口的改造造成困擾,因此通常一個(gè)數(shù)據(jù)倉(cāng)庫(kù)在其上線之初是最穩(wěn)定、最合理的架構(gòu)。后期隨著業(yè)務(wù)的變遷和需求的不斷增多,系統(tǒng)變得雜亂無(wú)章。
也正是看到了數(shù)據(jù)倉(cāng)庫(kù)的笨重,數(shù)據(jù)中臺(tái)開(kāi)始走向敏捷化。一般的數(shù)據(jù)中臺(tái)包括3~4層,且更加聚焦業(yè)務(wù)應(yīng)用場(chǎng)景,而不再是大而全的倉(cāng)庫(kù)。
2.標(biāo)準(zhǔn)化
建立數(shù)據(jù)中臺(tái)的目標(biāo)是融合整個(gè)企業(yè)的全部數(shù)據(jù),打通數(shù)據(jù)之間的隔閡,消除數(shù)據(jù)標(biāo)準(zhǔn)和口徑不一致的問(wèn)題。數(shù)據(jù)中臺(tái)通常會(huì)對(duì)來(lái)自多方面的的基礎(chǔ)數(shù)據(jù)進(jìn)行清洗,按照主題域概念建立多個(gè)以事務(wù)為主的主題域,比如用戶(hù)主題域、商品主題域、渠道主題域、門(mén)店主題域等。數(shù)據(jù)中臺(tái)遵循三個(gè)One的原則:One Data、One ID、One Service,即數(shù)據(jù)中臺(tái)不僅僅是匯聚企業(yè)各種數(shù)據(jù),而且讓這些數(shù)據(jù)遵循相同的標(biāo)準(zhǔn)和口徑,對(duì)事物的標(biāo)識(shí)能統(tǒng)一或者相互關(guān)聯(lián),并且提供統(tǒng)一的數(shù)據(jù)服務(wù)接口。而傳統(tǒng)的數(shù)倉(cāng)主要用來(lái)做BI的報(bào)表,功能很單一,只抽取和清洗該相關(guān)分析報(bào)表用到基礎(chǔ)數(shù)據(jù)。要新增一張報(bào)表,就要從底層到上層再完整執(zhí)行一次全套流程。
3.平臺(tái)化
在數(shù)據(jù)中臺(tái)的建設(shè)過(guò)程中,更加注重平臺(tái)能力。在數(shù)據(jù)接入方面,數(shù)據(jù)接口會(huì)更加標(biāo)準(zhǔn)化、配置化,簡(jiǎn)化數(shù)據(jù)接入的門(mén)檻,提升數(shù)據(jù)接入的效率。在數(shù)據(jù)管理方面,更加注重集成平臺(tái)的建設(shè),包括數(shù)據(jù)治理、調(diào)度管理、元數(shù)據(jù)管理、數(shù)據(jù)服務(wù)等功能的實(shí)現(xiàn)。在數(shù)據(jù)應(yīng)用方面,建立在數(shù)據(jù)中臺(tái)上的數(shù)據(jù)應(yīng)用不僅面向BI報(bào)表,更多面向營(yíng)銷(xiāo)推薦、用戶(hù)畫(huà)像、AI決策分析、風(fēng)險(xiǎn)評(píng)估等,而且這些應(yīng)用的特點(diǎn)是需求變化快,因此開(kāi)發(fā)必須平臺(tái)化,便于快速迭代。數(shù)據(jù)中臺(tái)能力架構(gòu)如圖1-2所示。

圖1-2 數(shù)據(jù)中臺(tái)能力架構(gòu)圖
4.數(shù)據(jù)來(lái)源多樣化
數(shù)據(jù)中臺(tái)的數(shù)據(jù)來(lái)源期望是全域數(shù)據(jù)包括業(yè)務(wù)數(shù)據(jù)庫(kù)、日志數(shù)據(jù)、埋點(diǎn)數(shù)據(jù)、爬蟲(chóng)數(shù)據(jù)、外部數(shù)據(jù)等。數(shù)據(jù)可以是結(jié)構(gòu)化數(shù)據(jù)或者非結(jié)構(gòu)化數(shù)據(jù),而傳統(tǒng)數(shù)倉(cāng)的數(shù)據(jù)來(lái)源主要是業(yè)務(wù)數(shù)據(jù)庫(kù),數(shù)據(jù)格式也是以結(jié)構(gòu)化數(shù)據(jù)為主。
業(yè)務(wù)對(duì)數(shù)據(jù)實(shí)時(shí)性的要求越來(lái)越高,數(shù)據(jù)來(lái)源也逐步由隔日批量抽取向?qū)崟r(shí)流式計(jì)算邁進(jìn)。實(shí)時(shí)同步技術(shù)把數(shù)據(jù)的批處理變成了流水線作業(yè),每發(fā)生一條業(yè)務(wù)(或者在一定時(shí)間范圍內(nèi)觸發(fā))進(jìn)行一次批處理。實(shí)時(shí)數(shù)據(jù)一般由Flink引擎完成數(shù)據(jù)計(jì)算,批處理一般有Hive on Spark完成數(shù)據(jù)計(jì)算。圖1-3所示是基于Lambda架構(gòu)的數(shù)據(jù)中臺(tái)架構(gòu)圖。

圖1-3 Lambda架構(gòu)的數(shù)據(jù)中臺(tái)架構(gòu)圖
數(shù)據(jù)中臺(tái)應(yīng)用展望
數(shù)據(jù)中臺(tái)的應(yīng)用場(chǎng)景很多,其中,最成熟的模塊有固定報(bào)表查詢(xún)、可視化大屏、移動(dòng)BI應(yīng)用、用戶(hù)畫(huà)像等,新興模塊有自助分析、場(chǎng)景化智能應(yīng)用(例如智能推薦、智能營(yíng)銷(xiāo)、智能排班、智能補(bǔ)貨等)。
固定報(bào)表查詢(xún)是歷史悠久、也是應(yīng)用最廣泛的數(shù)據(jù)應(yīng)用。一般由業(yè)務(wù)人員定義報(bào)表的篩選條件、指標(biāo)展示樣式,由技術(shù)人員開(kāi)發(fā)實(shí)現(xiàn)。固定報(bào)表的優(yōu)點(diǎn)在于,可以隨意切換查詢(xún)條件(必須是事先定義好的),數(shù)據(jù)按照固定的樣式展現(xiàn),方便進(jìn)行鉆取和切片分析。
固定報(bào)表查詢(xún)一般直接采購(gòu)商業(yè)BI軟件來(lái)實(shí)現(xiàn),支持固定報(bào)表查詢(xún)是商業(yè)BI軟件的基本功能。BI軟件也分為傳統(tǒng)BI和敏捷BI。在傳統(tǒng)BI時(shí)代,主要是Oracle BIEE、IBM Cognos、SAP BO三分天下,占領(lǐng)了國(guó)內(nèi)外各大數(shù)字應(yīng)用領(lǐng)先企業(yè)的市場(chǎng)。隨著Tableau倡導(dǎo)的敏捷BI橫空出世,傳統(tǒng)BI軟件日漸式微,以帆軟為代表的國(guó)產(chǎn)BI軟件也趁勢(shì)崛起。傳統(tǒng)BI時(shí)代典型的固定查詢(xún)報(bào)表樣式如圖1-4所示。

圖1-4 BIEE固定查詢(xún)報(bào)表樣式
可視化大屏、移動(dòng)BI應(yīng)用和用戶(hù)畫(huà)像都是固定報(bào)表查詢(xún)的延伸。很多人認(rèn)識(shí)可視化大屏,是從新聞聯(lián)播開(kāi)始的。早期的大屏主要出現(xiàn)在一些大型政府機(jī)關(guān)、航天企業(yè)。伴隨著阿里“雙十一”盛典和云棲大會(huì)的推廣,這種藍(lán)色背景、界面簡(jiǎn)潔、富有科技感的數(shù)據(jù)展現(xiàn)形式逐漸走入普通企業(yè)。
現(xiàn)在各大企業(yè)對(duì)可視化大屏的需求非常旺盛,可視化大屏直接固定篩選維度,用最直觀的方式展現(xiàn)公司最核心的業(yè)務(wù)指標(biāo)。相對(duì)于固定報(bào)表,可視化大屏主要有以下優(yōu)點(diǎn)。
1)大面積、炫酷動(dòng)效、豐富色彩,大屏在觀感上給人留下震撼的印象,便于營(yíng)造某些獨(dú)特氛圍、打造儀式感。
2)用可視化大屏展現(xiàn)數(shù)據(jù)簡(jiǎn)單明了,展示的都是管理層和大家公認(rèn)的核心業(yè)務(wù)指標(biāo)。
3)可視化大屏一般需要配合實(shí)時(shí)數(shù)據(jù),實(shí)現(xiàn)動(dòng)態(tài)刷新的效果。
早期的可視化大屏大多都是通過(guò)Web應(yīng)用封裝百度開(kāi)源組件E-Charts來(lái)實(shí)現(xiàn)的。隨著B(niǎo)I工具的迭代升級(jí)和產(chǎn)品功能的豐富,越來(lái)越多的可視化大屏通過(guò)BI應(yīng)用來(lái)開(kāi)發(fā),大大提高了可視化大屏的開(kāi)發(fā)效率,降低了運(yùn)維難度和應(yīng)用門(mén)檻。圖1-5是某制造企業(yè)生產(chǎn)車(chē)間運(yùn)行看板。

圖1-5 生產(chǎn)車(chē)間運(yùn)行看板
移動(dòng)BI應(yīng)用的誕生比可視化大屏更早,但是推廣應(yīng)用力度不及可視化大屏。主要是因?yàn)榇蟛糠謹(jǐn)?shù)據(jù)分析師還是需要到固定的工作場(chǎng)所辦公,筆記本或者臺(tái)式機(jī)必不可少,所以移動(dòng)BI只能是錦上添花。移動(dòng)BI主要定位于管理層查看數(shù)據(jù),因此要求指標(biāo)相對(duì)簡(jiǎn)單,數(shù)據(jù)時(shí)效性要求也較高。
移動(dòng)BI最早作為BI軟件的附屬功能,主要供平板電腦使用。隨著智能手機(jī)的普及和移動(dòng)互聯(lián)網(wǎng)的成熟,手機(jī)成為移動(dòng)BI的主要查看工具。移動(dòng)BI的開(kāi)發(fā)主要還是依賴(lài)于BI軟件來(lái)實(shí)現(xiàn),但是也不乏追求美觀的公司采用Hybrid App或者H5進(jìn)行開(kāi)發(fā)。圖1-6是某地產(chǎn)公司的移動(dòng)BI應(yīng)用設(shè)計(jì)截圖。

圖1-6 某地產(chǎn)移動(dòng)BI應(yīng)用設(shè)計(jì)圖
用戶(hù)畫(huà)像是以個(gè)體為中心,設(shè)計(jì)不同的標(biāo)簽對(duì)客戶(hù)進(jìn)行多維度刻畫(huà)和全方位描述。俗話(huà)說(shuō),“物以類(lèi)聚,人以群分”,用戶(hù)畫(huà)像就是為了將用戶(hù)群體進(jìn)行分類(lèi),來(lái)實(shí)現(xiàn)精準(zhǔn)營(yíng)銷(xiāo)的重要手段。用戶(hù)畫(huà)像的基礎(chǔ)是標(biāo)簽體系,通過(guò)數(shù)據(jù)中臺(tái)生產(chǎn)出標(biāo)簽數(shù)據(jù),然后通過(guò)用戶(hù)畫(huà)像進(jìn)行展現(xiàn)和應(yīng)用。用戶(hù)畫(huà)像既可以是對(duì)單個(gè)對(duì)象的全面刻畫(huà),也可以是對(duì)一群人的標(biāo)簽統(tǒng)計(jì)分析。
在BI的體系中,除了以上成熟的應(yīng)用之外,自助分析也是正在快速成長(zhǎng)的數(shù)據(jù)應(yīng)用方向。傳統(tǒng)的BI認(rèn)為,業(yè)務(wù)人員只需要了解業(yè)務(wù)的邏輯即可,在一個(gè)復(fù)雜底層邏輯的基礎(chǔ)上,業(yè)務(wù)人員無(wú)法很好地完成報(bào)表自定義,因此在這方面功能比較欠缺。然而,利用敏捷BI工具,即時(shí)沒(méi)有任何SQL基礎(chǔ),也能很容易上手,輕輕松松畫(huà)出漂亮的報(bào)表,大大降低了BI的使用門(mén)檻。圖1-7是Tableau自助分析頁(yè)面。

圖1-7 Tableau自助分析頁(yè)面
敏捷BI是對(duì)傳統(tǒng)BI的一次革新。和傳統(tǒng)BI相比,敏捷BI主要有以下顯著優(yōu)點(diǎn)。
1)成本更低。傳統(tǒng)的BI工具授權(quán)費(fèi)用高,后期運(yùn)維費(fèi)用更是大部分企業(yè)無(wú)法負(fù)擔(dān)的。同時(shí)支持的數(shù)據(jù)庫(kù)又非常有限,導(dǎo)致必須使用Oracle、DB2、SQL Server等商業(yè)授權(quán)數(shù)據(jù)庫(kù),進(jìn)一步提高了項(xiàng)目成本。
2)兼容性強(qiáng),支持多種數(shù)據(jù)源。一般的敏捷BI工具都支持連接多種通用數(shù)據(jù)源,如關(guān)系型數(shù)據(jù)庫(kù)(MySQL、Oracle、SQL Server等)、文本數(shù)據(jù)源(Excel、CSV等)、大數(shù)據(jù)分析引擎 Kylin、Impala、Hive、Presto、Greenplum以及Restful API數(shù)據(jù)源等。敏捷BI提供直觀的可視化界面,簡(jiǎn)單填寫(xiě)配置參數(shù)即可快速連接數(shù)據(jù)源。
3)自助式探索式數(shù)據(jù)分析。自助探索式數(shù)據(jù)可視化分析,通過(guò)主動(dòng)式的企業(yè)數(shù)據(jù)分析模式,它能夠讓業(yè)務(wù)人員直接參與數(shù)據(jù)分析,無(wú)須專(zhuān)業(yè)分析團(tuán)隊(duì),業(yè)務(wù)人員可以直接通過(guò)拖曳進(jìn)行數(shù)據(jù)可視化分析。自助式探索數(shù)據(jù)分析已經(jīng)成為敏捷BI的核心。
4)高級(jí)數(shù)據(jù)可視化。敏捷BI工具一般都提供豐富的可視化圖表。以百度Sugar為例,百度Sugar基于E-charts開(kāi)發(fā),支持70多種圖表組件(包括折線、柱圖、餅圖、拓?fù)鋱D、地圖、3D 散點(diǎn)圖等)和10余種過(guò)濾組件(單選、多選、日期、輸入框、復(fù)雜邏輯等),還有非常炫酷的3D地圖效果。
5)多終端自適應(yīng)展現(xiàn)。通過(guò)敏捷BI制作的數(shù)據(jù)分析報(bào)告,制作一次就可以在桌面、手機(jī)、大屏等多終端上自適應(yīng)展現(xiàn),不用針對(duì)多個(gè)終端進(jìn)行單獨(dú)設(shè)置。
總之,敏捷BI投入成本更低、更加平民化、更加易于操作,可以讓更多的企業(yè)客戶(hù)以較低的投入享受到最專(zhuān)業(yè)的數(shù)據(jù)分析服務(wù)。幫助企業(yè)用戶(hù)快速準(zhǔn)確地洞悉數(shù)據(jù)背后隱藏的商業(yè)價(jià)值,讓企業(yè)決策更加“有據(jù)可依”。
除了上述應(yīng)用以外,數(shù)據(jù)中臺(tái)還有一個(gè)最重要的應(yīng)用方向就是智能場(chǎng)景應(yīng)用。智能場(chǎng)景應(yīng)用也就是我們常說(shuō)的AI。數(shù)據(jù)智能應(yīng)用就是基于大數(shù)據(jù)引擎,通過(guò)大規(guī)模機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等技術(shù),對(duì)海量數(shù)據(jù)進(jìn)行處理、分析和挖掘,提取數(shù)據(jù)中所包含的有價(jià)值的信息和知識(shí),使數(shù)據(jù)具有“智能”,并通過(guò)建立模型尋求現(xiàn)有問(wèn)題的解決方案或者實(shí)現(xiàn)對(duì)未來(lái)業(yè)務(wù)的預(yù)測(cè)。引用董超華《數(shù)據(jù)中臺(tái)實(shí)戰(zhàn)》一書(shū)中的一個(gè)重要論點(diǎn)——搭建數(shù)據(jù)中臺(tái)的最終目標(biāo)就是幫助企業(yè)實(shí)現(xiàn)數(shù)據(jù)智能。數(shù)據(jù)智能就是指智能應(yīng)用場(chǎng)景。
智能應(yīng)用場(chǎng)景=AI算法+數(shù)據(jù)+業(yè)務(wù),三者相輔相成,缺一不可。AI算法提供智能工具,數(shù)據(jù)中臺(tái)生產(chǎn)算法需要的數(shù)據(jù),然后根據(jù)業(yè)務(wù)視角來(lái)評(píng)估算法的有效性和應(yīng)用價(jià)值,三者結(jié)合起來(lái)才能構(gòu)建有效的智能場(chǎng)景應(yīng)用。
我們以生活中最常見(jiàn)的百度地圖導(dǎo)航為例。在沒(méi)有地圖導(dǎo)航功能之前,我們到一個(gè)陌生的地方,只能通過(guò)路標(biāo)和向路人問(wèn)路來(lái)找到目的地。有了地理信息數(shù)據(jù)和道路交通信息以后,我們開(kāi)始有了初步的導(dǎo)航功能,通過(guò)百度地圖來(lái)規(guī)劃線路,這樣我們就可以通過(guò)手機(jī)來(lái)尋找目的地。在更多人都開(kāi)始使用手機(jī)導(dǎo)航以后,百度地圖可以記錄用戶(hù)的線路、道路的交通情況,綜合這些提供更加完善的導(dǎo)航服務(wù)。用戶(hù)借助百度地圖導(dǎo)航是在產(chǎn)生數(shù)據(jù),同時(shí)百度地圖綜合用戶(hù)的數(shù)據(jù)分析出道路狀況以后給用戶(hù)規(guī)劃新的、更快的線路,則是通過(guò)數(shù)據(jù)智能來(lái)實(shí)現(xiàn)出行預(yù)測(cè),讓數(shù)據(jù)產(chǎn)生了智能,反哺用戶(hù)。
智能應(yīng)用的標(biāo)志就是由機(jī)器代替人工決策。在上文的導(dǎo)航案例中,道路的規(guī)劃沒(méi)有人工參與,用戶(hù)數(shù)據(jù)的匯總也是由機(jī)器自動(dòng)完成,整個(gè)導(dǎo)航形成一個(gè)數(shù)據(jù)智能應(yīng)用的閉環(huán),這就是真正的數(shù)據(jù)智能應(yīng)用。
當(dāng)然,目前能完成數(shù)據(jù)智能應(yīng)用閉環(huán)的業(yè)務(wù)場(chǎng)景還很少。在大多數(shù)情況下,我們還在尋找和探索數(shù)據(jù)智能的應(yīng)用方向,這需要進(jìn)行大量的試錯(cuò)和驗(yàn)證工作。為了簡(jiǎn)化數(shù)據(jù)智能應(yīng)用的探索過(guò)程,很多企業(yè)在研發(fā)專(zhuān)門(mén)的AI平臺(tái),以降低AI應(yīng)用的門(mén)檻,促進(jìn)更多的數(shù)據(jù)智能應(yīng)用誕生。AI平臺(tái)既可以是數(shù)據(jù)中臺(tái)功能的延伸,也可以是獨(dú)立的應(yīng)用平臺(tái)。數(shù)據(jù)智能應(yīng)用是數(shù)據(jù)中臺(tái)未來(lái)需要重點(diǎn)開(kāi)拓的方向。