數(shù)據(jù)中臺與數(shù)據(jù)平臺的關(guān)系

不管是要弄清楚數(shù)據(jù)中臺還是數(shù)據(jù)平臺,都逃不開這幾個問題。

為什么是大數(shù)據(jù)?
數(shù)據(jù)資產(chǎn)指哪些內(nèi)容?
做大數(shù)據(jù)的是不是一定要寫代碼?
數(shù)據(jù)如何體現(xiàn)業(yè)務價值?
什么是所謂的數(shù)據(jù)安全?
...

這幾年最火的莫過于“中臺”,各公司紛紛打造自己的業(yè)務中臺和數(shù)據(jù)中臺,顧名思義,業(yè)務中臺,是為了解決業(yè)務共性問題,而對服務進行的統(tǒng)一抽象。公共服務融合,產(chǎn)生標準化解決方案提供上層應用使用。那么,數(shù)據(jù)中臺是什么,和原有的數(shù)據(jù)平臺之間是什么關(guān)系。

本文重點描述一下數(shù)據(jù)在使用管理側(cè)的變化,同時站在筆者的角度,來解釋為什么很多公司有的大數(shù)據(jù)平臺,缺依舊要打造數(shù)據(jù)中臺。

數(shù)據(jù)資產(chǎn)

數(shù)據(jù)資產(chǎn)指大數(shù)據(jù)中的價值部分。隨著信息化程度越來越高,數(shù)據(jù)生產(chǎn)的方式也越來越多。

這些數(shù)據(jù)里,有的數(shù)據(jù)是當前存在價值,例如監(jiān)控類日志;有的數(shù)據(jù)是在一定周期內(nèi)存在價值,例如平臺根據(jù)用戶過去半年行為來判斷用戶是否流失;有的數(shù)據(jù)則是永久價值,例如用戶基本身份信息;有的則是一些無價值數(shù)據(jù),比如一些與預期數(shù)據(jù)格式或內(nèi)容不符的臟數(shù)據(jù)。

數(shù)據(jù)經(jīng)過生產(chǎn),采集,清洗,轉(zhuǎn)化,加工,這一系列的操作,最后入倉完成持久化的數(shù)據(jù)信息,就是系統(tǒng)所需的數(shù)據(jù)資產(chǎn)。

從維度上劃分,包含用戶畫像,用戶行為數(shù)據(jù)(瀏覽,購買,收藏等),內(nèi)容資產(chǎn)(信息流、商品SKU等),模型資產(chǎn)等。

數(shù)據(jù)的體現(xiàn)上,又表現(xiàn)為實時數(shù)據(jù)和離線數(shù)據(jù)。實時數(shù)據(jù),實時獲取實時處理,秒級反饋。例如雙十一大屏。離線數(shù)據(jù),數(shù)據(jù)定期采集,匯總,以某一固定周期進行加工計算。例如用戶半年消費金額。

一個企業(yè)未來的價值,一方面在于主營業(yè)務的發(fā)展,另一方面表現(xiàn)在所掌握的全網(wǎng)數(shù)據(jù)資產(chǎn)。擁有數(shù)據(jù)資產(chǎn)越多的企業(yè),可以很好的完成應用導流,精準人群覆蓋,趨勢預測,使商業(yè)更加透明化。

數(shù)據(jù)存儲

任何一本計算機普及教材上,都會標注,數(shù)據(jù)在計算機上,會存儲在內(nèi)存或磁盤中,內(nèi)存快但小,磁盤大但慢。。。

所以呢,當一臺機器磁盤空間不夠時,用兩臺,三臺,一百臺,構(gòu)成集群分片存儲,保障數(shù)據(jù)容量,同時多備份保障不丟失。當一臺機器不夠計算時,MapReduce,RDD,在多分片上進行數(shù)據(jù)處理,之后完成數(shù)據(jù)結(jié)果匯總。分治思想,幾乎貫穿了所有的大數(shù)據(jù)應用。

多數(shù)大中型企業(yè),都會有自己的數(shù)據(jù)管理平臺,通常以hdfs為存儲介質(zhì),yarn為調(diào)度,hive、spark為計算引擎,kylin,presto為OLAP引擎。這些組件混合,也就構(gòu)成了通常意義上的大數(shù)據(jù)平臺。

整個ETL的過程,就是數(shù)據(jù)從采集清洗到入倉的過程,把不同階段的數(shù)據(jù),分層存儲,就形成了傳統(tǒng)意義上的數(shù)據(jù)倉庫。

所有的數(shù)據(jù)應用,都會構(gòu)建在以數(shù)據(jù)倉庫為元數(shù)據(jù)的平臺之上。

數(shù)據(jù)計算

數(shù)據(jù)計算,就是從一堆雜亂的數(shù)據(jù)中,抽取出所需的部分。

例如

獲取一個人最近半年對母嬰用品上的瀏覽量、收藏量,下單量和交易金額。通過這樣的結(jié)果數(shù)據(jù),對此用戶進行母嬰評級。

這種問題在任何一家電商企業(yè)都是很常見的需求。但實現(xiàn)起來,卻有一定的復雜度。

首先,用戶瀏覽數(shù)據(jù),通過點擊流上報,以用戶訪問頁面的行為為觸發(fā),進行內(nèi)容主動上報。

收藏量,從用戶的收藏列表中獲取,同時需要對商品類別做區(qū)分,商品類別在商品模塊里。

下單量和下單金額,可以從用戶的訂單里進行統(tǒng)計,但同時要扣除部分用戶退單數(shù)據(jù)。

這只是一個基礎(chǔ)的計算問題,但是依舊要使用到很多維度的基礎(chǔ)數(shù)據(jù)進行融合,那么更為復雜的計算,不但要涉及到不同的數(shù)據(jù)塊,不同的時間周期,不同的數(shù)學模型,還有不同的數(shù)據(jù)規(guī)格及存儲結(jié)構(gòu)。

數(shù)據(jù)賦能

數(shù)據(jù)計算、加工的目的,當然是為業(yè)務服務。有人需要訂單信息,才會有相應的訂單加工需求。

業(yè)務人員多半都不懂這些數(shù)據(jù)存儲的方式和差別,又不能要求每一個管理集群,做數(shù)據(jù)存儲加工的同學熟悉全部的業(yè)務邏輯。因此,為平衡這類問題,多半會由研發(fā)同學發(fā)起,開發(fā)一套可視化的數(shù)據(jù)平臺,業(yè)務人員只需要鼠標點點,就能完成底層數(shù)據(jù)的混合,加工,展示。這樣的基礎(chǔ)平臺,提供了數(shù)據(jù)采集,存儲,計算,展示,并有可視化的ide提供出來。可以由非研發(fā)的業(yè)務人員自由組合操作,從而達到自己的業(yè)務要求。這也就是通常意義上的數(shù)據(jù)平臺。

那么,有了這個基礎(chǔ)設施,每個人都可以再上邊加工自己的業(yè)務,我要一份用戶A的訂單數(shù)據(jù),通過各種融合,得出了結(jié)果。別人也需要這份數(shù)據(jù),他也需要在做一遍嗎?當然不用,拿現(xiàn)成的就行。這樣一來,有一百個人有相似業(yè)務要求,我們就節(jié)省了99次的計算,這樣的基于數(shù)據(jù)平臺,又完成了業(yè)務層內(nèi)容抽象的平臺,被越來越多的公司定義為數(shù)據(jù)中臺。

總之,數(shù)據(jù)平臺就是集成了常用大數(shù)據(jù)組件,覆蓋了大數(shù)據(jù)處理的各個環(huán)節(jié),提供出的一套基礎(chǔ)平臺??商峁┘夹g(shù)人員和非技術(shù)人員自由進行業(yè)務開發(fā)運算。數(shù)據(jù)中臺就是依托數(shù)據(jù)平臺,再平臺之上以業(yè)務沉淀為背景,構(gòu)建一套完整的基于業(yè)務場景的數(shù)據(jù)計算服務,并將各服務有效提供給應用使用,同時對各應用的數(shù)據(jù)資產(chǎn)進行有效管理的平臺。

任何一種技術(shù),都是為業(yè)務服務,大數(shù)據(jù)也不例外。數(shù)據(jù)本身不具備行業(yè)價值,一定是在特定的行業(yè)背景下,才能發(fā)揮足夠的作用。因此,行業(yè)里越來越多企業(yè)提出,數(shù)據(jù)服務業(yè)務化。

數(shù)據(jù)中臺將各種數(shù)據(jù)應用的共性需求進行抽象,形成數(shù)據(jù)能力,避免重復場景出現(xiàn)浪費過多的人力成本。數(shù)據(jù)中臺管理的內(nèi)容包含應用、用戶、資產(chǎn)及能力(大部分以API方式提供)。

隨著業(yè)務的逐漸開展,所需的業(yè)務指標也越來越多,不但有統(tǒng)計型指標,還有很多預測型指標。通過以往數(shù)據(jù)表現(xiàn),對未知數(shù)據(jù)進行結(jié)果預判,這就是一個機器學習過程。因此,在數(shù)據(jù)平臺之外,通常都會有一個機器學習平臺,從數(shù)倉里獲取歷史數(shù)據(jù),經(jīng)過一系列模型加工,生成對未知數(shù)據(jù)預測的模型表達式。這部分內(nèi)容,同樣是數(shù)據(jù)資產(chǎn)的重要組成。提供出來的模型計算服務,也會通過數(shù)據(jù)中臺封裝對外賦能。

數(shù)據(jù)安全

很多企業(yè)都在做著數(shù)據(jù)發(fā)財夢,隨之而來的,是數(shù)據(jù)的盜用,濫用。很多數(shù)據(jù)綁定了用戶的隱私信息,身份信息,購物信息,瀏覽信息,位置信息,偏好信息等。在法律法規(guī)上,這些數(shù)據(jù)由用戶通過平臺生產(chǎn),理應所屬用戶。平臺通過對這類數(shù)據(jù)挖掘分析,更好的服務用戶,但如果將數(shù)據(jù)外泄、轉(zhuǎn)賣,就觸碰了紅線。

既然數(shù)據(jù)需在合法合規(guī)的方式下使用,那么如今行業(yè)進行數(shù)據(jù)賦能最大的障礙就是多種所屬數(shù)據(jù)融合。任何一家企業(yè)都不會貿(mào)然把自己的數(shù)據(jù)給到其它企業(yè)。但又希望能進行數(shù)據(jù)融合賦能,因此就衍生出了很多技術(shù)方向的解決方案,例如聯(lián)邦學習,智能合約等。

寫在最后

隨著B端業(yè)務的逐漸崛起,更多的企業(yè)把目光投向了行業(yè)解決方案。一方面通過業(yè)務積累完成業(yè)務沉淀,另一方面就是想數(shù)據(jù)賦予更多的業(yè)務屬性,實現(xiàn)行業(yè)價值最大化。不管是數(shù)據(jù)平臺,還是數(shù)據(jù)中臺,都會在未來的業(yè)務場景中,占據(jù)越來越重要的位置。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容