支撐非數(shù)字原生企業(yè)數(shù)字化轉(zhuǎn)型的數(shù)據(jù)底座建設(shè)框架
通過數(shù)據(jù)底座,主要實現(xiàn)以下目標:
- 統(tǒng)一管理結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)。將數(shù)據(jù)視為資產(chǎn),能夠追溯數(shù)據(jù)額產(chǎn)生著、業(yè)務(wù)源頭以及數(shù)據(jù)的需求方和消費方。
- 打通數(shù)據(jù)供應(yīng)通道,為數(shù)據(jù)消費提供豐富的數(shù)據(jù)原材料、半成品以及成品,滿足公司自主分析、數(shù)字化運營等不同場景的數(shù)據(jù)消費需求。
- 確保公司數(shù)據(jù)完整、一致、共享。監(jiān)控數(shù)據(jù)全鏈路下的各個環(huán)節(jié)的數(shù)據(jù)情況,從底層數(shù)據(jù)存儲角度,診斷數(shù)據(jù)冗余、重復(fù)以及“僵尸”問題,降低數(shù)據(jù)維護和使用成本。
- 保障數(shù)據(jù)安全可控?;跀?shù)據(jù)安全管理策略,利用數(shù)據(jù)權(quán)限控制,通過數(shù)據(jù)服務(wù)封裝等技術(shù)手段,實現(xiàn)對涉密數(shù)據(jù)和隱私數(shù)據(jù)的合法、合規(guī)的消費。
數(shù)據(jù)底座的總體架構(gòu)

華為數(shù)據(jù)底座總體架構(gòu)
數(shù)據(jù)底座的建設(shè)策略
數(shù)據(jù)底座建設(shè)不能一蹴而就,要從業(yè)務(wù)出發(fā),因勢利導(dǎo),持續(xù)進行。具體來說,華為數(shù)據(jù)底座采取“統(tǒng)籌推動、以用促建、急用先行”的建設(shè)策略
- 數(shù)據(jù)安全原則:數(shù)據(jù)底座數(shù)據(jù)資產(chǎn)應(yīng)遵從用戶權(quán)限、數(shù)據(jù)密級、隱私級別等管理要求,以確保數(shù)據(jù)在存儲、傳輸、消費等全過程中的數(shù)據(jù)安全。技術(shù)手段包括權(quán)限管理、權(quán)限控制、數(shù)據(jù)加密、數(shù)據(jù)脫敏等。
- 需求、規(guī)劃雙輪驅(qū)動原則:數(shù)據(jù)底座數(shù)據(jù)資產(chǎn)基于業(yè)務(wù)規(guī)劃和需求觸發(fā)雙驅(qū)動的原則進行建設(shè),對核心數(shù)據(jù)資產(chǎn)優(yōu)先建設(shè)。
- 數(shù)據(jù)供應(yīng)多場景原則:數(shù)據(jù)底座數(shù)據(jù)資產(chǎn)根據(jù)業(yè)務(wù)需求提供離線/實時、物理/虛擬等不同的數(shù)據(jù)供應(yīng)通道,滿足不同的數(shù)據(jù)消費場景。
- 信息架構(gòu)遵從原則:遵從公司的信息架構(gòu)。
數(shù)據(jù)湖:實現(xiàn)企業(yè)數(shù)據(jù)的“邏輯匯聚”??
華為數(shù)據(jù)湖的3個特點
- 邏輯統(tǒng)一:華為數(shù)據(jù)湖不是一個單一的物理存儲,而是根據(jù)數(shù)據(jù)類型、業(yè)務(wù)區(qū)域等由多個不同的物理存儲構(gòu)成,并通過統(tǒng)一的元數(shù)據(jù)語義層進行定義、拉通和管理。
- 類型多樣:數(shù)據(jù)湖存放所有不同類型的數(shù)據(jù),包括企業(yè)內(nèi)部IT系統(tǒng)產(chǎn)生的結(jié)構(gòu)化數(shù)據(jù)、業(yè)務(wù)交易和內(nèi)部管理的非結(jié)構(gòu)化的文本數(shù)據(jù)、公司內(nèi)部園區(qū)各種傳感器檢測到的設(shè)備運行數(shù)據(jù),以及外部的媒體數(shù)據(jù)等。
- 原始記錄:華為數(shù)據(jù)湖是對原始數(shù)據(jù)的匯聚,不對數(shù)據(jù)做任何的轉(zhuǎn)換、清洗、加工等處理,保留數(shù)據(jù)最原始特征,為數(shù)據(jù)的加工和消費提供豐富的可能。
數(shù)據(jù)入湖的6個標準
- 明確數(shù)據(jù)owner:數(shù)據(jù)owner由數(shù)據(jù)產(chǎn)生對應(yīng)的流程owner擔任。
- 發(fā)布數(shù)據(jù)標準:業(yè)務(wù)數(shù)據(jù)標準描述公司層面共同遵守的“屬性層”數(shù)據(jù)含義和業(yè)務(wù)規(guī)則,一旦發(fā)布,就作為標準在企業(yè)內(nèi)被共同遵守。
a. 數(shù)據(jù)資產(chǎn)目錄:主題域分組、主題域、業(yè)務(wù)對象、邏輯數(shù)據(jù)實體、業(yè)務(wù)屬性
b. 定義與規(guī)則:引用的數(shù)據(jù)標準、業(yè)務(wù)定義、業(yè)務(wù)規(guī)則、數(shù)據(jù)類型、數(shù)據(jù)長度、允許值、數(shù)據(jù)示例、同義詞、標準應(yīng)用范圍
c. 責(zé)任主體:業(yè)務(wù)規(guī)則責(zé)任主體、數(shù)據(jù)維護責(zé)任主體、數(shù)據(jù)質(zhì)量監(jiān)控責(zé)任主體 - 認證數(shù)據(jù)源:確保數(shù)據(jù)從正確的數(shù)據(jù)源頭入湖。
- 定義數(shù)據(jù)密級:數(shù)據(jù)入湖的必要條件,為確保數(shù)據(jù)湖中數(shù)據(jù)能充分共享,同時又不發(fā)生信息安全問題,入湖必須要定級。
- 數(shù)據(jù)質(zhì)量評估:數(shù)據(jù)入湖不需要對數(shù)據(jù)進行清洗,但需對數(shù)據(jù)質(zhì)量進行評估,讓數(shù)據(jù)的消費人員了解數(shù)據(jù)質(zhì)量情況及質(zhì)量風(fēng)險。
- 元數(shù)據(jù)注冊:將入湖數(shù)據(jù)的業(yè)務(wù)元數(shù)據(jù)和技術(shù)元數(shù)據(jù)進行管理,包括邏輯實體與物理表的對應(yīng)關(guān)系,以及業(yè)務(wù)屬性和表字段的對應(yīng)關(guān)系。
數(shù)據(jù)入湖方式
- 物理入湖:將原始數(shù)據(jù)復(fù)制到數(shù)據(jù)湖中,包括批量處理、數(shù)據(jù)復(fù)制同步、消息和流集成等方式。
- 虛擬入湖:原始數(shù)據(jù)不在數(shù)據(jù)湖中進行物理存儲,通過建立對應(yīng)虛擬表的集成方式實現(xiàn)入湖,實時性強,一般面向小數(shù)據(jù)量應(yīng)用。
- 5種技術(shù)方案:
a. 批量集成:用于進行復(fù)雜數(shù)據(jù)清理和轉(zhuǎn)換且數(shù)據(jù)量較大的場景,不適合數(shù)據(jù)延遲和高靈活性的場景。
b. 數(shù)據(jù)復(fù)制同步:用于需要高可用性和對數(shù)據(jù)源影響小的場景,不適合處理各種數(shù)據(jù)結(jié)構(gòu)以及需要清理和轉(zhuǎn)換復(fù)雜數(shù)據(jù)的場景。
c. 消息集成:通常通過API或提取數(shù)據(jù),適用于處理不同數(shù)據(jù)結(jié)構(gòu)以及需要高可用性和復(fù)雜轉(zhuǎn)換的場景,不適合處理大量數(shù)據(jù)的場景。
d. 流集成:主要關(guān)注流數(shù)據(jù)的采集和處理,滿足數(shù)據(jù)實時集成需求,處理每秒數(shù)萬甚至數(shù)十萬個(百萬)事件流,不適合需要復(fù)雜數(shù)據(jù)清理和轉(zhuǎn)換的場景。
e. 數(shù)據(jù)虛擬化:需要低數(shù)據(jù)延遲、高靈活性和臨時模式的消費場景,不適合需要處理大量數(shù)據(jù)的場景。
結(jié)構(gòu)化數(shù)據(jù)入湖
非結(jié)構(gòu)化數(shù)據(jù)入湖
數(shù)據(jù)主題聯(lián)接:將數(shù)據(jù)轉(zhuǎn)換為“信息”??
5類數(shù)據(jù)主題聯(lián)接的應(yīng)用場景
- 多維模型是面向業(yè)務(wù)的多視角、多維度的分析,通過明確的業(yè)務(wù)關(guān)系,建立基于事實表、維度表以及相互間聯(lián)接關(guān)系,實現(xiàn)多維度數(shù)據(jù)查詢和分析。
- 圖模型面向數(shù)據(jù)間的關(guān)聯(lián)影響分析,通過建立數(shù)據(jù)對象以及數(shù)據(jù)實例之間的關(guān)系,幫助業(yè)務(wù)快速定位關(guān)聯(lián)影響。
- 標簽是對特定業(yè)務(wù)范圍的圈定,在業(yè)務(wù)場景的上下文背景中,運用抽象、歸納、推理等算法計算并生成目標對象特征的表示符號,是用戶主觀觀察、認識和描述對象的一個角度。
- 指標是對業(yè)務(wù)結(jié)果、效率和質(zhì)量的度量,依據(jù)明確的業(yè)務(wù)規(guī)則,通過數(shù)據(jù)計算得到衡量目標總體特征的統(tǒng)計數(shù)值,能客觀表征企業(yè)某一業(yè)務(wù)活動中業(yè)務(wù)狀況。
- 算法模型是面向智能分析的場景,通過數(shù)學(xué)建模對現(xiàn)實世界進行抽象、模擬和仿真,提供支撐業(yè)務(wù)判斷和決策的高級分析方法。