Enterprise Data At HUAWEI(五)

支撐非數(shù)字原生企業(yè)數(shù)字化轉(zhuǎn)型的數(shù)據(jù)底座建設(shè)框架

通過數(shù)據(jù)底座,主要實現(xiàn)以下目標:

  1. 統(tǒng)一管理結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)。將數(shù)據(jù)視為資產(chǎn),能夠追溯數(shù)據(jù)額產(chǎn)生著、業(yè)務(wù)源頭以及數(shù)據(jù)的需求方和消費方。
  2. 打通數(shù)據(jù)供應(yīng)通道,為數(shù)據(jù)消費提供豐富的數(shù)據(jù)原材料、半成品以及成品,滿足公司自主分析、數(shù)字化運營等不同場景的數(shù)據(jù)消費需求。
  3. 確保公司數(shù)據(jù)完整、一致、共享。監(jiān)控數(shù)據(jù)全鏈路下的各個環(huán)節(jié)的數(shù)據(jù)情況,從底層數(shù)據(jù)存儲角度,診斷數(shù)據(jù)冗余、重復(fù)以及“僵尸”問題,降低數(shù)據(jù)維護和使用成本。
  4. 保障數(shù)據(jù)安全可控?;跀?shù)據(jù)安全管理策略,利用數(shù)據(jù)權(quán)限控制,通過數(shù)據(jù)服務(wù)封裝等技術(shù)手段,實現(xiàn)對涉密數(shù)據(jù)和隱私數(shù)據(jù)的合法、合規(guī)的消費。
數(shù)據(jù)底座的總體架構(gòu)
華為數(shù)據(jù)底座總體架構(gòu)
數(shù)據(jù)底座的建設(shè)策略

數(shù)據(jù)底座建設(shè)不能一蹴而就,要從業(yè)務(wù)出發(fā),因勢利導(dǎo),持續(xù)進行。具體來說,華為數(shù)據(jù)底座采取“統(tǒng)籌推動、以用促建、急用先行”的建設(shè)策略

  1. 數(shù)據(jù)安全原則:數(shù)據(jù)底座數(shù)據(jù)資產(chǎn)應(yīng)遵從用戶權(quán)限、數(shù)據(jù)密級、隱私級別等管理要求,以確保數(shù)據(jù)在存儲、傳輸、消費等全過程中的數(shù)據(jù)安全。技術(shù)手段包括權(quán)限管理、權(quán)限控制、數(shù)據(jù)加密、數(shù)據(jù)脫敏等。
  2. 需求、規(guī)劃雙輪驅(qū)動原則:數(shù)據(jù)底座數(shù)據(jù)資產(chǎn)基于業(yè)務(wù)規(guī)劃和需求觸發(fā)雙驅(qū)動的原則進行建設(shè),對核心數(shù)據(jù)資產(chǎn)優(yōu)先建設(shè)。
  3. 數(shù)據(jù)供應(yīng)多場景原則:數(shù)據(jù)底座數(shù)據(jù)資產(chǎn)根據(jù)業(yè)務(wù)需求提供離線/實時、物理/虛擬等不同的數(shù)據(jù)供應(yīng)通道,滿足不同的數(shù)據(jù)消費場景。
  4. 信息架構(gòu)遵從原則:遵從公司的信息架構(gòu)。

數(shù)據(jù)湖:實現(xiàn)企業(yè)數(shù)據(jù)的“邏輯匯聚”??

華為數(shù)據(jù)湖的3個特點
  1. 邏輯統(tǒng)一:華為數(shù)據(jù)湖不是一個單一的物理存儲,而是根據(jù)數(shù)據(jù)類型、業(yè)務(wù)區(qū)域等由多個不同的物理存儲構(gòu)成,并通過統(tǒng)一的元數(shù)據(jù)語義層進行定義、拉通和管理。
  2. 類型多樣:數(shù)據(jù)湖存放所有不同類型的數(shù)據(jù),包括企業(yè)內(nèi)部IT系統(tǒng)產(chǎn)生的結(jié)構(gòu)化數(shù)據(jù)、業(yè)務(wù)交易和內(nèi)部管理的非結(jié)構(gòu)化的文本數(shù)據(jù)、公司內(nèi)部園區(qū)各種傳感器檢測到的設(shè)備運行數(shù)據(jù),以及外部的媒體數(shù)據(jù)等。
  3. 原始記錄:華為數(shù)據(jù)湖是對原始數(shù)據(jù)的匯聚,不對數(shù)據(jù)做任何的轉(zhuǎn)換、清洗、加工等處理,保留數(shù)據(jù)最原始特征,為數(shù)據(jù)的加工和消費提供豐富的可能。
數(shù)據(jù)入湖的6個標準
  1. 明確數(shù)據(jù)owner:數(shù)據(jù)owner由數(shù)據(jù)產(chǎn)生對應(yīng)的流程owner擔任。
  2. 發(fā)布數(shù)據(jù)標準:業(yè)務(wù)數(shù)據(jù)標準描述公司層面共同遵守的“屬性層”數(shù)據(jù)含義和業(yè)務(wù)規(guī)則,一旦發(fā)布,就作為標準在企業(yè)內(nèi)被共同遵守。
    a. 數(shù)據(jù)資產(chǎn)目錄:主題域分組、主題域、業(yè)務(wù)對象、邏輯數(shù)據(jù)實體、業(yè)務(wù)屬性
    b. 定義與規(guī)則:引用的數(shù)據(jù)標準、業(yè)務(wù)定義、業(yè)務(wù)規(guī)則、數(shù)據(jù)類型、數(shù)據(jù)長度、允許值、數(shù)據(jù)示例、同義詞、標準應(yīng)用范圍
    c. 責(zé)任主體:業(yè)務(wù)規(guī)則責(zé)任主體、數(shù)據(jù)維護責(zé)任主體、數(shù)據(jù)質(zhì)量監(jiān)控責(zé)任主體
  3. 認證數(shù)據(jù)源:確保數(shù)據(jù)從正確的數(shù)據(jù)源頭入湖。
  4. 定義數(shù)據(jù)密級:數(shù)據(jù)入湖的必要條件,為確保數(shù)據(jù)湖中數(shù)據(jù)能充分共享,同時又不發(fā)生信息安全問題,入湖必須要定級。
  5. 數(shù)據(jù)質(zhì)量評估:數(shù)據(jù)入湖不需要對數(shù)據(jù)進行清洗,但需對數(shù)據(jù)質(zhì)量進行評估,讓數(shù)據(jù)的消費人員了解數(shù)據(jù)質(zhì)量情況及質(zhì)量風(fēng)險。
  6. 元數(shù)據(jù)注冊:將入湖數(shù)據(jù)的業(yè)務(wù)元數(shù)據(jù)和技術(shù)元數(shù)據(jù)進行管理,包括邏輯實體與物理表的對應(yīng)關(guān)系,以及業(yè)務(wù)屬性和表字段的對應(yīng)關(guān)系。
數(shù)據(jù)入湖方式
  1. 物理入湖:將原始數(shù)據(jù)復(fù)制到數(shù)據(jù)湖中,包括批量處理、數(shù)據(jù)復(fù)制同步、消息和流集成等方式。
  2. 虛擬入湖:原始數(shù)據(jù)不在數(shù)據(jù)湖中進行物理存儲,通過建立對應(yīng)虛擬表的集成方式實現(xiàn)入湖,實時性強,一般面向小數(shù)據(jù)量應(yīng)用。
  3. 5種技術(shù)方案:
    a. 批量集成:用于進行復(fù)雜數(shù)據(jù)清理和轉(zhuǎn)換且數(shù)據(jù)量較大的場景,不適合數(shù)據(jù)延遲和高靈活性的場景。
    b. 數(shù)據(jù)復(fù)制同步:用于需要高可用性和對數(shù)據(jù)源影響小的場景,不適合處理各種數(shù)據(jù)結(jié)構(gòu)以及需要清理和轉(zhuǎn)換復(fù)雜數(shù)據(jù)的場景。
    c. 消息集成:通常通過API或提取數(shù)據(jù),適用于處理不同數(shù)據(jù)結(jié)構(gòu)以及需要高可用性和復(fù)雜轉(zhuǎn)換的場景,不適合處理大量數(shù)據(jù)的場景。
    d. 流集成:主要關(guān)注流數(shù)據(jù)的采集和處理,滿足數(shù)據(jù)實時集成需求,處理每秒數(shù)萬甚至數(shù)十萬個(百萬)事件流,不適合需要復(fù)雜數(shù)據(jù)清理和轉(zhuǎn)換的場景。
    e. 數(shù)據(jù)虛擬化:需要低數(shù)據(jù)延遲、高靈活性和臨時模式的消費場景,不適合需要處理大量數(shù)據(jù)的場景。
結(jié)構(gòu)化數(shù)據(jù)入湖
非結(jié)構(gòu)化數(shù)據(jù)入湖

數(shù)據(jù)主題聯(lián)接:將數(shù)據(jù)轉(zhuǎn)換為“信息”??

5類數(shù)據(jù)主題聯(lián)接的應(yīng)用場景
  1. 多維模型是面向業(yè)務(wù)的多視角、多維度的分析,通過明確的業(yè)務(wù)關(guān)系,建立基于事實表、維度表以及相互間聯(lián)接關(guān)系,實現(xiàn)多維度數(shù)據(jù)查詢和分析。
  2. 圖模型面向數(shù)據(jù)間的關(guān)聯(lián)影響分析,通過建立數(shù)據(jù)對象以及數(shù)據(jù)實例之間的關(guān)系,幫助業(yè)務(wù)快速定位關(guān)聯(lián)影響。
  3. 標簽是對特定業(yè)務(wù)范圍的圈定,在業(yè)務(wù)場景的上下文背景中,運用抽象、歸納、推理等算法計算并生成目標對象特征的表示符號,是用戶主觀觀察、認識和描述對象的一個角度。
  4. 指標是對業(yè)務(wù)結(jié)果、效率和質(zhì)量的度量,依據(jù)明確的業(yè)務(wù)規(guī)則,通過數(shù)據(jù)計算得到衡量目標總體特征的統(tǒng)計數(shù)值,能客觀表征企業(yè)某一業(yè)務(wù)活動中業(yè)務(wù)狀況。
  5. 算法模型是面向智能分析的場景,通過數(shù)學(xué)建模對現(xiàn)實世界進行抽象、模擬和仿真,提供支撐業(yè)務(wù)判斷和決策的高級分析方法。
多維模型設(shè)計
圖模型設(shè)計
標簽設(shè)計
指標設(shè)計
算法模型設(shè)計
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容