數(shù)據(jù)質(zhì)量管理體系建設(shè)工作貫穿企業(yè)大數(shù)據(jù)平臺(tái)建設(shè)的全過(guò)程。數(shù)據(jù)質(zhì)量管理是企業(yè)大數(shù)據(jù)平臺(tái)數(shù)據(jù)工作的指導(dǎo)和規(guī)范文件,主要用于數(shù)據(jù)的開發(fā)、管理、維護(hù)、處理和應(yīng)用的參照。根據(jù)企業(yè)大數(shù)據(jù)平臺(tái)業(yè)務(wù)流程將數(shù)據(jù)工作標(biāo)準(zhǔn)分為數(shù)據(jù)開發(fā)標(biāo)準(zhǔn)、數(shù)據(jù)處理標(biāo)準(zhǔn)、數(shù)據(jù)存儲(chǔ)標(biāo)準(zhǔn)、數(shù)據(jù)建模標(biāo)準(zhǔn)和數(shù)據(jù)應(yīng)用標(biāo)準(zhǔn),如圖所示:

數(shù)據(jù)開發(fā):通過(guò)業(yè)務(wù)系統(tǒng)采集獲取原始數(shù)據(jù)、外部數(shù)據(jù)以及人工錄入數(shù)據(jù)。建設(shè)數(shù)據(jù)開發(fā)工作流程以及工作標(biāo)準(zhǔn),指導(dǎo)數(shù)據(jù)開發(fā)階段工作。
數(shù)據(jù)處理:原始數(shù)據(jù)通過(guò)ETL流程進(jìn)行數(shù)據(jù)抽取、轉(zhuǎn)換和加載,對(duì)于其中規(guī)則復(fù)雜部分配合ODS區(qū)進(jìn)行處理。建設(shè)標(biāo)準(zhǔn)化的數(shù)據(jù)處理業(yè)務(wù)流程和數(shù)據(jù)處理工作標(biāo)準(zhǔn),為數(shù)據(jù)處理工作提供規(guī)范化指導(dǎo)性文件。
數(shù)據(jù)存儲(chǔ):經(jīng)過(guò)數(shù)據(jù)處理規(guī)則后的數(shù)據(jù)形成數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市。建設(shè)支持實(shí)時(shí)內(nèi)存數(shù)據(jù)庫(kù)、關(guān)系型數(shù)據(jù)庫(kù)和文件存儲(chǔ)系統(tǒng)標(biāo)準(zhǔn)格式規(guī)范,便于業(yè)務(wù)數(shù)據(jù)在企業(yè)大數(shù)據(jù)平臺(tái)內(nèi)部流轉(zhuǎn)。
數(shù)據(jù)挖掘:通過(guò)數(shù)據(jù)挖掘模型進(jìn)行數(shù)據(jù)深入分析,之后會(huì)得到數(shù)據(jù)標(biāo)簽或模型結(jié)果而成為數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)管理平臺(tái)的主要內(nèi)容;部分應(yīng)用如匯總報(bào)表等不需要挖掘過(guò)程,因此直接到達(dá)數(shù)據(jù)應(yīng)用層。形成基于時(shí)間序列、聚類分析、關(guān)聯(lián)算法等算法模型,挖掘歷史運(yùn)行數(shù)據(jù)中的隱藏規(guī)律,為用戶提供決策支持。
數(shù)據(jù)應(yīng)用:數(shù)據(jù)通過(guò)報(bào)表、數(shù)據(jù)門戶、OLAP、數(shù)據(jù)產(chǎn)品等進(jìn)行業(yè)務(wù)應(yīng)用,應(yīng)用數(shù)據(jù)可能來(lái)源于數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)集市或數(shù)據(jù)挖掘模型。建設(shè)數(shù)據(jù)服務(wù)接口、消息推送服務(wù)、統(tǒng)計(jì)報(bào)表等數(shù)據(jù)應(yīng)用規(guī)范。