CDMP(Data Quality Management)

數(shù)據(jù)質(zhì)量管理

數(shù)據(jù)質(zhì)量管理的思考

  1. 元數(shù)據(jù)為什么對(duì)數(shù)據(jù)質(zhì)量管理如此重要
  2. 演進(jìn)在數(shù)據(jù)質(zhì)量問題中扮演什么角色
  3. 數(shù)據(jù)質(zhì)量改進(jìn)工作有哪些障礙
語境關(guān)系圖-數(shù)據(jù)質(zhì)量

1. 業(yè)務(wù)驅(qū)動(dòng)因素

建立一個(gè)正式的數(shù)據(jù)質(zhì)量管理計(jì)劃的業(yè)務(wù)驅(qū)動(dòng)力包括:

  1. 增加組織數(shù)據(jù)的價(jià)值和使用數(shù)據(jù)的機(jī)會(huì)。
  2. 降低與數(shù)據(jù)質(zhì)量差相關(guān)的風(fēng)險(xiǎn)和成本
  3. 提高組織效率和生產(chǎn)力
  4. 保護(hù)和提高組織的聲譽(yù)

許多直接成本都與低質(zhì)量的數(shù)據(jù)有關(guān)。例如:

  1. 無法正確開具發(fā)票
  2. 客戶服務(wù)電話增加,解決能力下降
  3. 因錯(cuò)過商機(jī)而造成的收入損失
  4. 影響并購后的整合進(jìn)展
  5. 欺詐風(fēng)險(xiǎn)的增加
  6. 由不良數(shù)據(jù)驅(qū)動(dòng)的不良商業(yè)決策造成的損失
  7. 由于缺乏良好的信用狀況而造成的業(yè)務(wù)損失

2. 目標(biāo)和原則

數(shù)據(jù)質(zhì)量計(jì)劃的重點(diǎn)是這些總體目標(biāo):

  1. 根據(jù)數(shù)據(jù)消費(fèi)者的要求,制定一種受控的方法,使數(shù)據(jù)適合于目的的數(shù)據(jù)
  2. 確定數(shù)據(jù)質(zhì)量控制的標(biāo)準(zhǔn)和規(guī)范,作為數(shù)據(jù)生命周期的一部分;
  3. 界定和實(shí)施衡量、監(jiān)測(cè)和報(bào)告數(shù)據(jù)質(zhì)量水平的流程。
  4. 通過改變流程和系統(tǒng),并根據(jù)數(shù)據(jù)消費(fèi)者的要求,確定和倡導(dǎo)改善數(shù)據(jù)質(zhì)量的機(jī)會(huì),并參與可衡量地提高數(shù)據(jù)質(zhì)量的活動(dòng)。

數(shù)據(jù)質(zhì)量計(jì)劃應(yīng)遵循以下原則:

  1. 關(guān)鍵性:數(shù)據(jù)質(zhì)量計(jì)劃應(yīng)側(cè)重于對(duì)企業(yè)及其客戶最關(guān)鍵的數(shù)據(jù)。改進(jìn)的優(yōu)先級(jí)應(yīng)根據(jù)數(shù)據(jù)的關(guān)鍵性和數(shù)據(jù)不正確時(shí)的風(fēng)險(xiǎn)程度來確定。
  2. 全生命周期管理:數(shù)據(jù)的質(zhì)量應(yīng)在整個(gè)數(shù)據(jù)生命周期內(nèi)進(jìn)行管理,從創(chuàng)建或采集到處理的整個(gè)過程。這包括管理數(shù)據(jù)在系統(tǒng)內(nèi)和系統(tǒng)之間流動(dòng)時(shí)的數(shù)據(jù)(即數(shù)據(jù)鏈中的每一個(gè)環(huán)節(jié)都應(yīng)確保數(shù)據(jù)輸出的質(zhì)量是高質(zhì)量的)。
  3. 預(yù)防:數(shù)據(jù)質(zhì)量計(jì)劃的重點(diǎn)應(yīng)該是防止數(shù)據(jù)錯(cuò)誤和降低數(shù)據(jù)可用性的條件,而不是簡(jiǎn)單地糾正記錄。
  4. 根因修正:提高數(shù)據(jù)的質(zhì)量不僅僅是糾正錯(cuò)誤。應(yīng)該理解數(shù)據(jù)質(zhì)量的問題,并從根源上解決,而不僅僅是治標(biāo)不治本。由于這些原因往往與流程或系統(tǒng)設(shè)計(jì)有關(guān),因此提高數(shù)據(jù)質(zhì)量往往需要改變流程和支持流程的系統(tǒng)。
  5. 治理:數(shù)據(jù)治理活動(dòng)必須支持高質(zhì)量數(shù)據(jù)的發(fā)展,數(shù)據(jù)質(zhì)量計(jì)劃活動(dòng)必須支持和維持一個(gè)受治理的數(shù)據(jù)環(huán)境。
  6. 標(biāo)準(zhǔn)驅(qū)動(dòng):數(shù)據(jù)生命周期中的所有利益相關(guān)方都有數(shù)據(jù)質(zhì)量要求。應(yīng)盡可能以可衡量的標(biāo)準(zhǔn)和期望的形式來定義這些要求,并據(jù)此來衡量數(shù)據(jù)質(zhì)量。
  7. 客觀的衡量和透明度:需要對(duì)數(shù)據(jù)質(zhì)量水平進(jìn)行客觀和一致的測(cè)量。測(cè)量和測(cè)量方法應(yīng)與利益相關(guān)方共享,因?yàn)樗麄兪琴|(zhì)量的仲裁者
  8. 嵌入到業(yè)務(wù)流程:業(yè)務(wù)流程所有者對(duì)通過其流程產(chǎn)生的數(shù)據(jù)質(zhì)量負(fù)責(zé)。他們必須在其流程中執(zhí)行數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)。
    系統(tǒng)化執(zhí)行:系統(tǒng)所有者必須系統(tǒng)地執(zhí)行數(shù)據(jù)質(zhì)量要求。
  9. 與服務(wù)水平相關(guān)聯(lián):數(shù)據(jù)質(zhì)量報(bào)告和問題管理應(yīng)納入服務(wù)水平協(xié)議(SLA)中。

3. 基本概念

數(shù)據(jù)質(zhì)量

數(shù)據(jù)的質(zhì)量要達(dá)到數(shù)據(jù)消費(fèi)者的期望和需求,才是高質(zhì)量的。

關(guān)鍵數(shù)據(jù)

雖然關(guān)鍵性的具體驅(qū)動(dòng)因素因行業(yè)而異,但各組織之間也有共同的特點(diǎn)。數(shù)據(jù)的評(píng)估可以根據(jù)以下幾點(diǎn)進(jìn)行評(píng)估:

  1. 監(jiān)管報(bào)告
  2. 財(cái)務(wù)報(bào)告
  3. 商業(yè)政策
  4. 正在開展的業(yè)務(wù)
  5. 商業(yè)戰(zhàn)略,尤其是差異化競(jìng)爭(zhēng)戰(zhàn)略
數(shù)據(jù)質(zhì)量維度

Strong-Wang框架(1996)關(guān)注的是數(shù)據(jù)消費(fèi)者對(duì)數(shù)據(jù)的感知。它描述了數(shù)據(jù)質(zhì)量的四個(gè)大類和15個(gè)指標(biāo)

內(nèi)在的數(shù)據(jù)質(zhì)量

  1. 準(zhǔn)確性
  2. 客觀性
  3. 可信度
  4. 信譽(yù)度

場(chǎng)景數(shù)據(jù)質(zhì)量

  1. 增值性
  2. 關(guān)聯(lián)性
  3. 即時(shí)性
  4. 完整性
  5. 適量性

表達(dá)數(shù)據(jù)質(zhì)量

  1. 可解釋性
  2. 易于理解
  3. 表象的一致性
  4. 簡(jiǎn)明的表述

訪問數(shù)據(jù)質(zhì)量

  1. 可訪問性
  2. 訪問安全性

在《信息時(shí)代的數(shù)據(jù)質(zhì)量》(1996)中,Thomas Redman制定了一套根植于數(shù)據(jù)結(jié)構(gòu)的數(shù)據(jù)質(zhì)量維度(Redman在《數(shù)據(jù)質(zhì)量:《實(shí)地指南》(2001年)中對(duì)他的這套維度進(jìn)行了擴(kuò)展和修訂) 維度可以與數(shù)據(jù)的任何一個(gè)組成部分---模型(實(shí)體和屬性)以及值---的任何一個(gè)組成部分相關(guān)聯(lián)。Redman包括了表示的維度,他將其定義為記錄數(shù)據(jù)項(xiàng)的一組規(guī)則。在這三個(gè)一般的類別(數(shù)據(jù)模型、數(shù)據(jù)值、表征)中,他描述了二十多個(gè)維度。

Larry English在《改進(jìn)數(shù)據(jù)倉庫和商業(yè)信息質(zhì)量》(1999年)中提出了一套全面的維度,分為兩大類:固有特征和實(shí)用性特征(English在《信息質(zhì)量應(yīng)用》(2009年)中擴(kuò)展和修訂了他的維度。)。實(shí)用性特征是與數(shù)據(jù)呈現(xiàn)相關(guān)聯(lián)的,是動(dòng)態(tài)的;其價(jià)值(質(zhì)量)會(huì)隨著數(shù)據(jù)的使用而變化。

2013年,英國DAMA編制了一份白皮書,描述了數(shù)據(jù)質(zhì)量的六個(gè)核心維度。

  1. 完整性:數(shù)據(jù)存儲(chǔ)的比例與潛在的100%的比例。
  2. 唯一性:沒有一個(gè)實(shí)體實(shí)例(事物)會(huì)根據(jù)該事物的識(shí)別方式被記錄不止一次。
  3. 及時(shí)性:數(shù)據(jù)從所需時(shí)間點(diǎn)代表現(xiàn)實(shí)的程度。
  4. 有效性:數(shù)據(jù)符合其定義的語法(格式、類型、范圍),則為有效。
  5. 準(zhǔn)確度:數(shù)據(jù)正確描述被描述的 "現(xiàn)實(shí)世界 "對(duì)象或事件的程度。
  6. 一致性:比較事物多種表述與定義的差異

英國DAMA白皮書還描述了對(duì)質(zhì)量有影響的其他特征:

  1. 可用性(Usability):數(shù)據(jù)是否可理解、簡(jiǎn)單、相關(guān)、可訪問、可維護(hù)、可維護(hù),并達(dá)到適當(dāng)?shù)木人剑?/li>
  2. 時(shí)效性問題(超越時(shí)效性本身):是否穩(wěn)定而又能對(duì)合法的變更請(qǐng)求做出響應(yīng)?
  3. 靈活性:數(shù)據(jù)是否具有可比性,是否與其他數(shù)據(jù)兼容?它是否有有用的分組和分類?它是否可以重復(fù)使用?是否易于操作?
  4. 置信度:數(shù)據(jù)治理、數(shù)據(jù)保護(hù)和數(shù)據(jù)安全流程是否到位?數(shù)據(jù)的信譽(yù)度如何,是否經(jīng)過驗(yàn)證或可驗(yàn)證?
  5. 價(jià)值:數(shù)據(jù)是否有良好的成本/效益案例?它是否得到了最佳的使用?它是否危及人們的安全或隱私,或企業(yè)的法律責(zé)任?它是否支持或違背了企業(yè)形象或企業(yè)信息?
常見的數(shù)據(jù)質(zhì)量維度1
常見的數(shù)據(jù)質(zhì)量維度2
數(shù)據(jù)質(zhì)量維度之間的關(guān)系
數(shù)據(jù)質(zhì)量和元數(shù)據(jù)
數(shù)據(jù)質(zhì)量ISO標(biāo)準(zhǔn)
數(shù)據(jù)質(zhì)量改進(jìn)的生命周期
休哈特圖
  1. 在計(jì)劃(P)階段,數(shù)據(jù)質(zhì)量團(tuán)隊(duì)會(huì)評(píng)估已知問題的范圍、影響和優(yōu)先級(jí),并評(píng)估解決這些問題的替代方案。該計(jì)劃應(yīng)建立在對(duì)問題的根源分析的堅(jiān)實(shí)基礎(chǔ)上。根據(jù)對(duì)問題的原因和影響的了解,可以理解成本/效益,確定優(yōu)先級(jí),并制定基本的計(jì)劃來解決這些問題。
  2. 在做(D)階段,由數(shù)據(jù)質(zhì)量團(tuán)隊(duì)牽頭解決問題的根本原因,并對(duì)數(shù)據(jù)進(jìn)行持續(xù)監(jiān)控的計(jì)劃。對(duì)于基于非技術(shù)性流程的根本原因,數(shù)據(jù)質(zhì)量團(tuán)隊(duì)可以與流程負(fù)責(zé)人合作實(shí)施變更。對(duì)于需要技術(shù)變更的根本原因,數(shù)據(jù)質(zhì)量團(tuán)隊(duì)?wèi)?yīng)與技術(shù)團(tuán)隊(duì)合作,確保要求正確執(zhí)行,確保技術(shù)變更不會(huì)引入錯(cuò)誤。
  3. 檢查(C)階段涉及到積極監(jiān)控?cái)?shù)據(jù)的質(zhì)量,根據(jù)要求進(jìn)行測(cè)量的數(shù)據(jù)質(zhì)量。只要數(shù)據(jù)符合定義的質(zhì)量閾值,就不需要采取額外的行動(dòng)。流程將被認(rèn)為是在可控范圍內(nèi)并滿足業(yè)務(wù)要求。但是,如果數(shù)據(jù)低于可接受的質(zhì)量閾值,則必須采取額外行動(dòng),使其達(dá)到可接受的水平。
  4. 行動(dòng)(A)階段是針對(duì)新出現(xiàn)的數(shù)據(jù)質(zhì)量問題進(jìn)行處理和解決的活動(dòng)。當(dāng)評(píng)估問題的原因并提出解決方案時(shí),周期會(huì)重新開始。通過啟動(dòng)新的周期來實(shí)現(xiàn)持續(xù)改進(jìn)。
數(shù)據(jù)質(zhì)量業(yè)務(wù)規(guī)則類型
  1. 定義的一致性:確認(rèn)在整個(gè)組織內(nèi)的流程中,對(duì)數(shù)據(jù)定義的理解是一致的,并正確使用。確認(rèn)包括計(jì)算字段的算法一致性,包括任何時(shí)間,或本地約束,以及卷積和狀態(tài)相互依賴規(guī)則。
  2. 值的存在和記錄的完整性:定義缺失值可接受或不可接受的條件的規(guī)則。
  3. 格式符合性:一個(gè)或多個(gè)模式指定了分配給數(shù)據(jù)元素的值,如電話號(hào)碼的格式化標(biāo)準(zhǔn)。
  4. 值域匹配性:指定一個(gè)數(shù)據(jù)元素的分配值包含在定義的數(shù)據(jù)值域中,如STATE字段的2字符美國郵政編碼。
  5. 范圍一致性:數(shù)據(jù)元素的分配值必須在定義的數(shù)字、詞法或時(shí)間范圍內(nèi),如數(shù)字范圍大于0而小于100。
  6. 映射一致性:表示分配給一個(gè)數(shù)據(jù)元素的值必須在規(guī)定的數(shù)值范圍內(nèi)
  7. 一致性規(guī)則:條件性斷言,是指根據(jù)兩個(gè)(或多個(gè))屬性的實(shí)際值來維持兩個(gè)(或多個(gè))屬性之間的關(guān)系。
  8. 準(zhǔn)確度驗(yàn)證:將數(shù)據(jù)值與記錄系統(tǒng)或其他驗(yàn)證源(如從供應(yīng)商處購買的營(yíng)銷數(shù)據(jù))中的相應(yīng)值進(jìn)行比較,以驗(yàn)證值是否匹配。
  9. 唯一性驗(yàn)證:指定哪些實(shí)體必須具有唯一性表示,以及每個(gè)表示的現(xiàn)實(shí)世界對(duì)象是否只存在一條記錄的規(guī)則。
  10. 時(shí)效性驗(yàn)證:指明與數(shù)據(jù)的可訪問性和可用性期望相關(guān)的特征的規(guī)則。
造成數(shù)據(jù)質(zhì)量問題的常見原因
  1. 缺乏領(lǐng)導(dǎo)力造成的數(shù)據(jù)質(zhì)量問題
  2. 數(shù)據(jù)輸入過程造成的問題
  3. 數(shù)據(jù)處理功能造成的問題
  4. 系統(tǒng)設(shè)計(jì)造成的問題
  5. 修復(fù)問題造成的問題
將信息作為業(yè)務(wù)資產(chǎn)進(jìn)行管理的障礙和根本原因
數(shù)據(jù)剖析
  1. 空值數(shù)量
  2. 最大/最小值
  3. 最大/最小長(zhǎng)度
  4. 各列的值的頻率分布
  5. 數(shù)據(jù)類型和格式
數(shù)據(jù)質(zhì)量和數(shù)據(jù)處理

4. 活動(dòng)(重要未完成)

定義高質(zhì)量的數(shù)據(jù)
定義數(shù)據(jù)質(zhì)量戰(zhàn)略
識(shí)別關(guān)鍵數(shù)據(jù)和業(yè)務(wù)規(guī)則
進(jìn)行初步的數(shù)據(jù)質(zhì)量評(píng)估
確定可能的改進(jìn)措施并確定其優(yōu)先次序
確定數(shù)據(jù)質(zhì)量改進(jìn)目標(biāo)

5. 工具

6. 技術(shù)

預(yù)防行動(dòng)
改正行動(dòng)
質(zhì)量檢查和審核代碼模塊
有效的數(shù)據(jù)質(zhì)量指標(biāo)
統(tǒng)計(jì)過程控制
根本原因分析

7. 實(shí)施指南

準(zhǔn)備狀態(tài)評(píng)估/風(fēng)險(xiǎn)評(píng)估
組織和文化變革

8. 數(shù)據(jù)質(zhì)量和數(shù)據(jù)治理

治理組織可以通過以下方式加快數(shù)據(jù)質(zhì)量計(jì)劃的工作。

  1. 確定優(yōu)先事項(xiàng)
  2. 確定和協(xié)調(diào)與應(yīng)參與各種數(shù)據(jù)質(zhì)量相關(guān)決定和活動(dòng)的人員的接觸,并協(xié)調(diào)他們的接觸
  3. 制定和維護(hù)數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)
  4. 報(bào)告全企業(yè)數(shù)據(jù)質(zhì)量的相關(guān)衡量標(biāo)準(zhǔn)
  5. 提供指導(dǎo),促進(jìn)工作人員的參與
  6. 建立知識(shí)共享的溝通機(jī)制
  7. 制定和應(yīng)用數(shù)據(jù)質(zhì)量和合規(guī)政策
  8. 監(jiān)測(cè)和報(bào)告執(zhí)行情況
  9. 分享數(shù)據(jù)質(zhì)量檢查結(jié)果,建立意識(shí),找出改進(jìn)的機(jī)會(huì),達(dá)成改進(jìn)的共識(shí)。
  10. 解決變化和沖突;提供方向
數(shù)據(jù)質(zhì)量政策
度量指標(biāo)
  1. 投資回報(bào)率:關(guān)于改進(jìn)工作的成本與改進(jìn)數(shù)據(jù)質(zhì)量的效益的說明。
  2. 質(zhì)量水平:衡量數(shù)據(jù)集內(nèi)或各數(shù)據(jù)集之間的錯(cuò)誤或違反要求的數(shù)量和百分比。
  3. 數(shù)據(jù)質(zhì)量趨勢(shì):質(zhì)量改進(jìn)隨著時(shí)間的推移(即趨勢(shì)),對(duì)照閾值和目標(biāo),或每期的質(zhì)量事故,質(zhì)量改進(jìn)情況
  4. 數(shù)據(jù)問題管理指標(biāo)。
    o 按數(shù)據(jù)質(zhì)量的各個(gè)維度分列的問題數(shù)
    o 每個(gè)業(yè)務(wù)職能的問題及其狀況(已解決、未解決、已升級(jí))
    o 按優(yōu)先次序和嚴(yán)重程度分列的問題
    o 解決問題的時(shí)間
  5. 服務(wù)水平的一致性:涉及的組織單位和負(fù)責(zé)人員、數(shù)據(jù)質(zhì)量評(píng)估的項(xiàng)目干預(yù)措施、總體流程的一致
  6. 數(shù)據(jù)質(zhì)量計(jì)劃的推出:現(xiàn)狀和擴(kuò)展路線圖
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 摘要:數(shù)據(jù)流管理系統(tǒng)(DSMS)以有效的方式提供實(shí)時(shí)數(shù)據(jù)處理,但在數(shù)據(jù)質(zhì)量(DQ)和性能之間總是存在權(quán)衡。我們?yōu)殛P(guān)...
    dsemlina閱讀 578評(píng)論 0 0
  • 摘要:物聯(lián)網(wǎng)(IoT)在使用作為物聯(lián)網(wǎng)系統(tǒng)一部分的各種智能互聯(lián)產(chǎn)品(SCP)(即帶有傳感器和執(zhí)行器的物理智能設(shè)備)...
    dsemlina閱讀 402評(píng)論 0 0
  • 數(shù)據(jù)管理 數(shù)據(jù)管理是為了交付、控制、保護(hù)并提升數(shù)據(jù)和信息資產(chǎn)的價(jià)值,在其整個(gè)生命周期中制定計(jì)劃、制度、規(guī)程和實(shí)踐活...
    冰菓_閱讀 1,568評(píng)論 0 8
  • l 簡(jiǎn)介 彼得·德魯克于1909年生于奧匈帝國的維也納,祖籍為荷蘭人,彼得·德魯克其家族在十七世紀(jì)時(shí)從事書籍出版工...
    小潘chic閱讀 1,735評(píng)論 0 0
  • 術(shù)語:SAFe(Scaled Agile Framework) 規(guī)模化敏捷架構(gòu)。 敏捷中的質(zhì)量?jī)?nèi)建Built-In...
    robot_test_boy閱讀 2,636評(píng)論 0 2

友情鏈接更多精彩內(nèi)容