數(shù)據(jù)質(zhì)量管理
數(shù)據(jù)質(zhì)量管理的思考
- 元數(shù)據(jù)為什么對(duì)數(shù)據(jù)質(zhì)量管理如此重要
- 演進(jìn)在數(shù)據(jù)質(zhì)量問題中扮演什么角色
- 數(shù)據(jù)質(zhì)量改進(jìn)工作有哪些障礙

1. 業(yè)務(wù)驅(qū)動(dòng)因素
建立一個(gè)正式的數(shù)據(jù)質(zhì)量管理計(jì)劃的業(yè)務(wù)驅(qū)動(dòng)力包括:
- 增加組織數(shù)據(jù)的價(jià)值和使用數(shù)據(jù)的機(jī)會(huì)。
- 降低與數(shù)據(jù)質(zhì)量差相關(guān)的風(fēng)險(xiǎn)和成本
- 提高組織效率和生產(chǎn)力
- 保護(hù)和提高組織的聲譽(yù)
許多直接成本都與低質(zhì)量的數(shù)據(jù)有關(guān)。例如:
- 無法正確開具發(fā)票
- 客戶服務(wù)電話增加,解決能力下降
- 因錯(cuò)過商機(jī)而造成的收入損失
- 影響并購后的整合進(jìn)展
- 欺詐風(fēng)險(xiǎn)的增加
- 由不良數(shù)據(jù)驅(qū)動(dòng)的不良商業(yè)決策造成的損失
- 由于缺乏良好的信用狀況而造成的業(yè)務(wù)損失
2. 目標(biāo)和原則
數(shù)據(jù)質(zhì)量計(jì)劃的重點(diǎn)是這些總體目標(biāo):
- 根據(jù)數(shù)據(jù)消費(fèi)者的要求,制定一種受控的方法,使數(shù)據(jù)適合于目的的數(shù)據(jù)
- 確定數(shù)據(jù)質(zhì)量控制的標(biāo)準(zhǔn)和規(guī)范,作為數(shù)據(jù)生命周期的一部分;
- 界定和實(shí)施衡量、監(jiān)測(cè)和報(bào)告數(shù)據(jù)質(zhì)量水平的流程。
- 通過改變流程和系統(tǒng),并根據(jù)數(shù)據(jù)消費(fèi)者的要求,確定和倡導(dǎo)改善數(shù)據(jù)質(zhì)量的機(jī)會(huì),并參與可衡量地提高數(shù)據(jù)質(zhì)量的活動(dòng)。
數(shù)據(jù)質(zhì)量計(jì)劃應(yīng)遵循以下原則:
- 關(guān)鍵性:數(shù)據(jù)質(zhì)量計(jì)劃應(yīng)側(cè)重于對(duì)企業(yè)及其客戶最關(guān)鍵的數(shù)據(jù)。改進(jìn)的優(yōu)先級(jí)應(yīng)根據(jù)數(shù)據(jù)的關(guān)鍵性和數(shù)據(jù)不正確時(shí)的風(fēng)險(xiǎn)程度來確定。
- 全生命周期管理:數(shù)據(jù)的質(zhì)量應(yīng)在整個(gè)數(shù)據(jù)生命周期內(nèi)進(jìn)行管理,從創(chuàng)建或采集到處理的整個(gè)過程。這包括管理數(shù)據(jù)在系統(tǒng)內(nèi)和系統(tǒng)之間流動(dòng)時(shí)的數(shù)據(jù)(即數(shù)據(jù)鏈中的每一個(gè)環(huán)節(jié)都應(yīng)確保數(shù)據(jù)輸出的質(zhì)量是高質(zhì)量的)。
- 預(yù)防:數(shù)據(jù)質(zhì)量計(jì)劃的重點(diǎn)應(yīng)該是防止數(shù)據(jù)錯(cuò)誤和降低數(shù)據(jù)可用性的條件,而不是簡(jiǎn)單地糾正記錄。
- 根因修正:提高數(shù)據(jù)的質(zhì)量不僅僅是糾正錯(cuò)誤。應(yīng)該理解數(shù)據(jù)質(zhì)量的問題,并從根源上解決,而不僅僅是治標(biāo)不治本。由于這些原因往往與流程或系統(tǒng)設(shè)計(jì)有關(guān),因此提高數(shù)據(jù)質(zhì)量往往需要改變流程和支持流程的系統(tǒng)。
- 治理:數(shù)據(jù)治理活動(dòng)必須支持高質(zhì)量數(shù)據(jù)的發(fā)展,數(shù)據(jù)質(zhì)量計(jì)劃活動(dòng)必須支持和維持一個(gè)受治理的數(shù)據(jù)環(huán)境。
- 標(biāo)準(zhǔn)驅(qū)動(dòng):數(shù)據(jù)生命周期中的所有利益相關(guān)方都有數(shù)據(jù)質(zhì)量要求。應(yīng)盡可能以可衡量的標(biāo)準(zhǔn)和期望的形式來定義這些要求,并據(jù)此來衡量數(shù)據(jù)質(zhì)量。
- 客觀的衡量和透明度:需要對(duì)數(shù)據(jù)質(zhì)量水平進(jìn)行客觀和一致的測(cè)量。測(cè)量和測(cè)量方法應(yīng)與利益相關(guān)方共享,因?yàn)樗麄兪琴|(zhì)量的仲裁者
- 嵌入到業(yè)務(wù)流程:業(yè)務(wù)流程所有者對(duì)通過其流程產(chǎn)生的數(shù)據(jù)質(zhì)量負(fù)責(zé)。他們必須在其流程中執(zhí)行數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)。
系統(tǒng)化執(zhí)行:系統(tǒng)所有者必須系統(tǒng)地執(zhí)行數(shù)據(jù)質(zhì)量要求。 - 與服務(wù)水平相關(guān)聯(lián):數(shù)據(jù)質(zhì)量報(bào)告和問題管理應(yīng)納入服務(wù)水平協(xié)議(SLA)中。
3. 基本概念
數(shù)據(jù)質(zhì)量
數(shù)據(jù)的質(zhì)量要達(dá)到數(shù)據(jù)消費(fèi)者的期望和需求,才是高質(zhì)量的。
關(guān)鍵數(shù)據(jù)
雖然關(guān)鍵性的具體驅(qū)動(dòng)因素因行業(yè)而異,但各組織之間也有共同的特點(diǎn)。數(shù)據(jù)的評(píng)估可以根據(jù)以下幾點(diǎn)進(jìn)行評(píng)估:
- 監(jiān)管報(bào)告
- 財(cái)務(wù)報(bào)告
- 商業(yè)政策
- 正在開展的業(yè)務(wù)
- 商業(yè)戰(zhàn)略,尤其是差異化競(jìng)爭(zhēng)戰(zhàn)略
數(shù)據(jù)質(zhì)量維度
Strong-Wang框架(1996)關(guān)注的是數(shù)據(jù)消費(fèi)者對(duì)數(shù)據(jù)的感知。它描述了數(shù)據(jù)質(zhì)量的四個(gè)大類和15個(gè)指標(biāo)
內(nèi)在的數(shù)據(jù)質(zhì)量
- 準(zhǔn)確性
- 客觀性
- 可信度
- 信譽(yù)度
場(chǎng)景數(shù)據(jù)質(zhì)量
- 增值性
- 關(guān)聯(lián)性
- 即時(shí)性
- 完整性
- 適量性
表達(dá)數(shù)據(jù)質(zhì)量
- 可解釋性
- 易于理解
- 表象的一致性
- 簡(jiǎn)明的表述
訪問數(shù)據(jù)質(zhì)量
- 可訪問性
- 訪問安全性
在《信息時(shí)代的數(shù)據(jù)質(zhì)量》(1996)中,Thomas Redman制定了一套根植于數(shù)據(jù)結(jié)構(gòu)的數(shù)據(jù)質(zhì)量維度(Redman在《數(shù)據(jù)質(zhì)量:《實(shí)地指南》(2001年)中對(duì)他的這套維度進(jìn)行了擴(kuò)展和修訂) 維度可以與數(shù)據(jù)的任何一個(gè)組成部分---模型(實(shí)體和屬性)以及值---的任何一個(gè)組成部分相關(guān)聯(lián)。Redman包括了表示的維度,他將其定義為記錄數(shù)據(jù)項(xiàng)的一組規(guī)則。在這三個(gè)一般的類別(數(shù)據(jù)模型、數(shù)據(jù)值、表征)中,他描述了二十多個(gè)維度。
Larry English在《改進(jìn)數(shù)據(jù)倉庫和商業(yè)信息質(zhì)量》(1999年)中提出了一套全面的維度,分為兩大類:固有特征和實(shí)用性特征(English在《信息質(zhì)量應(yīng)用》(2009年)中擴(kuò)展和修訂了他的維度。)。實(shí)用性特征是與數(shù)據(jù)呈現(xiàn)相關(guān)聯(lián)的,是動(dòng)態(tài)的;其價(jià)值(質(zhì)量)會(huì)隨著數(shù)據(jù)的使用而變化。
2013年,英國DAMA編制了一份白皮書,描述了數(shù)據(jù)質(zhì)量的六個(gè)核心維度。
- 完整性:數(shù)據(jù)存儲(chǔ)的比例與潛在的100%的比例。
- 唯一性:沒有一個(gè)實(shí)體實(shí)例(事物)會(huì)根據(jù)該事物的識(shí)別方式被記錄不止一次。
- 及時(shí)性:數(shù)據(jù)從所需時(shí)間點(diǎn)代表現(xiàn)實(shí)的程度。
- 有效性:數(shù)據(jù)符合其定義的語法(格式、類型、范圍),則為有效。
- 準(zhǔn)確度:數(shù)據(jù)正確描述被描述的 "現(xiàn)實(shí)世界 "對(duì)象或事件的程度。
- 一致性:比較事物多種表述與定義的差異
英國DAMA白皮書還描述了對(duì)質(zhì)量有影響的其他特征:
- 可用性(Usability):數(shù)據(jù)是否可理解、簡(jiǎn)單、相關(guān)、可訪問、可維護(hù)、可維護(hù),并達(dá)到適當(dāng)?shù)木人剑?/li>
- 時(shí)效性問題(超越時(shí)效性本身):是否穩(wěn)定而又能對(duì)合法的變更請(qǐng)求做出響應(yīng)?
- 靈活性:數(shù)據(jù)是否具有可比性,是否與其他數(shù)據(jù)兼容?它是否有有用的分組和分類?它是否可以重復(fù)使用?是否易于操作?
- 置信度:數(shù)據(jù)治理、數(shù)據(jù)保護(hù)和數(shù)據(jù)安全流程是否到位?數(shù)據(jù)的信譽(yù)度如何,是否經(jīng)過驗(yàn)證或可驗(yàn)證?
- 價(jià)值:數(shù)據(jù)是否有良好的成本/效益案例?它是否得到了最佳的使用?它是否危及人們的安全或隱私,或企業(yè)的法律責(zé)任?它是否支持或違背了企業(yè)形象或企業(yè)信息?



數(shù)據(jù)質(zhì)量和元數(shù)據(jù)
數(shù)據(jù)質(zhì)量ISO標(biāo)準(zhǔn)
數(shù)據(jù)質(zhì)量改進(jìn)的生命周期

- 在計(jì)劃(P)階段,數(shù)據(jù)質(zhì)量團(tuán)隊(duì)會(huì)評(píng)估已知問題的范圍、影響和優(yōu)先級(jí),并評(píng)估解決這些問題的替代方案。該計(jì)劃應(yīng)建立在對(duì)問題的根源分析的堅(jiān)實(shí)基礎(chǔ)上。根據(jù)對(duì)問題的原因和影響的了解,可以理解成本/效益,確定優(yōu)先級(jí),并制定基本的計(jì)劃來解決這些問題。
- 在做(D)階段,由數(shù)據(jù)質(zhì)量團(tuán)隊(duì)牽頭解決問題的根本原因,并對(duì)數(shù)據(jù)進(jìn)行持續(xù)監(jiān)控的計(jì)劃。對(duì)于基于非技術(shù)性流程的根本原因,數(shù)據(jù)質(zhì)量團(tuán)隊(duì)可以與流程負(fù)責(zé)人合作實(shí)施變更。對(duì)于需要技術(shù)變更的根本原因,數(shù)據(jù)質(zhì)量團(tuán)隊(duì)?wèi)?yīng)與技術(shù)團(tuán)隊(duì)合作,確保要求正確執(zhí)行,確保技術(shù)變更不會(huì)引入錯(cuò)誤。
- 檢查(C)階段涉及到積極監(jiān)控?cái)?shù)據(jù)的質(zhì)量,根據(jù)要求進(jìn)行測(cè)量的數(shù)據(jù)質(zhì)量。只要數(shù)據(jù)符合定義的質(zhì)量閾值,就不需要采取額外的行動(dòng)。流程將被認(rèn)為是在可控范圍內(nèi)并滿足業(yè)務(wù)要求。但是,如果數(shù)據(jù)低于可接受的質(zhì)量閾值,則必須采取額外行動(dòng),使其達(dá)到可接受的水平。
- 行動(dòng)(A)階段是針對(duì)新出現(xiàn)的數(shù)據(jù)質(zhì)量問題進(jìn)行處理和解決的活動(dòng)。當(dāng)評(píng)估問題的原因并提出解決方案時(shí),周期會(huì)重新開始。通過啟動(dòng)新的周期來實(shí)現(xiàn)持續(xù)改進(jìn)。
數(shù)據(jù)質(zhì)量業(yè)務(wù)規(guī)則類型
- 定義的一致性:確認(rèn)在整個(gè)組織內(nèi)的流程中,對(duì)數(shù)據(jù)定義的理解是一致的,并正確使用。確認(rèn)包括計(jì)算字段的算法一致性,包括任何時(shí)間,或本地約束,以及卷積和狀態(tài)相互依賴規(guī)則。
- 值的存在和記錄的完整性:定義缺失值可接受或不可接受的條件的規(guī)則。
- 格式符合性:一個(gè)或多個(gè)模式指定了分配給數(shù)據(jù)元素的值,如電話號(hào)碼的格式化標(biāo)準(zhǔn)。
- 值域匹配性:指定一個(gè)數(shù)據(jù)元素的分配值包含在定義的數(shù)據(jù)值域中,如STATE字段的2字符美國郵政編碼。
- 范圍一致性:數(shù)據(jù)元素的分配值必須在定義的數(shù)字、詞法或時(shí)間范圍內(nèi),如數(shù)字范圍大于0而小于100。
- 映射一致性:表示分配給一個(gè)數(shù)據(jù)元素的值必須在規(guī)定的數(shù)值范圍內(nèi)
- 一致性規(guī)則:條件性斷言,是指根據(jù)兩個(gè)(或多個(gè))屬性的實(shí)際值來維持兩個(gè)(或多個(gè))屬性之間的關(guān)系。
- 準(zhǔn)確度驗(yàn)證:將數(shù)據(jù)值與記錄系統(tǒng)或其他驗(yàn)證源(如從供應(yīng)商處購買的營(yíng)銷數(shù)據(jù))中的相應(yīng)值進(jìn)行比較,以驗(yàn)證值是否匹配。
- 唯一性驗(yàn)證:指定哪些實(shí)體必須具有唯一性表示,以及每個(gè)表示的現(xiàn)實(shí)世界對(duì)象是否只存在一條記錄的規(guī)則。
- 時(shí)效性驗(yàn)證:指明與數(shù)據(jù)的可訪問性和可用性期望相關(guān)的特征的規(guī)則。
造成數(shù)據(jù)質(zhì)量問題的常見原因
- 缺乏領(lǐng)導(dǎo)力造成的數(shù)據(jù)質(zhì)量問題
- 數(shù)據(jù)輸入過程造成的問題
- 數(shù)據(jù)處理功能造成的問題
- 系統(tǒng)設(shè)計(jì)造成的問題
- 修復(fù)問題造成的問題

數(shù)據(jù)剖析
- 空值數(shù)量
- 最大/最小值
- 最大/最小長(zhǎng)度
- 各列的值的頻率分布
- 數(shù)據(jù)類型和格式
數(shù)據(jù)質(zhì)量和數(shù)據(jù)處理
4. 活動(dòng)(重要未完成)
定義高質(zhì)量的數(shù)據(jù)
定義數(shù)據(jù)質(zhì)量戰(zhàn)略
識(shí)別關(guān)鍵數(shù)據(jù)和業(yè)務(wù)規(guī)則
進(jìn)行初步的數(shù)據(jù)質(zhì)量評(píng)估
確定可能的改進(jìn)措施并確定其優(yōu)先次序
確定數(shù)據(jù)質(zhì)量改進(jìn)目標(biāo)
5. 工具
6. 技術(shù)
預(yù)防行動(dòng)
改正行動(dòng)
質(zhì)量檢查和審核代碼模塊
有效的數(shù)據(jù)質(zhì)量指標(biāo)
統(tǒng)計(jì)過程控制
根本原因分析
7. 實(shí)施指南
準(zhǔn)備狀態(tài)評(píng)估/風(fēng)險(xiǎn)評(píng)估
組織和文化變革
8. 數(shù)據(jù)質(zhì)量和數(shù)據(jù)治理
治理組織可以通過以下方式加快數(shù)據(jù)質(zhì)量計(jì)劃的工作。
- 確定優(yōu)先事項(xiàng)
- 確定和協(xié)調(diào)與應(yīng)參與各種數(shù)據(jù)質(zhì)量相關(guān)決定和活動(dòng)的人員的接觸,并協(xié)調(diào)他們的接觸
- 制定和維護(hù)數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)
- 報(bào)告全企業(yè)數(shù)據(jù)質(zhì)量的相關(guān)衡量標(biāo)準(zhǔn)
- 提供指導(dǎo),促進(jìn)工作人員的參與
- 建立知識(shí)共享的溝通機(jī)制
- 制定和應(yīng)用數(shù)據(jù)質(zhì)量和合規(guī)政策
- 監(jiān)測(cè)和報(bào)告執(zhí)行情況
- 分享數(shù)據(jù)質(zhì)量檢查結(jié)果,建立意識(shí),找出改進(jìn)的機(jī)會(huì),達(dá)成改進(jìn)的共識(shí)。
- 解決變化和沖突;提供方向
數(shù)據(jù)質(zhì)量政策
度量指標(biāo)
- 投資回報(bào)率:關(guān)于改進(jìn)工作的成本與改進(jìn)數(shù)據(jù)質(zhì)量的效益的說明。
- 質(zhì)量水平:衡量數(shù)據(jù)集內(nèi)或各數(shù)據(jù)集之間的錯(cuò)誤或違反要求的數(shù)量和百分比。
- 數(shù)據(jù)質(zhì)量趨勢(shì):質(zhì)量改進(jìn)隨著時(shí)間的推移(即趨勢(shì)),對(duì)照閾值和目標(biāo),或每期的質(zhì)量事故,質(zhì)量改進(jìn)情況
- 數(shù)據(jù)問題管理指標(biāo)。
o 按數(shù)據(jù)質(zhì)量的各個(gè)維度分列的問題數(shù)
o 每個(gè)業(yè)務(wù)職能的問題及其狀況(已解決、未解決、已升級(jí))
o 按優(yōu)先次序和嚴(yán)重程度分列的問題
o 解決問題的時(shí)間 - 服務(wù)水平的一致性:涉及的組織單位和負(fù)責(zé)人員、數(shù)據(jù)質(zhì)量評(píng)估的項(xiàng)目干預(yù)措施、總體流程的一致
性 - 數(shù)據(jù)質(zhì)量計(jì)劃的推出:現(xiàn)狀和擴(kuò)展路線圖