1. 數(shù)據(jù)質(zhì)量的重要性
大數(shù)據(jù)的概念正在進(jìn)一步滲透到各個(gè)行業(yè)與領(lǐng)域當(dāng)中,隨著企業(yè)業(yè)務(wù)增長和規(guī)模擴(kuò)大,以及伴隨著信息技術(shù)和相關(guān)基礎(chǔ)設(shè)施的不斷完善,在短短的幾年內(nèi),數(shù)據(jù)已經(jīng)呈現(xiàn)了爆發(fā)式的增長,多數(shù)傳統(tǒng)企業(yè)也開始走上了數(shù)字化轉(zhuǎn)型的道路。數(shù)據(jù)中蘊(yùn)藏的商業(yè)價(jià)值也逐漸被人們挖掘出來:客戶群體細(xì)分提供個(gè)性化服務(wù)和精準(zhǔn)營銷、數(shù)據(jù)驅(qū)動(dòng)創(chuàng)新促進(jìn)發(fā)掘新的需求和商業(yè)模式、數(shù)據(jù)互聯(lián)互通打破了組織邊界提高管理效率和產(chǎn)業(yè)效率,以及降低服務(wù)成本。
伴隨著數(shù)據(jù)量的增長,與大數(shù)據(jù)相關(guān)的技術(shù)也在不斷成熟,包括數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)傳輸、數(shù)據(jù)處理、數(shù)據(jù)挖掘等一系列環(huán)節(jié)。技術(shù)更迭帶來的實(shí)施成本降低,越來越多的企業(yè)開始利用數(shù)據(jù)創(chuàng)新業(yè)務(wù),提供數(shù)據(jù)服務(wù),由原來的業(yè)務(wù)驅(qū)動(dòng)漸漸轉(zhuǎn)型數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)的增長。在最近一年的時(shí)間里,我接觸到了不同行業(yè)的客戶,包括物流、汽車、教育、金融等,這些企業(yè)都已經(jīng)開始在實(shí)施大數(shù)據(jù)項(xiàng)目??梢灶A(yù)見的是,這類的項(xiàng)目將會(huì)越來越多地出現(xiàn)在各個(gè)行業(yè)當(dāng)中。
大數(shù)據(jù)類的項(xiàng)目有個(gè)特點(diǎn),那就是都是以數(shù)據(jù)為核心。數(shù)據(jù)將作為產(chǎn)生業(yè)務(wù)價(jià)值和實(shí)現(xiàn)業(yè)務(wù)目標(biāo)的基石,那么數(shù)據(jù)的質(zhì)量就變成了這類項(xiàng)目的一個(gè)極其重要的因素。有些項(xiàng)目在初期由于并沒有考慮數(shù)據(jù)質(zhì)量的因素,導(dǎo)致了項(xiàng)目實(shí)施后期才發(fā)現(xiàn),由于數(shù)據(jù)質(zhì)量問題所帶來的項(xiàng)目失敗的風(fēng)險(xiǎn)。在項(xiàng)目的各個(gè)環(huán)節(jié)當(dāng)中,我們都應(yīng)當(dāng)關(guān)注數(shù)據(jù)質(zhì)量的管理。
2. 數(shù)據(jù)質(zhì)量是什么
在《數(shù)據(jù)質(zhì)量管理的一些思考》一文中,我提到了對于質(zhì)量的定義。那么對于數(shù)據(jù)質(zhì)量來說,我們又該如何定義它。不妨來參考一下對于軟件質(zhì)量的定義--“軟件質(zhì)量是軟件與明確地?cái)⑹龅墓δ芎托阅苄枨?、文檔中明確描述的開發(fā)標(biāo)準(zhǔn)以及任何專業(yè)開發(fā)的軟件產(chǎn)品都應(yīng)該具有的隱含特征相一致的程度”。那么這個(gè)定義同樣適用于數(shù)據(jù)質(zhì)量。上述定義從三個(gè)方面來衡量軟件質(zhì)量,簡單來說就是:1. 滿足需求;2. 符合既定的標(biāo)準(zhǔn);3. 與隱含特征一致。我們分別解析一下這三個(gè)方面在數(shù)據(jù)質(zhì)量上是如何應(yīng)用的:
1. 滿足業(yè)務(wù)需求
這個(gè)維度是從數(shù)據(jù)使用的角度來定義數(shù)據(jù)質(zhì)量的好壞。我們基于場景或者業(yè)務(wù)目標(biāo)來定義數(shù)據(jù)質(zhì)量。舉個(gè)例子,在一個(gè)數(shù)據(jù)分析的項(xiàng)目當(dāng)中,項(xiàng)目目標(biāo)是對用戶進(jìn)行畫像分析,那么對于一份數(shù)據(jù)的質(zhì)量評估標(biāo)準(zhǔn)就是滿足畫像分析的這個(gè)需求能否被滿足。在已知的場景下,數(shù)據(jù)應(yīng)該滿足該場景下的數(shù)據(jù)消費(fèi)需求。
2. 符合既定的標(biāo)準(zhǔn)
在一些特定條件下,例如企業(yè)已經(jīng)制定了數(shù)據(jù)管理的一些標(biāo)準(zhǔn),這個(gè)時(shí)候數(shù)據(jù)質(zhì)量的評估應(yīng)當(dāng)參考既有標(biāo)準(zhǔn)。例如,某一個(gè)數(shù)據(jù)的時(shí)間記錄要求精確到毫秒級別,而實(shí)際記錄的數(shù)據(jù)可能只到了秒級,這樣的數(shù)據(jù)就不滿足既定的數(shù)據(jù)標(biāo)準(zhǔn)。既定的數(shù)據(jù)標(biāo)準(zhǔn)可以是行業(yè)標(biāo)準(zhǔn),也可以是企業(yè)標(biāo)準(zhǔn)和自制標(biāo)準(zhǔn)。
3. 與隱含特征一致
這一點(diǎn)是說數(shù)據(jù)應(yīng)該滿足一些隱含的特征,對于隱含的特征包括:客觀事實(shí)、已知的約束和限定等。比如說,在數(shù)據(jù)記錄中出現(xiàn)了一條溫度記錄是-300℃的記錄,這個(gè)明顯是一個(gè)有問題的數(shù)據(jù),因?yàn)闇囟炔粫?huì)低于絕對零度-273.15℃,這個(gè)信息就是一個(gè)隱含特征。
在明確了數(shù)據(jù)質(zhì)量的定義后,我們才能對數(shù)據(jù)質(zhì)量的評估制定選擇維度和制定衡量標(biāo)準(zhǔn)。
3. 如何進(jìn)行數(shù)據(jù)質(zhì)量評估
1. 明確目標(biāo)
這里先提一個(gè)概念:數(shù)據(jù)生命周期管理。數(shù)據(jù)的生命周期從數(shù)據(jù)規(guī)劃開始,中間是一個(gè)包括產(chǎn)生、處理、部署、應(yīng)用、監(jiān)控、存檔、銷毀這幾個(gè)步驟并不斷迭代的過程。那么在其中任何一個(gè)環(huán)節(jié)都會(huì)涉及到數(shù)據(jù)質(zhì)量的管理。因此當(dāng)我們確定此次數(shù)據(jù)質(zhì)量評估的目標(biāo)時(shí),首先要定位當(dāng)前的數(shù)據(jù)處于生命周期的哪個(gè)階段,進(jìn)一步明確后續(xù)步驟對于數(shù)據(jù)質(zhì)量的需求有哪些。數(shù)據(jù)價(jià)值的體現(xiàn)形式在于數(shù)據(jù)通過流動(dòng)最終被消費(fèi)。同一份數(shù)據(jù)在不同的生命周期中,其質(zhì)量的關(guān)注點(diǎn)是存在差異的,因此很重要的一點(diǎn)就是明確當(dāng)前階段數(shù)據(jù)質(zhì)量管理的目標(biāo)是什么。有了明確的目標(biāo),才能開始對數(shù)據(jù)進(jìn)行合理的評估。
2. 構(gòu)建數(shù)據(jù)全景圖
許多企業(yè)進(jìn)行數(shù)據(jù)質(zhì)量評估的時(shí)候很容易只關(guān)注在當(dāng)前企業(yè)的現(xiàn)有數(shù)據(jù)。從而忽視了當(dāng)前企業(yè)中暫時(shí)沒有的數(shù)據(jù)。我們知道,數(shù)據(jù)可以劃分為內(nèi)部數(shù)據(jù)和外部數(shù)據(jù),還可以通過數(shù)據(jù)交易獲取數(shù)據(jù)。因此對于數(shù)據(jù)質(zhì)量管理,很重要的一點(diǎn)就是企業(yè)首先要構(gòu)建一個(gè)數(shù)據(jù)全景圖?;谏鷳B(tài)或者完整的業(yè)務(wù)全景來構(gòu)建數(shù)據(jù)全景。數(shù)據(jù)全景圖與業(yè)務(wù)是不可分離的,因此,脫離了業(yè)務(wù),或者僅僅圍繞部分當(dāng)前的業(yè)務(wù)進(jìn)行質(zhì)量的評估,并不能從長遠(yuǎn)和全局的角度給我們的數(shù)據(jù)質(zhì)量管理帶來更加價(jià)值的指導(dǎo)意義。既要關(guān)注當(dāng)下的現(xiàn)狀,又要著眼于未來的演變。
3. 選取數(shù)據(jù)質(zhì)量維度
評價(jià)數(shù)據(jù)質(zhì)量的維度有很多,例如:數(shù)據(jù)準(zhǔn)確性、數(shù)據(jù)一致性、數(shù)據(jù)的實(shí)效性、數(shù)據(jù)的完整性等等??闪信e出十幾種維度或者更多,在許多地方都會(huì)有對數(shù)據(jù)質(zhì)量維度的具體解釋。那么在這里我們要關(guān)注的是如何選取維度。盡管每一個(gè)維度都與質(zhì)量相關(guān)聯(lián),但是并不是每一個(gè)維度對質(zhì)量都會(huì)產(chǎn)生相同的影響作用。因此,我們需要對選取幾個(gè)我們最為關(guān)注的數(shù)據(jù)質(zhì)量維度來對其進(jìn)行評估。選取過多的維度會(huì)增加后續(xù)數(shù)據(jù)質(zhì)量評估模型的復(fù)雜度,并會(huì)增加采樣數(shù)據(jù),度量質(zhì)量的成本和難度。而選取過少的維度又不能全面的反應(yīng)數(shù)據(jù)質(zhì)量。一般來說,4-7個(gè)維度是比較合理的選擇。當(dāng)然,根據(jù)實(shí)際需要,也可以定義自己的質(zhì)量維度和選取適當(dāng)?shù)臄?shù)量。
4. 制定數(shù)據(jù)質(zhì)量評估模型
經(jīng)過上一步選定了進(jìn)行質(zhì)量度量的維度,接下來就是對數(shù)據(jù)評估進(jìn)行建模。建模的目的是我們在對各個(gè)維度進(jìn)行質(zhì)量度量之后,需要對度量結(jié)果進(jìn)行一個(gè)計(jì)算,得到一個(gè)更加直觀的分?jǐn)?shù)來衡量數(shù)據(jù)質(zhì)量的好壞。建模本身也是一個(gè)復(fù)雜的工程,當(dāng)然簡單的評估模型可以是一個(gè)線性模型,既各個(gè)維度的數(shù)值乘以一個(gè)權(quán)重然后進(jìn)行累加。也可以是一個(gè)很復(fù)雜的數(shù)學(xué)模型,甚至?xí)δP瓦M(jìn)行調(diào)參。建模本身需要對數(shù)據(jù)有一定敏感性和深刻的理解,同時(shí)需要具備一定的數(shù)學(xué)知識(shí)。
5. 確定數(shù)據(jù)質(zhì)量度量標(biāo)準(zhǔn)和度量方法
在數(shù)據(jù)質(zhì)量的眾多維度當(dāng)中,有些維度是很容易進(jìn)行度量的,例如缺失率。缺失率的計(jì)算只要統(tǒng)計(jì)出缺失的數(shù)據(jù)量在整個(gè)數(shù)據(jù)集中的占比就可以得出一個(gè)具體的值。然而有些維度,例如實(shí)效性、一致性等如果要進(jìn)行度量的話,就不是那么容易了。我們需要在度量之前定義出度量的標(biāo)準(zhǔn)是什么,基于這個(gè)標(biāo)準(zhǔn),再確定度量的方法。就是我們?nèi)绾伟岩恍┟枋鲂缘亩攘咳哭D(zhuǎn)化成為可以量化的數(shù)值或者比率。需要這樣一個(gè)量化的過程,才能夠?qū)⑦@些度量結(jié)果通過模型計(jì)算,最終得出一個(gè)質(zhì)量的評估結(jié)果。度量的方法也會(huì)分為多種,可以是人工去對比,也可以用程序化的方式進(jìn)行對比,或者采用統(tǒng)計(jì)學(xué)的方式來進(jìn)行度量。
6. 實(shí)施數(shù)據(jù)質(zhì)量評估并撰寫評估報(bào)告
終于到了最后的實(shí)施環(huán)節(jié),在實(shí)施的環(huán)節(jié)需要考慮的是數(shù)據(jù)采樣策略。如果數(shù)據(jù)量小,我們可以對全部數(shù)據(jù)進(jìn)行度量和評估。如果數(shù)據(jù)量很大或者對全量數(shù)據(jù)進(jìn)行評估成本過高,那么就需要進(jìn)行部分?jǐn)?shù)據(jù)采樣,對樣本數(shù)據(jù)進(jìn)行評估。數(shù)據(jù)會(huì)有其自身的一些特點(diǎn),例如周期性或者實(shí)效性。因此在制定抽樣策略和抽樣頻率的時(shí)候,不能不考慮這些因素,否則采樣數(shù)據(jù)得出的評估結(jié)論很可能就會(huì)與全量數(shù)據(jù)的真實(shí)情況有較大的偏差,因此如何盡可能的減少偏差也是一個(gè)需要思考的問題。
經(jīng)過抽樣、度量、評估之后,就可以得到評估結(jié)論了。最后我們需要的就是撰寫一份評估的報(bào)告,在這份報(bào)告當(dāng)中,除了最后的結(jié)論,應(yīng)當(dāng)還包括對這個(gè)結(jié)論的分析和解讀,并通過一些可視化的方式展現(xiàn)在報(bào)告當(dāng)中。數(shù)據(jù)質(zhì)量評估報(bào)告不是最終的目的,這份報(bào)告對后續(xù)數(shù)據(jù)質(zhì)量的管理,數(shù)據(jù)治理等都具有非常重要的參考意義。因此,在這份報(bào)告中應(yīng)當(dāng)包含結(jié)論、分析以及只質(zhì)量改善建議這幾個(gè)方面。
4. 數(shù)據(jù)質(zhì)量在數(shù)據(jù)治理中的重要意義
數(shù)據(jù)的質(zhì)量問題從一定的角度反映出組織當(dāng)中存在的一些問題,而問題的來源可能是數(shù)據(jù)流動(dòng),可能業(yè)務(wù)流程也可能源于管理問題等等,數(shù)據(jù)質(zhì)量問題的分析可以幫助企業(yè)找到問題的源頭。而高質(zhì)量的數(shù)據(jù)對管理決策,業(yè)務(wù)支撐都有極其重要的作用。數(shù)據(jù)質(zhì)量是數(shù)據(jù)治理中重要的一把標(biāo)尺,而數(shù)據(jù)治理又是當(dāng)今企業(yè)組織的首要戰(zhàn)略重點(diǎn)之一,只有持續(xù)的數(shù)據(jù)質(zhì)量改進(jìn)才能推動(dòng)數(shù)據(jù)治理體系的完善,為企業(yè)數(shù)據(jù)戰(zhàn)略提供堅(jiān)實(shí)的保障。