數據質量,永遠的痛啊,?我目前就被數據質量折磨的很惡心.?如果不真實接觸這個,是永遠無法知道它的痛的!
比如:?沒有統(tǒng)一計算口徑,后臺和數據部門對于同一個業(yè)務的計算口徑不一致,?然后數據不一致,很惡心
業(yè)務口徑不一致:?如我們金融公司,?在投金額,借貸余額,在貸金額...實際上都是叫同一個東西
一致沿用計算錯誤的數據,不能形成閉環(huán)....
.......
1.數據質量
? ? ? 數據質量是數據之根本,沒有質量的數據就是不可信、不可用,數據分析、數據挖掘和數據建模更是一紙空談。
? ? ??大數據時代的來臨,數據資產、數據分析和數據價值戰(zhàn)略已經構成企業(yè)核心競爭力的關鍵因素;但是我們必須清楚的認識到對于大數據的分析和應用必須建立在高質量、可用、可靠的數據基礎之上。我們基于低質量、錯誤數據上的分析和建模無疑是建立在空中樓閣上,將會與我們的期望和戰(zhàn)略背道而馳。因此,數據質量是我們大數據戰(zhàn)略的第一步,高質量和高標準的數據將決定我們的決定我們數據分析和應用的空間。
2.如何治理

同一個業(yè)務指標在不同的業(yè)務系統(tǒng)和數據庫里可以統(tǒng)計結果不一致。所以數據分析要從元數據和指標定義開始,到數據采集、數據產品、加工處理和分析建模各個環(huán)節(jié),影響范圍也比較廣,從業(yè)務需求、研發(fā)、上線、大數據相關所有部門和崗位,和數據治理、數據標準和數據架構都有相關影響。
2.1.數據產生
? ? ??數據治理的第一步,還是最關鍵的是就是數據的產生,大數據時代的數據來源多種多樣。有業(yè)務系統(tǒng)產生的客戶、交易、風控、理財和催收等數據,還有第三方合作提供的數據、日志、行為、爬蟲抓取的互聯網數據等。
數據從各個微服務系統(tǒng)、平臺、結構化數據庫、nosql數據庫、圖數據庫流進來,數據標準、元數據管理就非常重要,如何保證數據在源頭的標準化、完整性等問題。
2.2.數據存儲
? ? ??數據庫結構設計的時候,就要有數據標準,把可能分布在各個服務、平臺和系統(tǒng)中相同業(yè)務含義的字段統(tǒng)一命名、標準格式、標準精度。
杜絕存儲的時候,各系統(tǒng)缺乏統(tǒng)一的標準體系,各存各的。
2.3.數據處理
? ? ??數據處理階段首先把數據通過T+1或實時的方式歸口到數倉的ODS層中。在ODS層作數據整合和數據清洗。
? ? ??處理階段是數據分析作準備,這階段要處理的數據問題繁多,不同的問題需要使用不同的方式和手段。
2.4.數據分析
? ? ??數據分析階段要分層,按模型和業(yè)務主題建立寬表。具體在數據分析、數據挖掘和數據建模過程中,也會產生新的數據,此階段對加工過的數據口徑需要作統(tǒng)一管理。
3.1.元數據
? ? ??元數據管理范圍的不應僅僅局限于數據倉庫、數據集市以及其它數據,還應該將業(yè)務系統(tǒng)的元數據納入進來就行統(tǒng)一的管理,真正做到從源頭對元數據進行管理,作為對數據的完整生命周期進行管理。

元數據一般稱為稱為數據的數據,主要是描述數據屬性的信息。元數據幾乎可以稱為是數據倉庫和BI系統(tǒng)的靈魂,元數據在整個數據管理、數據分析和數據生命周期中有著至關重要的地位和用途。
? ? ??元數據在關系型數據庫中,其實就是數據結構,描述了數據的結構和意義。
數據表和視圖名稱和用途;
表里的字段名稱、數據類型、長度、精度和描述等;
表中的定義的約束;
表中定義的索引以及主鍵和外鍵的信息。
3.2.數據質量

3.2.1.數據完整性
? ? ??數據從外部系統(tǒng)傳入數據倉庫,在整個工作流程各個環(huán)節(jié)都有可能導致數據丟失、數據遺漏、無效數據或錯誤數據。
? ? ??數據校驗后對數據作補全處理,通過其它關聯的業(yè)務數據補全數據。
3.2.2.數據唯一性
? ? ??簡單的說,數據中存在重復記錄或重復字段,對于這些重復數據,需要做去重處理。
? ? ??對于重復項的判斷,基本思想是“排序和合并”,先將數據庫中的記錄按一定規(guī)則排序,然后通過比較鄰近記錄是否相似來檢測記錄是否重復。
? ? ??對于重復的數據項,盡量通過業(yè)務規(guī)則并進行整理提取出規(guī)則。在清洗轉換階段,對于重復數據項盡量不要輕易做出刪除,尤其不能將重要的或有業(yè)務意義的數據過濾掉,就算是刪除也盡管作邏輯刪除或歸檔處理,也要同時考慮其它數據庫的同步。
3.2.3.數據一致性
? ? ??由于數據源系統(tǒng)分散在各個業(yè)務線,很多業(yè)務指標和字段是各個業(yè)務部門共用的,但各個業(yè)務部門的使用場景和理解都不一樣。不同業(yè)務線對于數據的要求、理解和規(guī)格不同,導致對于同一數據對象描述規(guī)格完全不同,因此在清洗過程中需要統(tǒng)一數據規(guī)格并將一致性的內容抽象出來。
? ? ??需要建立一套標準的指標體系:
業(yè)務指標;
分組維度;
計量單位;
統(tǒng)計口徑;
時間頻率;
3.2.4.數據邏輯性
? ? ??數據異常和數據沖突的問題,數據不符合正常邏輯和基本的業(yè)務邏輯。不同的數據源對于數據統(tǒng)計沖突的問題,對業(yè)務有矛盾的記錄。
數據基本邏輯:日期格式、性別、身份證等;
基本計算規(guī)則:年齡、工齡等;
業(yè)務邏輯:理財金融、貸款利息、逾期天數等;
離群值人工特殊處理;
3.2.4.數據權威性
? ? ??同一個指標或者同一個業(yè)務數據存在多個數據源和數據庫中,但數據值不一致,這時候數據修正需要依賴有權威的平臺和數據來源。
? ? ??不同的數據來源設置不同的級別,有些數據修正可以按照級別來自動修正。
3.2.6.數據正確性
? ? ??正確的數據是此階段需要修正的,錯誤數據是在數據處理環(huán)節(jié)經常出來的問題,數據錯誤的形式有很多種:
數據長度錯誤;
數據類型錯誤;
數據格式錯誤;
業(yè)務范圍錯誤;
無效問題;
值域錯誤;
非空錯誤;
3.3.數據建模
? ? ??針對多業(yè)務部門的具體需求,除了提取相關業(yè)務指標外,應該對數據進行業(yè)務建模,建立各緯度的業(yè)務寬表。
數據降維:解決業(yè)務數據庫數據維度低或缺少維度的問題;
數據匯總:對工作流程和業(yè)務數據庫分散的數據作統(tǒng)一匯總和歸納;
數據計算:平均、加權、最大、最小值;
分組:數據分組、聚類;
語義轉換:碼表和數值類類型轉換或翻譯為業(yè)務語言;
主題模型:
a.客戶主題
b.帳戶主題
c.產品主題
d.客戶事件主題
4.1.目的
規(guī)范數據的生命周期,提高數據的管理水平;
優(yōu)化存儲結構和空間,控制數據規(guī)模并且優(yōu)化訪問效率;
提高對資源利用率,提高穩(wěn)定性和高效率;
有效的歷史數據管理和歸檔;
4.2.生命周期管理
? ? ??大數據時代的數據規(guī)模會隨著業(yè)務的高速發(fā)展逐漸增多,龐大的數據規(guī)模會導致系統(tǒng)的性能越來越低,嚴重會影響系統(tǒng)的處理速度、發(fā)并能力和可用性。因此所有的數據需要有生命周期的管理,控制大數據的規(guī)模、對歷史數據作好歸檔和清理的方案。
? ? ??降低數據規(guī)模的同時會降低數據的多項成本,要用最低的成本去利用數據最大的價值,減少系統(tǒng)的開銷、提高系統(tǒng)的性能。
5.總結
? ? ??數據治理在傳統(tǒng)金融行業(yè)解決這個問題需要簽一個千萬級別的項目,CEO親自牽頭的。
? ? ??數據治理的工作越早啟動成本越低,不要到數據質量無法收拾的時候才想起來作治理,數據治理的過程涉及到需求、研發(fā)、測試和大數據一整套環(huán)節(jié)的工作,越從前端治理成本越低。
? ? ??洗數據基本靠人肉,一個分析項目基本80%以上時間在洗數據,這是我們數據分析和建模團隊持續(xù)的痛苦。
? ? ??如果要提升企業(yè)競爭優(yōu)勢,以數據來驅動對業(yè)務的推動,首先解決和提高數據質量是一條必經之路。