數(shù)據(jù)可觀測性,下一個數(shù)據(jù)工程前沿

概述

隨著越來越多的數(shù)據(jù)在企業(yè)中被復(fù)制和移動,數(shù)據(jù)管道成為了數(shù)據(jù)的高速公路。數(shù)據(jù)管道的有效性和可靠性將愈發(fā)的重要。數(shù)據(jù)的可觀測性側(cè)重于管理數(shù)據(jù)的健康,不僅僅是監(jiān)控它。在數(shù)據(jù)管道中的每一個節(jié)點去檢測數(shù)據(jù)質(zhì)量以保證及時地發(fā)現(xiàn)問題,因此數(shù)據(jù)可觀測性將更有效地保證可靠有效的數(shù)據(jù)流,以確保業(yè)務(wù)團隊和公司高管能及時做出重要決策和采取行動。

為什么需要數(shù)據(jù)可觀測性?

數(shù)據(jù)指數(shù)級增長

由于全球性的數(shù)字化轉(zhuǎn)型和現(xiàn)代數(shù)字經(jīng)濟,數(shù)據(jù)量繼續(xù)呈指數(shù)級增長。根據(jù) IDC的數(shù)據(jù),2020年,全球范圍內(nèi)創(chuàng)建、捕獲、復(fù)制和消費的數(shù)據(jù)超過59 zettabytes(ZB)。預(yù)計強勁的數(shù)據(jù)增長將持續(xù)到2024年,五年復(fù)合年增長率(CAGR)為26%。

數(shù)據(jù)增長的一個主要因素是企業(yè)內(nèi)的復(fù)制數(shù)據(jù),這些數(shù)據(jù)通常用于分析。IDC估計數(shù)據(jù)(創(chuàng)建和捕獲)與復(fù)制數(shù)據(jù)(復(fù)制和消耗)的比率約為1:9。IDC預(yù)計,到2024年,這一比例將增長到1:10,復(fù)制的數(shù)據(jù)將會更多。

隨著越來越多的數(shù)據(jù)被復(fù)制和移動,數(shù)據(jù)在流動過程就會不可避免地出現(xiàn)丟失,格式轉(zhuǎn)換等問題,從而就會導(dǎo)致整個數(shù)據(jù)管道出錯或者最后的數(shù)據(jù)交付出錯,這對企業(yè)決策來說是非常嚴(yán)重的問題

數(shù)據(jù)源類型和數(shù)量增長快

隨著業(yè)務(wù)的發(fā)展,公司接入越來越多的外部數(shù)據(jù)源和內(nèi)部數(shù)據(jù)源用于數(shù)據(jù)分析,一旦其中任意一個數(shù)據(jù)源發(fā)生某種意料之外的變化,那么所分析的結(jié)果將會出現(xiàn)失之毫厘謬以千里的錯誤

數(shù)據(jù)管理越來越復(fù)雜

數(shù)據(jù)管道越來越復(fù)雜,一條普通的數(shù)據(jù)管道可能會存在成十上百個節(jié)點,這些節(jié)點又可能依賴于很多的數(shù)據(jù)集。數(shù)據(jù)工程師在開發(fā)過程對于他們管道中所依賴的數(shù)據(jù)集可見性又很低,任意一個數(shù)據(jù)集所做的任何更改都可能產(chǎn)生意想不到的后果,影響依賴數(shù)據(jù)資產(chǎn)的正確性。

數(shù)據(jù)問題類型多

數(shù)據(jù)問題可能由多種原因引起,但最常見的是:

數(shù)據(jù)監(jiān)管

數(shù)據(jù)隱私或其他數(shù)據(jù)法規(guī)的變化可能需要修改數(shù)據(jù)的收集、攝取、轉(zhuǎn)換或存儲方式,這可能會產(chǎn)生無法預(yù)料的問題。

人為錯誤

通常,數(shù)據(jù)問題是由簡單的人為錯誤引起的。有人在沒有意識到的情況下意外刪除了字段或列,或者在更新應(yīng)用程序時引入未經(jīng)測試的邏輯。

業(yè)務(wù)需求

對于同一份數(shù)據(jù)不同的使用者他們可能需要用到的數(shù)據(jù)是不一樣的。有些業(yè)務(wù)用戶可能不需要用到某個列就可能要求把它刪除掉,但是,使用相同數(shù)據(jù)集的其他人可能需要這個列的值,因此當(dāng)這一列的數(shù)據(jù)信息被刪除時,他們此時的分析就會不正確的。

關(guān)于導(dǎo)致數(shù)據(jù)問題的原因,最具挑戰(zhàn)性的方面之一是參與創(chuàng)建數(shù)據(jù)或更新應(yīng)用程序的人員通常沒有意識到他們所做更改的含義。并且不幸的是,這個問題通常要到數(shù)據(jù)價值鏈的末端才會被發(fā)現(xiàn)。

數(shù)據(jù)團隊規(guī)模逐漸變大

隨著公司的發(fā)展規(guī)模逐漸擴大,數(shù)據(jù)團隊的規(guī)模會逐漸擴大,分工也會更加細(xì),每個成員都專注于自己所負(fù)責(zé)的那部分工作內(nèi)容。跨團隊的協(xié)作必然會面臨溝通不暢或者通知不及時的問題,一旦上游團隊對數(shù)據(jù)管道中的某些數(shù)據(jù)或者數(shù)據(jù)集Schema進行修改而沒有及時通知管道下游團隊,那么可能就會損壞下游團隊的數(shù)據(jù)管道從而導(dǎo)致數(shù)據(jù)錯誤問題

數(shù)據(jù)可觀測性帶來什么

建立有效可靠的的數(shù)據(jù)管道

  • 跨各種數(shù)據(jù)庫、數(shù)據(jù)倉庫和數(shù)據(jù)湖地主動管理數(shù)據(jù)
  • 持續(xù)監(jiān)控數(shù)據(jù)流動,在數(shù)據(jù)流動過程中的每個節(jié)點自動執(zhí)行數(shù)據(jù)質(zhì)量檢查
  • 提供真正的端到端可靠性

及時且正確地交付數(shù)據(jù)

  • 確保數(shù)據(jù)在復(fù)制、轉(zhuǎn)換過程中始終保持完整、及時、準(zhǔn)確和有效,讓使用方可以在完整的背景下做出更準(zhǔn)確的決策,同時也更有效幫助企業(yè)管理數(shù)據(jù)風(fēng)險,避免數(shù)據(jù)違規(guī)。

讓數(shù)據(jù)驅(qū)動行動更有信心

  • 保證數(shù)據(jù)的準(zhǔn)確性能夠提高使用者對數(shù)據(jù)的信心,能夠更加有信心地根據(jù)數(shù)據(jù)得到的決策去進行行動

提高團隊問題處理能力

  • 能夠更快更精準(zhǔn)地定位問題,減少找尋問題根源的原因
  • 能夠更精確地進行告警,減少誤判帶來的告警煩擾

數(shù)據(jù)可觀測性在觀察什么?

當(dāng)談到數(shù)據(jù)健康程度時,我們可能會提出包括不僅限于以下問題:

  • 數(shù)據(jù)準(zhǔn)時到了嗎?
  • 所有的數(shù)據(jù)都到了嗎?
  • 數(shù)據(jù)送到哪里了?
  • 數(shù)據(jù)的格式正確嗎?
  • 數(shù)據(jù)目前的最終格式的是怎么得到?
  • 數(shù)據(jù)是否存在任何風(fēng)險?
  • 數(shù)據(jù)質(zhì)量的程度如何?
  • 這些數(shù)據(jù)有多有用和完整?

回答這些問題可以全面了解數(shù)據(jù)和數(shù)據(jù)管道的運行狀況。它還允許您的組織衡量數(shù)據(jù)的有效性和有效使用。讓我們更詳細(xì)地探討其中的每一個。

及時性

及時交付數(shù)據(jù)可以確保分析師和業(yè)務(wù)團隊利用新數(shù)據(jù)做出決策,并盡可能實時地看到趨勢。為了確保及時性,需要在基礎(chǔ)設(shè)施允許的情況下盡可能頻繁地自動化和運行數(shù)據(jù)健康管理

數(shù)據(jù)量

數(shù)據(jù)管道中不穩(wěn)定的數(shù)據(jù)量生產(chǎn)可能是管道破裂的一個指標(biāo),并可能在結(jié)果分析中造成不可預(yù)見的錯誤。因此不僅需要監(jiān)控總體數(shù)據(jù)量,還需要在管道內(nèi)的不同點設(shè)置檢查點,以便深入調(diào)查并確定數(shù)據(jù)管道的損壞位置。

數(shù)據(jù)傳輸

對于最終數(shù)據(jù)集和中間數(shù)據(jù)集,數(shù)據(jù)管道可以有多個交付點,分析師還可以擴展數(shù)據(jù)管道以生成衍生數(shù)據(jù)集。這需要監(jiān)控數(shù)據(jù)集是否正確交付到目的地,以及這些目的地是什么,以確保數(shù)據(jù)的正確使用。

格式

具有多個源和目的地的數(shù)據(jù)管道將以不同的格式處理和交付數(shù)據(jù)。這需要監(jiān)控格式和Schema的更改,防止它們破壞管道,并根據(jù)需要調(diào)整管道邏輯。

數(shù)據(jù)血緣

數(shù)據(jù)管道的端到端血緣非常重要,原因有很多,包括數(shù)據(jù)治理、法規(guī)遵從性,以及建立對數(shù)據(jù)的信任。這需要一個完整、詳細(xì)的數(shù)據(jù)血緣,以跟蹤每個源、轉(zhuǎn)換和目標(biāo)。

數(shù)據(jù)風(fēng)險

數(shù)據(jù)風(fēng)險考慮了從安全、隱私和監(jiān)管控制中暴露數(shù)據(jù)的風(fēng)險。雖然數(shù)據(jù)隱私團隊可以管理整個過程,但數(shù)據(jù)管理團隊?wèi)?yīng)持續(xù)監(jiān)控、評估和管理其數(shù)據(jù)管道內(nèi)的風(fēng)險。

數(shù)據(jù)質(zhì)量和一致性

不完整且不一致的數(shù)據(jù)會在最終分析中造成潛在漏洞,導(dǎo)致決策不理想,企業(yè)對數(shù)據(jù)的信任度較低。數(shù)據(jù)管理團隊需要不斷測量和監(jiān)控數(shù)據(jù)質(zhì)量和完整性,并能夠深入了解、識別和修復(fù)問題。

數(shù)據(jù)完整性

同樣,數(shù)據(jù)質(zhì)量差會阻礙數(shù)據(jù)的使用和信任,數(shù)據(jù)完整性也會提高決策的準(zhǔn)確性和上下文。數(shù)據(jù)管理團隊需要監(jiān)控數(shù)據(jù)的完整性,并與分析和業(yè)務(wù)部門合作,以最大限度地提高有用性和完整性。

數(shù)據(jù)可觀測性的特性

必備的特性

  • 對數(shù)據(jù)管道中執(zhí)行的抽取、轉(zhuǎn)換、分析等作業(yè)都能進行耗時、數(shù)據(jù)量等監(jiān)控
  • 在從源到中間到目標(biāo)的數(shù)據(jù)管道中,每個節(jié)點都有一組豐富而詳細(xì)的用于數(shù)據(jù)質(zhì)量監(jiān)控的數(shù)據(jù)剖析,進行全面查看和深入研究
  • 擁有數(shù)據(jù)管道中從源到轉(zhuǎn)換到目的地完整的數(shù)據(jù)血緣
  • 在源數(shù)據(jù)和目標(biāo)數(shù)據(jù)之間執(zhí)行行、列、一致性和值檢查等,以識別丟失的記錄和破裂的關(guān)系。
  • 擁有可操作的警報和通知,可以與郵箱、微信、Slack等任何生產(chǎn)效率和協(xié)作工具集成,實現(xiàn)對所有數(shù)據(jù)的持續(xù)監(jiān)控
  • 變化監(jiān)控,幫助您監(jiān)視對屬性或特定數(shù)據(jù)集所做的任何更改。它還監(jiān)視并提醒您對數(shù)據(jù)中的邏輯結(jié)構(gòu)或模式對象集合所做的任何更改。
  • 能夠集成到數(shù)據(jù)集成工具中用于檢查數(shù)據(jù)質(zhì)量

高階的特性

  • 自動發(fā)現(xiàn)和自適應(yīng)數(shù)據(jù)質(zhì)量規(guī)則
    • 利用機器學(xué)習(xí)生成可解釋且自主的數(shù)據(jù)質(zhì)量規(guī)則。減少手動規(guī)則編寫和錯誤,以增加對數(shù)據(jù)的信任。
  • 統(tǒng)一計分和個性化告警
    • 利用統(tǒng)一的評分系統(tǒng)跨所有數(shù)據(jù)源生成數(shù)據(jù)健康報告,發(fā)送個人警報,允許用戶主動檢測、上報和糾正數(shù)據(jù)質(zhì)量問題。
  • 數(shù)據(jù)屏蔽
    • 自動理解語義模式,以便在數(shù)據(jù)質(zhì)量檢查期間對敏感數(shù)據(jù)進行分類和屏蔽。
  • 現(xiàn)成的自適應(yīng)閾值
    • 提供現(xiàn)成的自適應(yīng)自動閾值,消除了手動規(guī)則和微調(diào)的需要。使用此功能和漂移規(guī)則配置功能對整個組織中的任何屬性進行基準(zhǔn)測試和監(jiān)視。
  • 創(chuàng)建自己的行為分析
    • 數(shù)據(jù)質(zhì)量監(jiān)控功能允許您創(chuàng)建自己的行為分析,使用時間序列比較進行多屬性、預(yù)測、分析和可視化。
  • 擁有每個數(shù)據(jù)管道內(nèi)數(shù)據(jù)的數(shù)據(jù)安全和隱私方面的完整視圖,用于數(shù)據(jù)風(fēng)險評估和觀察

開始數(shù)據(jù)可觀測性的5個步驟

您可以采取下面5個步驟來開展數(shù)據(jù)可測性工作:

了解數(shù)據(jù)資產(chǎn)和數(shù)據(jù)治理

  • 數(shù)據(jù)資產(chǎn)管理是關(guān)于如何將數(shù)據(jù)以及數(shù)據(jù)產(chǎn)生的信息為企業(yè)資產(chǎn)以達到企業(yè)目標(biāo)的一組業(yè)務(wù)職能。數(shù)據(jù)治理與數(shù)據(jù)資產(chǎn)管理齊頭并進,以確保使用方能訪問在整個生命周期中被正確理解并在正確上下文中使用的可信數(shù)據(jù)。

了解數(shù)據(jù)質(zhì)量

  • 了解數(shù)據(jù)質(zhì)量主要檢查什么,如何去改進數(shù)據(jù)質(zhì)量問題,以及數(shù)據(jù)可觀察性如何幫助大規(guī)模修復(fù)數(shù)據(jù)質(zhì)量。

確定組織中的角色和職責(zé)

  • 數(shù)據(jù)工程師和 DataOps 工程師監(jiān)控和防止數(shù)據(jù)質(zhì)量錯誤,管理數(shù)據(jù)質(zhì)量流程,并專注于提高系統(tǒng)性能。
  • BI 分析師、數(shù)據(jù)分析師和數(shù)據(jù)科學(xué)家有助于提高跨數(shù)據(jù)源和模型的質(zhì)量。
  • 數(shù)據(jù)戰(zhàn)略家和業(yè)務(wù)領(lǐng)導(dǎo)者確保業(yè)務(wù)和數(shù)據(jù)戰(zhàn)略的正確對齊,優(yōu)化資源并領(lǐng)導(dǎo)擬議的計劃。

評估數(shù)據(jù):

對數(shù)據(jù)可觀測性的五個支柱的數(shù)據(jù)進行評估:

  • 數(shù)量:您的數(shù)據(jù)是否符合要求?是否完整?該支柱提供對健康狀況或您的數(shù)據(jù)系統(tǒng)的洞察,在健康狀況受到損害時發(fā)出警報。
  • 新鮮度:您的數(shù)據(jù)是最新的嗎?它的新鮮度是多少?有沒有差距?數(shù)據(jù)的新鮮度對于分析和數(shù)據(jù)驅(qū)動的決策至關(guān)重要。
  • 分布:您的數(shù)據(jù)字段值是否在可接受的范圍內(nèi)?數(shù)據(jù)的值在適當(dāng)范圍內(nèi)能建立對數(shù)據(jù)的信任。空值或任何異常值都可能表明數(shù)據(jù)的運行狀況存在問題。
  • Schema:您的數(shù)據(jù)管理系統(tǒng)的數(shù)據(jù)結(jié)構(gòu)是否發(fā)生了變化?如果改變了,誰做了什么改變,什么時候改變?這些數(shù)據(jù)表明數(shù)據(jù)系統(tǒng)的健康狀況。
  • Lineage:您是否全面了解您的數(shù)據(jù)環(huán)境?您的上游和下游數(shù)據(jù)源是如何關(guān)聯(lián)的?您知道誰在哪個階段與您的數(shù)據(jù)交互嗎?數(shù)據(jù)血緣提供了對治理以及是否遵循正確做法的理解。

這些支柱與數(shù)據(jù)質(zhì)量維度密切相關(guān)。

選擇工具

選擇一個可擴展、自動化和預(yù)測性的數(shù)據(jù)質(zhì)量工具,讓所有人都能在錯誤損害您的業(yè)務(wù)之前發(fā)現(xiàn)它們

最后,開始你的數(shù)據(jù)可測性之旅吧

參考:

https://www.montecarlodata.com/data-observability-the-next-frontier-of-data-engineering/
https://blog.panoply.io/data-observability-platforms
https://www.kensu.io/blog/ebook-a-guide-to-understanding-data-observability
https://www.castordoc.com/blog/data-monitoring-and-observability
https://analyticsindiamag.com/top-data-observability-platforms-for-monitoring-data-quality-at-scale/
https://www.collibra.com/us/en/blog/defining-data-observability

加入我們

Datavines 的目標(biāo)是成為更好的數(shù)據(jù)可觀測性領(lǐng)域的開源項目,為更多的用戶去解決元數(shù)據(jù)管理和數(shù)據(jù)質(zhì)量管理中遇到的問題。在此我們真誠歡迎更多的貢獻者參與到社區(qū)建設(shè)中來,和我們一起成長,攜手共建更好的社區(qū)。

關(guān)于Datavane

Datavane是一個專注于大數(shù)據(jù)領(lǐng)域的開源組織(社區(qū)),由一群大數(shù)據(jù)領(lǐng)域優(yōu)秀的開源項目作者共同創(chuàng)建,旨在幫助開源項目作者更好的建設(shè)項目、為大眾提供高質(zhì)量的開源軟件,宗旨是:只為做一個好軟件。目前已經(jīng)聚集了一批優(yōu)質(zhì)的開源項目,涉及到數(shù)據(jù)集成、大數(shù)據(jù)組件管理、數(shù)據(jù)質(zhì)量等。

Datavane 社區(qū)中,所有的項目都是開源開放的,代碼質(zhì)量和架構(gòu)設(shè)計優(yōu)質(zhì)的潛力項目。社區(qū)保持開放中立、協(xié)作創(chuàng)造、堅持精品,鼓勵所有的開發(fā)者、用戶和貢獻者積極參與我們的社區(qū)、共同合作,創(chuàng)新創(chuàng)造,建設(shè)一個更加強大的開源社區(qū)。

Github: https://github.com/datavane

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容