一站式數(shù)據(jù)可觀測性平臺 Datavines 正式開源啦

Datavines是一站式開源數(shù)據(jù)可觀測性平臺,提供元數(shù)據(jù)管理、數(shù)據(jù)概覽報告、數(shù)據(jù)質(zhì)量管理,數(shù)據(jù)分布查詢、數(shù)據(jù)趨勢洞察等核心能力,致力于幫助用戶全面地了解和掌管數(shù)據(jù),讓您做到心中有數(shù),目前作為 Datavane 開源組織的重點推薦項目,正式開源,歡迎大家使用。

核心特性

數(shù)據(jù)目錄

  • 定時獲取數(shù)據(jù)源元數(shù)據(jù),構(gòu)造數(shù)據(jù)目錄

  • 定時監(jiān)聽元數(shù)據(jù)變更情況

  • 支持元數(shù)據(jù)的標(biāo)簽管理

數(shù)據(jù)目錄

數(shù)據(jù)質(zhì)量監(jiān)控

  • 內(nèi)置 27 個數(shù)據(jù)質(zhì)量檢查規(guī)則,開箱即用

  • 支持 4 種數(shù)據(jù)質(zhì)量檢查規(guī)則類型

    • 單表單列檢查類型

    • 單表自定義SQL檢查類型

    • 跨表準(zhǔn)確性檢查類型

    • 兩表值比對檢查類型

  • 支持配置定時任務(wù)進行定時檢查

  • 支持配置 SLA用于檢查結(jié)果告警

數(shù)據(jù)質(zhì)量檢查

數(shù)據(jù)概覽

  • 支持定時執(zhí)行數(shù)據(jù)探測,輸出數(shù)據(jù)概覽報告

  • 支持自動識別列的類型自動匹配合適的數(shù)據(jù)概況指標(biāo)

  • 支持表行數(shù)趨勢監(jiān)控

  • 支持列的數(shù)據(jù)分布情況查看

數(shù)據(jù)概覽

插件化設(shè)計

平臺以插件化設(shè)計為核心,以下模塊都支持用戶自定義插件進行擴展

  • 數(shù)據(jù)源:已支持 MySQL、ImpalaStarocks、Doris、Presto、Trino、ClickHouse、PostgreSQL
  • 檢查規(guī)則:內(nèi)置空值檢查、非空檢查、枚舉檢查等27個檢查規(guī)則
  • 作業(yè)執(zhí)行引擎:已支持SparkLocal兩種執(zhí)行引擎。Spark引擎目前僅支持Spark2.4版本,Local 引擎則是基于JDBC開發(fā)的本地執(zhí)行引擎,無需依賴其他執(zhí)行引擎。
  • 告警通道:已支持郵件
  • 錯誤數(shù)據(jù)存儲:已支持 MySQL本地文件(僅支持Local執(zhí)行引擎)
  • 注冊中心:已支持 MySQL、PostgreSQLZooKeeper

多種運行模式

  • 提供Web頁面配置檢查作業(yè)、運行作業(yè)、查看作業(yè)執(zhí)行日志、查看錯誤數(shù)據(jù)和檢查結(jié)果

  • 支持在線生成作業(yè)運行腳本,通過 datavines-submit.sh 來提交作業(yè),可與調(diào)度系統(tǒng)配合使用

作業(yè)腳本

容易部署&高可用

  • 平臺依賴少,容易部署

  • 最小僅依賴 MySQL 既可啟動項目,完成數(shù)據(jù)質(zhì)量作業(yè)的檢查

  • 支持水平擴容,自動容錯

  • 無中心化設(shè)計Server 節(jié)點支持水平擴展提高性能

  • 作業(yè)自動容錯,保證作業(yè)不丟失和不重復(fù)執(zhí)行

項目架構(gòu)

Datavines架構(gòu)圖

CatalogManager

CatalogManager 是負(fù)責(zé)管理元數(shù)據(jù)的組件,主要負(fù)責(zé)元數(shù)據(jù)的存儲、查詢以及元數(shù)據(jù)獲取任務(wù)的調(diào)度和容錯處理等。

DataQualityCenter

DataQualityCenter 是負(fù)責(zé)數(shù)據(jù)質(zhì)量管理的組件,主要負(fù)責(zé)數(shù)據(jù)質(zhì)量規(guī)則的管理、數(shù)據(jù)質(zhì)量作業(yè)的調(diào)度、執(zhí)行和自動容錯處理等。

快速上手

數(shù)據(jù)概覽

進行數(shù)據(jù)概覽只需下面3步:

  • 創(chuàng)建數(shù)據(jù)源(或者選擇創(chuàng)建好的數(shù)據(jù)源)
  • 點擊相應(yīng)的表
  • 點擊右上角 運行概覽 并選擇想要探查的列

數(shù)據(jù)質(zhì)量檢查

進行數(shù)據(jù)質(zhì)量檢查只需下面4步:

  • 點擊想要進行檢查的列,點擊 添加作業(yè)
  • 選擇 檢查規(guī)則 并填入?yún)?shù)
  • 選擇 檢查公式 ,比如 實際值/期望值 x100% ,填入比較符和閾值
  • 點擊保存并運行即可

加入我們

Datavines 的目標(biāo)是成為更好的數(shù)據(jù)可觀測性領(lǐng)域的開源項目,為更多的用戶去解決元數(shù)據(jù)管理和數(shù)據(jù)質(zhì)量管理中遇到的問題。在此我們真誠歡迎更多的貢獻者參與到社區(qū)建設(shè)中來,和我們一起成長,攜手共建更好的社區(qū)。

關(guān)于Datavane

Datavane是一個專注于大數(shù)據(jù)領(lǐng)域的開源組織(社區(qū)),由一群大數(shù)據(jù)領(lǐng)域優(yōu)秀的開源項目作者共同創(chuàng)建,旨在幫助開源項目作者更好的建設(shè)項目、為大眾提供高質(zhì)量的開源軟件,宗旨是:只為做一個好軟件。目前已經(jīng)聚集了一批優(yōu)質(zhì)的開源項目,涉及到數(shù)據(jù)集成、大數(shù)據(jù)組件管理、數(shù)據(jù)質(zhì)量等。

Datavane 社區(qū)中,所有的項目都是開源開放的,代碼質(zhì)量和架構(gòu)設(shè)計優(yōu)質(zhì)的潛力項目。社區(qū)保持開放中立、協(xié)作創(chuàng)造、堅持精品,鼓勵所有的開發(fā)者、用戶和貢獻者積極參與我們的社區(qū)、共同合作,創(chuàng)新創(chuàng)造,建設(shè)一個更加強大的開源社區(qū)。

Github: https://github.com/datavane

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容