沒有數(shù)據(jù)湖?可觀測性也許不再有效!

本文作者 B. Cameron Gain 是 ReveCom Media 的創(chuàng)始人和首席分析師。他對計算機(jī)的癡迷始于 1980 年代初,他熱衷于撰寫關(guān)于 IT 和技術(shù)的文章,其作品曾出現(xiàn)在《Wired》、《PC World》、《CIO》、《Technology Review》、《Popular Science》和《Automotive News》等知名媒體上。

原文鏈接:https://thenewstack.io/observability-without-a-data-lake-might-no-longer-work/

數(shù)據(jù)湖已成為許多企業(yè)在業(yè)務(wù)分析、產(chǎn)品執(zhí)行和可觀測性方面的重要組成部分。隨著企業(yè)意識到數(shù)據(jù)湖對可觀測性的重要性,那些能夠充分發(fā)揮數(shù)據(jù)湖潛力的企業(yè)與無法做到的企業(yè)之間,正逐漸形成一道越來越大的鴻溝。

統(tǒng)一采集,打破數(shù)據(jù)壁壘

創(chuàng)建一個數(shù)據(jù)湖不意味著企業(yè)必須完全重新設(shè)計其數(shù)據(jù)流,并為數(shù)據(jù)湖開發(fā)單獨(dú)的入口和 API,以適應(yīng)需要的遙測數(shù)據(jù)的獨(dú)立數(shù)據(jù)流。一個可觀測性數(shù)據(jù)湖應(yīng)能夠接受來自整個應(yīng)用堆棧的數(shù)據(jù),并將這些不同數(shù)據(jù)集的集成結(jié)合起來,以創(chuàng)建上下文。沒有數(shù)據(jù)湖所提供的廣泛數(shù)據(jù)收集,便缺乏靈活性,無法從整個應(yīng)用堆棧中的遙測數(shù)據(jù)源獲取數(shù)據(jù)。

用戶可能依賴 Prometheus 獲取指標(biāo),Jaeger 獲取鏈路,以及 Loki 獲取日志。借助數(shù)據(jù)湖,所有的遙測數(shù)據(jù)都被合并,而無需單獨(dú)重新配置和管理數(shù)據(jù)源。數(shù)據(jù)存儲在后端,當(dāng)用戶運(yùn)行查詢或使用儀表板時,用戶可以同時訪問追蹤數(shù)據(jù)、日志和指標(biāo)。Pod_Name = ‘XX’ 在所有三個流中是相同的,因此用戶在故障排查時,可以更直接地找到根本原因,而不需要通過三條不同的 SQL 查詢將遙測數(shù)據(jù)合并起來。


幾十年來,已經(jīng)投資于插樁的企業(yè)不愿意重新為其應(yīng)用程序和基礎(chǔ)設(shè)施進(jìn)行插樁。這就是為什么數(shù)據(jù)湖必須能夠容納各種類型的數(shù)據(jù),而不需要預(yù)定義的結(jié)構(gòu)。“可觀測性數(shù)據(jù)湖不應(yīng)該需要任何重新插樁。要求重新插樁是一個巨大的工作量,” Kloudfuse 的聯(lián)合創(chuàng)始人兼 CEO Pankaj Thakkar 表示?!跋喾矗瑪?shù)據(jù)湖應(yīng)該是開放的,能夠讀取所有現(xiàn)有的代理,無論是 Datadog 代理、New Relic 代理還是 OpenTelemetry 代理?!?/p>

數(shù)據(jù)在采集之前不需要被結(jié)構(gòu)化或解析——不需要 Grok 腳本,也不需要花費(fèi)數(shù)小時對數(shù)據(jù)進(jìn)行預(yù)處理(或標(biāo)記),然后才能用于可觀測性。理論上,任何數(shù)據(jù)類型都可以被傳輸并存儲在數(shù)據(jù)湖中。用戶應(yīng)該能夠?qū)⑵涫占髦赶驍?shù)據(jù)湖,數(shù)據(jù)在其中被解析并集成。整合所有可觀測性流涉及統(tǒng)一遙測數(shù)據(jù),將相關(guān)的數(shù)據(jù)集映射和鏈接在一起。所有遙測數(shù)據(jù)都存儲在一個數(shù)據(jù)湖中,使用開放的查詢語言和一致的 UI,便于更快地進(jìn)行關(guān)聯(lián)和故障排查。

正如 Gartner 分析師 Miraz 和 Edjlali 所寫,數(shù)據(jù)湖龐大的源數(shù)據(jù)存儲庫支持廣泛、靈活和無偏的數(shù)據(jù)探索,這是數(shù)據(jù)挖掘、統(tǒng)計學(xué)、機(jī)器學(xué)習(xí)和其他分析技術(shù)的前提條件。數(shù)據(jù)湖還可以提供可擴(kuò)展的高性能數(shù)據(jù)采集、準(zhǔn)備和處理,或者將數(shù)據(jù)提煉并加載到數(shù)據(jù)倉庫中,或者在數(shù)據(jù)湖中進(jìn)行處理,Miraz 和 Edjlali 補(bǔ)充道。

相反,依賴多個工具來監(jiān)控和觀察堆棧某一部分的組織,如果沒有數(shù)據(jù)湖,就需要多個后端來管理指標(biāo)、鏈路和日志,創(chuàng)建更多的工程負(fù)擔(dān)。不同數(shù)據(jù)流的分析必須手動集成,這會導(dǎo)致更慢的故障排查過程和額外的工程成本。

消滅數(shù)據(jù)孤島,實(shí)現(xiàn)全鏈路數(shù)據(jù)關(guān)聯(lián)

數(shù)據(jù)湖能夠去除數(shù)據(jù)孤島。沒有數(shù)據(jù)孤島后,實(shí)體之間的關(guān)系被創(chuàng)建,比如鏈路、日志、指標(biāo)等。用戶可以詢問關(guān)于其分布式系統(tǒng)中的相互依賴關(guān)系的任何問題。他們可以快速從用戶會話(RUM/前端可觀測性)鉆取到服務(wù)、指標(biāo),然后切換到日志,同時保持上下文,這樣用戶在故障排查時可以更快地獲得洞察。

本地部署,顯著節(jié)約成本

在本地部署的可觀測性數(shù)據(jù)湖可以隨著數(shù)據(jù)湖中數(shù)據(jù)的擴(kuò)展提供顯著的成本節(jié)省,客戶可以得到固定費(fèi)用(而不是根據(jù)他們對供應(yīng)商的使用或調(diào)用收費(fèi))。沒有超額費(fèi)用。例如,不需要為將數(shù)據(jù)通過網(wǎng)絡(luò)傳輸?shù)娇捎^測性 SaaS 供應(yīng)商而支付出口費(fèi)用。

這對成本限制至關(guān)重要,因?yàn)槊總€分析和查詢都很昂貴,尤其是對于按使用量收費(fèi)的 SaaS 平臺,如 DataDog。許多組織在將數(shù)據(jù)發(fā)送到 Datadog 進(jìn)行觀測之前,會先進(jìn)行數(shù)據(jù)裁剪。日志和鏈路通常占用了大量數(shù)據(jù),通常被稱為高基數(shù)數(shù)據(jù)。

“內(nèi)部數(shù)據(jù)湖使您能夠動態(tài)選擇何時使用大量數(shù)據(jù)進(jìn)行深入分析——例如在故障排查期間——以及何時依賴聚合數(shù)據(jù)以最小化計算和存儲成本。這種方法還使您能夠利用 AWS 或 GCP 等提供商提供的云折扣。” Kloudfuse 的聯(lián)合創(chuàng)始人兼 CTO Ashish Hanwadikar 表示。

不僅僅是存儲,更是高效可觀測性引擎

與專有的可觀測性解決方案不同,使用數(shù)據(jù)湖的可觀測性允許數(shù)據(jù)存儲由低成本的對象存儲(如 Amazon S3)處理,從而節(jié)省存儲成本。隨著數(shù)據(jù)量的增長,它可以擴(kuò)展而無需支付額外費(fèi)用。沒有單點(diǎn)故障;例如,當(dāng)文件配置為復(fù)制時,如果某個節(jié)點(diǎn)發(fā)生故障,集群仍然能夠繼續(xù)處理查詢。為了實(shí)現(xiàn)橫向擴(kuò)展,當(dāng)工作負(fù)載增加時,可以通過添加新節(jié)點(diǎn)來擴(kuò)展集群。


數(shù)據(jù)湖屋,融合數(shù)據(jù)湖與倉庫的創(chuàng)新架構(gòu)

對于可觀測性,實(shí)時分析和異常檢測至關(guān)重要。當(dāng)數(shù)據(jù)偏離既定模式時,必須及時識別這些差異,以確保采取主動響應(yīng)。

可觀測性數(shù)據(jù)湖提供了一個統(tǒng)一的存儲平臺,支持多種數(shù)據(jù)類型,并具有強(qiáng)大的數(shù)據(jù)處理和分析能力,能夠加快檢索速度和查詢性能。

這就是所謂的“數(shù)據(jù)湖屋”(Data Lakehouse)的概念,它將攝取和存儲多樣化數(shù)據(jù)集的靈活性(帶來快速加載速度)與傳統(tǒng)數(shù)據(jù)倉庫中結(jié)構(gòu)化數(shù)據(jù)組織典型的快速查詢響應(yīng)時間和高效處理分析相結(jié)合。然而,與傳統(tǒng)數(shù)據(jù)倉庫不同,數(shù)據(jù)湖屋適應(yīng)更廣泛的數(shù)據(jù)格式,同時提供大規(guī)模的分析和查詢性能。

實(shí)時 OLAP 設(shè)計(更接近數(shù)據(jù)湖屋概念)可以實(shí)現(xiàn)實(shí)時分析、監(jiān)控和告警。實(shí)時數(shù)據(jù)湖屋能夠處理大量數(shù)據(jù)和多個并發(fā)查詢,查詢延遲非常低。查詢可以是超低延遲、高查詢并發(fā)性,或者具有高數(shù)據(jù)新鮮度(數(shù)據(jù)流在攝取后立即可供查詢)。


定制化可觀測性,數(shù)據(jù)湖不是“現(xiàn)成的”

可觀測性的數(shù)據(jù)湖由一個集中式的遙測數(shù)據(jù)相關(guān)性存儲庫組成,這是一個可觀測性提供商應(yīng)該提供的功能。還需要將其他公共或私有數(shù)據(jù)源集成,以創(chuàng)建針對特定用例量身定制的 AI 代理,如根因分析、故障排查、預(yù)測、基礎(chǔ)設(shè)施即代碼支持以及來自 Copilot、Cursor 等的建議。然而,一個現(xiàn)成的 OLAP 或不符合這一標(biāo)準(zhǔn)的數(shù)據(jù)湖不能準(zhǔn)確地被描述為可觀測性數(shù)據(jù)湖。雖然數(shù)據(jù)湖可以促進(jìn)實(shí)時處理并幫助滿足擴(kuò)展需求,但它們?nèi)狈捎^測性能力,因?yàn)樗鼈儧]有內(nèi)置的知識產(chǎn)權(quán),使其專門為該用例設(shè)計。

必須提供無模式攝取和實(shí)時分析。因此,盡管 OLAP 或數(shù)據(jù)湖本身可以作為一個堅實(shí)的起點(diǎn),但沒有來自開源或供應(yīng)商特定遙測代理的無模式攝取,它們無法作為可觀測性數(shù)據(jù)湖,無法使數(shù)據(jù)為實(shí)時監(jiān)控和告警準(zhǔn)備好,如可觀測性用例所需。

除了實(shí)時攝取數(shù)據(jù)而無需預(yù)處理外,可觀測性數(shù)據(jù)湖還需要支持快速查詢性能和超低查詢延遲。這對于高查詢并發(fā)工作負(fù)載、根因分析和故障排查模式至關(guān)重要。合適的可觀測性數(shù)據(jù)湖應(yīng)該提供為查詢和分析開發(fā)的索引。

此外,為了管理存儲和高基數(shù)及維度遙測數(shù)據(jù),可觀測性數(shù)據(jù)湖應(yīng)該提供存儲和計算解耦,以及聚合、去重和壓縮技術(shù),以確保可觀測性數(shù)據(jù)的體積得到適當(dāng)存儲。

工作流和 AI 輔助故障排查

部署在 VPC 中的數(shù)據(jù)湖對于實(shí)現(xiàn)數(shù)據(jù)安全、隱私、安全性和駐留至關(guān)重要。這些安全的數(shù)據(jù)湖非常適合用于代理工作流,以支持 AI 輔助故障排查??梢詷?gòu)建代理 AI 故障排查應(yīng)用程序,它們可以生成并執(zhí)行查詢,而無需任何數(shù)據(jù)離開組織的邊界,從而確保完全的數(shù)據(jù)隱私和合規(guī)性。

組織還不需要將數(shù)據(jù)從昂貴的專有可觀察性數(shù)據(jù)中提取出來,以構(gòu)建這些工作流。想象一下,您需要支付費(fèi)用從 Datadog 中提取數(shù)據(jù)(并支付相關(guān)費(fèi)用),以構(gòu)建自定義代理工作流,將可觀察性數(shù)據(jù)與其他來源集成,以創(chuàng)建自定義工作流。第三,AI 代理依賴于大規(guī)模、高質(zhì)量的數(shù)據(jù)集才能有效,數(shù)據(jù)湖正是提供了這樣的數(shù)據(jù)。

LLM 可觀測性,為智能應(yīng)用構(gòu)建強(qiáng)大數(shù)據(jù)支撐

數(shù)據(jù)湖對 LLM 可觀測性至關(guān)重要,有兩個原因:使用 aRAG 架構(gòu),LLM 應(yīng)用程序由多個/鏈?zhǔn)降恼{(diào)用組成,一些調(diào)用到 LLM 模型,一些調(diào)用到外部函數(shù)、數(shù)據(jù)庫、知識庫等,在數(shù)據(jù)層連接所有這些部分需要一個強(qiáng)大的后端數(shù)據(jù)湖。與傳統(tǒng)的可觀測性類似,這些調(diào)用通過追蹤和跨度進(jìn)行跟蹤,識別不同調(diào)用的延遲和性能,并將故障與其他遙測數(shù)據(jù)(如日志和準(zhǔn)確的用戶監(jiān)控)關(guān)聯(lián)起來。數(shù)據(jù)湖可以將所有這些數(shù)據(jù)集聯(lián)系在一起,以提供完整的上下文和故障排查。

此外,許多調(diào)用是為了增強(qiáng) LLM 的響應(yīng)準(zhǔn)確性或領(lǐng)域知識,而一般目的的 LLM 不提供這些知識。通過 LLM 可觀測性,用戶可以不斷直接評估模型和 RAG 的質(zhì)量和可靠性,因?yàn)槭褂脭?shù)據(jù)湖中的數(shù)據(jù)——這些數(shù)據(jù)僅供組織訪問——這在沒有數(shù)據(jù)湖的情況下不一定是這樣。當(dāng)添加數(shù)據(jù)以微調(diào) LLM 應(yīng)用程序時,組織不希望將模型評估發(fā)送到組織的零信任安全層之外。

不僅僅是可觀測性

使用一個集中存儲庫的數(shù)據(jù)湖,已經(jīng)成為改善可觀測性的重要方式。AI 和 LLM 的出現(xiàn)進(jìn)一步擴(kuò)展和增強(qiáng)了可觀測性的范圍和能力。當(dāng)企業(yè)意識到這一點(diǎn)時,能夠通過數(shù)據(jù)湖實(shí)現(xiàn)強(qiáng)大可觀測性的企業(yè)與無法實(shí)現(xiàn)的企業(yè)之間的差距正在擴(kuò)大。AI、LLM 和數(shù)據(jù)庫技術(shù)及其在可觀測性中的應(yīng)用也將繼續(xù)發(fā)展。其影響將使數(shù)據(jù)湖成為企業(yè)實(shí)現(xiàn)其運(yùn)營和業(yè)務(wù)目標(biāo)的必要條件。

觀測云,海納百川的可觀測性數(shù)據(jù)湖

觀測云深刻理解數(shù)據(jù)湖在可觀測性中的核心作用,因而在平臺中集成了強(qiáng)大的相關(guān)功能。觀測云不僅支持對多源異構(gòu)數(shù)據(jù)的高效存儲和管理,還通過先進(jìn)的數(shù)據(jù)分析和可視化工具,幫助企業(yè)高效地管理和分析海量數(shù)據(jù),提升故障排查和性能優(yōu)化的效率。

通過觀測云的解決方案,企業(yè)能夠:

- 集中管理多樣化數(shù)據(jù):整合日志、指標(biāo)、追蹤等數(shù)據(jù),消除信息孤島,提升數(shù)據(jù)利用效率。

- 實(shí)時分析與預(yù)警:借助實(shí)時數(shù)據(jù)處理和智能預(yù)警機(jī)制,及時發(fā)現(xiàn)系統(tǒng)異常,降低故障影響。

- 優(yōu)化資源配置:基于全面的數(shù)據(jù)分析,合理分配系統(tǒng)資源,提升整體運(yùn)營效率。


面對數(shù)據(jù)量的激增和系統(tǒng)復(fù)雜度的提升,企業(yè)需要更為先進(jìn)的可觀測性解決方案。觀測云作為一款面向全技術(shù)棧的監(jiān)控觀測一體化產(chǎn)品,能夠幫助企業(yè)輕松構(gòu)建完整的監(jiān)控觀測體系。其核心模塊貫穿數(shù)據(jù)流動的各個環(huán)節(jié),提供實(shí)時數(shù)據(jù)監(jiān)測、日志與指標(biāo)管理、應(yīng)用性能監(jiān)測等功能。通過統(tǒng)一的數(shù)據(jù)采集、全面的數(shù)據(jù)監(jiān)控和無縫的關(guān)聯(lián)分析,觀測云為企業(yè)提供更快、更輕松、更全面的監(jiān)控觀測平臺。? ?

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容