可觀測性 4.0:教系統(tǒng)如何思考

我們建造了會(huì)發(fā)射一切的系統(tǒng),卻從未教它們什么才是重要的。

它揭示了一個(gè)我們刻意回避的事實(shí):在可觀測性領(lǐng)域,“收集一切”已經(jīng)變成了一個(gè)優(yōu)雅的借口。我們用存儲(chǔ)成本下降來為自己的貪婪辯護(hù),用“未來可能有用”來掩蓋當(dāng)下的無意義。當(dāng)數(shù)據(jù)量突破某個(gè)臨界點(diǎn),信號(hào)就變成了噪音,理解讓位于搜索,洞察退化為排查,做的事永遠(yuǎn)是頭疼醫(yī)頭,腳疼醫(yī)腳。

但真正的理解系統(tǒng)不是這樣,這是我們作為工程師群體的集體失職。

Mezmo CEO 塔克·卡拉韋說了一句讓所有人笑完之后沉默的話:“可觀測性用法語說就是存儲(chǔ)。”

笑是因?yàn)樗f的是真話。沉默是因?yàn)槲覀儼l(fā)現(xiàn)自己無可辯駁。

01

過去十年,可觀測性的敘事是這樣的:存儲(chǔ)便宜,彈性計(jì)算唾手可得,每多收集一條數(shù)據(jù),就多一分發(fā)現(xiàn)問題的可能。這個(gè)邏輯曾經(jīng)成立。

現(xiàn)在它成了債務(wù)。

被動(dòng)收集模式有一個(gè)殘酷的數(shù)學(xué)特性:成本線性增長,價(jià)值指數(shù)衰減。每加一條指標(biāo),每多一個(gè)追蹤跨度,支出的增長是確定的,但它們帶來的理解增長卻恰恰相反——當(dāng)數(shù)據(jù)海洋足夠?qū)拸V,有意義的信號(hào)反而被稀釋到難以辨認(rèn)。

我們以為自己在監(jiān)控一切。其實(shí)我們只是在囤積。

更隱蔽的危機(jī)發(fā)生在認(rèn)知層面?,F(xiàn)代運(yùn)維人員面對(duì)的不是信息匱乏,而是選擇過載。儀表板淪為噪音發(fā)射器,事件調(diào)查變成了過濾練習(xí)——從上百條相關(guān)日志中挑出真正有用的那一條。認(rèn)知過載、誤判疲勞、面對(duì)海量數(shù)據(jù)卻無從下手的無力感,正在系統(tǒng)性地侵蝕整個(gè)行業(yè)的注意力和信心。

諷刺的是,我們用更多的數(shù)據(jù)來試圖解決數(shù)據(jù)過多的問題。

這就像用更多的演講來解決溝通過多的問題一樣。

02

AI 本應(yīng)是救贖。

現(xiàn)實(shí)是,它放大了我們的問題。

訓(xùn)練于嘈雜、非上下文數(shù)據(jù)上的模型,繼承了它創(chuàng)造者的混沌。行業(yè)數(shù)據(jù)顯示,事件分揀仍然耗費(fèi)每事件 1 到 6 美元,需要 12 到 27 次工具調(diào)用,失敗率居高不下。即便是最先進(jìn)的自動(dòng)化管道,也難以擺脫一個(gè)根本瓶頸:輸入本身就是垃圾。

機(jī)器學(xué)習(xí)不會(huì)超越數(shù)據(jù)質(zhì)量。它成倍放大后果。

一個(gè)被錯(cuò)誤標(biāo)注的日志,一個(gè)缺失的追蹤跨度,會(huì)通過嵌入層、向量存儲(chǔ)和推理層級(jí)聯(lián)傳播,最終輸出自信但錯(cuò)誤的結(jié)論。模型越大,誤會(huì)越昂貴

這才是真正令人警醒的事實(shí):即便擁有最先進(jìn)的大語言模型和異常檢測器,人工智能在人類最擅長的領(lǐng)域仍然一敗涂地——**上下文的推理**。

它能看見模式。但它無法將模式置于情境(Context)之中。

沒有服務(wù)拓?fù)?,沒有近期部署,沒有用戶行為,上下文就是空的,AI Agent 只是在追逐統(tǒng)計(jì)幽靈。


03

有一個(gè)被遺忘的中間層,正在悄悄重塑整個(gè)行業(yè)。

數(shù)據(jù)工程優(yōu)化吞吐量??捎^測性優(yōu)化可見性。AI 優(yōu)化預(yù)測。但從來沒有一個(gè)學(xué)科優(yōu)化意義(Meaning)。

直到現(xiàn)在。

上下文工程——它不取代上述任何學(xué)科,而是連接它們。它定義了信息在系統(tǒng)間應(yīng)該如何表現(xiàn):如何承載意圖(Intent)、溯源(Lineage)、所有權(quán)(Ownship)和重要性(Significance)。


你可以把它想象成主動(dòng)遙測的神經(jīng)系統(tǒng)。允許信號(hào)帶著理解流動(dòng),而不僅僅是流動(dòng)。

傳統(tǒng)數(shù)據(jù)倉庫(Data Warehouse)是靜態(tài)的——**存儲(chǔ)發(fā)生了什么**。上下文圖(Context Graphs)是動(dòng)態(tài)的——代表**事情如何以及為何發(fā)生**。

它將事件(Events)、實(shí)體(Entity)、原因(Reason)連接成一個(gè)活的知識(shí)層。每個(gè)節(jié)點(diǎn)是一個(gè)活生生的實(shí)體:服務(wù)、部署、用戶事務(wù)、配置文件,甚至 AI Agent。每條邊描述關(guān)系——所有權(quán)、因果、時(shí)間順序。因?yàn)檫@些圖實(shí)時(shí)演變,它們成為自我解釋系統(tǒng)的基礎(chǔ)。

一個(gè)構(gòu)建良好的上下文圖(Context Graphs),可以讓這樣的查詢得到即時(shí)解決:“昨晚 us-east-1 的延遲峰值,最有可能是誰部署的哪個(gè)變更觸發(fā)的?”


無需翻閱 PB 級(jí)日志。一個(gè)問題,一秒回答。

這就是意義(Meaning)的力量。

04

可觀測性的第四個(gè)時(shí)代,關(guān)于系統(tǒng)本身參與自身的理解。

- 第一個(gè)時(shí)代關(guān)于可見性,主要圍繞日志、指標(biāo)和鏈路三大支柱展開。

- 第二個(gè)時(shí)代關(guān)于關(guān)聯(lián)性,可觀測性 2.0 試圖解決 1.0 的不足,轉(zhuǎn)向統(tǒng)一的數(shù)據(jù)模型。通過整合日志、指標(biāo)和鏈路,團(tuán)隊(duì)能夠在同一平臺(tái)上分析數(shù)據(jù)并提出更多有意義的問題。

- 第三個(gè)時(shí)代,讓人類逐漸理解系統(tǒng),給了人類有效地采取行動(dòng)的能力。

- 現(xiàn)在第四個(gè)時(shí)代來臨了,系統(tǒng)本身參與自身的理解——遙測(Telemetry)不再是反映情況的鏡子,而是交互的界面

主動(dòng)遙測(Active Telemetry)意味著數(shù)據(jù)不再是被動(dòng)收集的產(chǎn)物,而是積極參與系統(tǒng)運(yùn)作的 Agent。

自我描述——攜帶來源、所有權(quán)、相關(guān)性的元數(shù)據(jù)。它自適應(yīng)——根據(jù)消費(fèi)者是誰來調(diào)整自己的形態(tài)。它前饋(Feeds forward)——以鏈接因果的方式引導(dǎo)人類和 AI 決策。

舉一個(gè)具體的例子。

一個(gè)結(jié)賬服務(wù)的延遲峰值,在不同場景下發(fā)出的遙測數(shù)據(jù)(Telemetry)截然不同。正常運(yùn)行期間,它可能只產(chǎn)生粗粒度指標(biāo)。部署窗口期間,它豐富追蹤數(shù)據(jù),附帶提交 ID、部署策略、負(fù)責(zé)人元數(shù)據(jù)。事件期間,它提高保真度,抑制非關(guān)鍵噪音,優(yōu)先處理與用戶影響相關(guān)的信號(hào)。

同一個(gè)信號(hào),三種形態(tài)。

因?yàn)樗哪康淖兞恕?/p>

這就是主動(dòng)遙測(Active Telemetry)的核心哲學(xué):數(shù)據(jù)的目的不是記錄發(fā)生了什么,而是影響接下來會(huì)發(fā)生什么。

05

當(dāng)遙測變得智能,上下文變得明確,系統(tǒng)可以開始閉環(huán)自己的循環(huán)。

它們感知,解釋,響應(yīng)。從曾經(jīng)只告知人類的相同上下文中汲取營養(yǎng)。

觀察和操作之間的邊界消失了。儀表板變成了對(duì)話。

這帶來了一個(gè)根本性的轉(zhuǎn)變:自動(dòng)化是關(guān)于規(guī)模的——做得更多、更快。自主性是關(guān)于判斷力的——決定做什么、何時(shí)做、為什么做。

在自主運(yùn)營的核心是代理層——三種類型的智能體正在浮現(xiàn):

1. 顧問型 Agent 呈現(xiàn)建議(Recommendations)和置信度評(píng)分假設(shè)(Confidence-scored Hypotheses)。

2. 助手型 Agent 在監(jiān)督(Supervision)下執(zhí)行常規(guī)操作。

3. 自主型 Agent 在上下文和風(fēng)險(xiǎn)被充分理解的情況下內(nèi)獨(dú)立行動(dòng)。

想象一下:不再是 PagerDuty 把你叫醒,而是 Agent 在故障發(fā)生前 30 分鐘就已經(jīng)模擬了回滾方案,等你只是來按確認(rèn)鍵。

這不是關(guān)于取代人類。這是關(guān)于擴(kuò)大機(jī)器可以安全行動(dòng)的范圍——因?yàn)樯舷挛淖屢鈭D(Intent)變得可讀。

但有一個(gè)前提:信任。

沒有工程師會(huì)輕易將控制權(quán)交給 AI。信任不是授予的,是賺取的。每個(gè)自主決策必須可解釋:哪些信號(hào)觸發(fā)了它?推斷了什么因果鏈?模擬和拒絕了哪些行動(dòng)(Action)?

可解釋性(Explainability)將扮演無可替代的角色。

并且在 AI Agent 操作系統(tǒng)的整個(gè)流程中,人類需要確保 AI 的行動(dòng)嚴(yán)格匹配行動(dòng)的意圖(Intent)。


06

回到最初的問題。

“目前團(tuán)隊(duì)失敗不是因?yàn)槿狈?shù)據(jù),”塔克·卡拉韋說?!八麄儝暝且?yàn)閿?shù)據(jù)缺乏意義?!?/p>

這句話指向一個(gè)更深的轉(zhuǎn)變。

遙測(Telemetry)不再是系統(tǒng)行為之后發(fā)射的信息——它是系統(tǒng)行為本身的一部分。

當(dāng)信號(hào)(Signal)不僅僅是被觀察,而是被真正理解運(yùn)用。可觀測性就變成了架構(gòu)決策,而非工具選擇。

這意味著:

- 有意義的數(shù)據(jù)生而有目的——信號(hào)(Signal)存在是因?yàn)樗С帜硞€(gè)決策(Decision)或強(qiáng)化某種已知行為,而非因?yàn)槟承性\斷代碼恰好被留在代碼庫里。

- 有意義的數(shù)據(jù)在移動(dòng)前被塑形——減少(Reduction)、豐富(Enrichment)、過濾(Filtering)和路由(Routing)在數(shù)據(jù)原點(diǎn)附近發(fā)生,存儲(chǔ)后端不再承擔(dān)全部解釋負(fù)擔(dān)。

- 有意義的數(shù)據(jù)與系統(tǒng)目標(biāo)對(duì)齊——遙測(Telemetry)反映服務(wù)級(jí)意圖、用戶影響和業(yè)務(wù)意義。

自主性不來自高數(shù)據(jù)量。自主性來自有意義的數(shù)據(jù)。

07

我們正在見證一種新型企業(yè)的崛起。

AI 不再是對(duì)基礎(chǔ)設(shè)施的附加——它正在成為基礎(chǔ)設(shè)施本身。未來的贏家,是那些把上下文視為戰(zhàn)略資本的組織。

三種力量匯聚:

1. 可觀測性成為 AI Agent 的基礎(chǔ)設(shè)施。你的遙測層不再作為被動(dòng)監(jiān)控底層運(yùn)行,而是成為為組織各處推理 Agent 提供動(dòng)力的感官系統(tǒng)。

2. 上下文工程成為競爭優(yōu)勢。在每個(gè)人都可以訪問相同模型的世界里,上下文成為真正的差異化因素。兩家公司用同一個(gè)模型——一個(gè)提供原始日志,另一個(gè)提供結(jié)構(gòu)化、語義一致、領(lǐng)域感知的信號(hào)。只有后者實(shí)現(xiàn)真正的智能。

3. 智能遙測產(chǎn)生網(wǎng)絡(luò)效應(yīng)(Network effects)。系統(tǒng)產(chǎn)生的上下文越多,AI Agent 能理解的越多。AI Agent 理解越多,行動(dòng)越有效。行動(dòng)越有效,遙測越清晰有意義。這是一種運(yùn)營復(fù)利。

企業(yè)變得更聰明,不是因?yàn)楦喙ぞ?,而是因?yàn)橐饬x的協(xié)調(diào)。

08

“我們建造了會(huì)發(fā)射一切的系統(tǒng),卻從未教它們什么才是重要的?!?/p>

我們這代人面對(duì)的挑戰(zhàn),不是讓機(jī)器更聰明。

是讓我們自己更清楚——什么才是真正重要的,包括人類對(duì)自己行動(dòng)的理解。

當(dāng)可觀測性變成理解力(Comprehension),當(dāng)上下文變成認(rèn)知(Cognition),當(dāng)自主性變成協(xié)作(Collaboration),工程就變成了人類判斷和機(jī)器清晰度之間的伙伴關(guān)系。

這不是機(jī)器取代工程師的未來。

是機(jī)器理解系統(tǒng),讓我們更好理解我們正在構(gòu)建的世界的未來。

智能運(yùn)營(Intelligent Operation)的新時(shí)代,不由工具定義,不被儀表板限制。

它由一個(gè)哲學(xué)轉(zhuǎn)變界定:我們不再教系統(tǒng)發(fā)生了什么。

Observe. Reason. Act. 從記錄,到理解,到行動(dòng)。我們教它們?nèi)绾嗡伎肌?/p>


---

參考來源:本文核心觀點(diǎn)提煉自 O'Reilly 技術(shù)報(bào)告《Context Engineering for Observability》,作者深入分析了現(xiàn)代可觀測性面臨的人機(jī)雙重危機(jī),并提出了"主動(dòng)遙測"、"上下文工程"及"自主運(yùn)維"三大架構(gòu)演進(jìn)方向。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容