解鎖可觀測性密碼:一文掌握觀測云日志監(jiān)控器超能力

觀測云提供一站式云、云原生、應用及業(yè)務的可觀測解決方案,日志監(jiān)控器是其核心功能之一,它不僅僅是一個被動的日志收集和存儲工具,更是一個主動、智能的日志分析與監(jiān)控告警平臺。它的設計目標是幫助開發(fā)、運維和業(yè)務團隊從海量的日志數(shù)據(jù)中快速發(fā)現(xiàn)問題、定位根因并及時響應。日志監(jiān)控器的核心價值在于將非結(jié)構(gòu)化的日志數(shù)據(jù)轉(zhuǎn)化為可觀測的結(jié)構(gòu)化信息,并通過監(jiān)控和告警機制,使其成為保障系統(tǒng)穩(wěn)定性和業(yè)務連續(xù)性的有力工具。

通知對象

觀測云支持向釘釘、企業(yè)微信、飛書等渠道發(fā)送通知,使用時需要先創(chuàng)建通知對象。點擊「監(jiān)控」 -「通知對象管理」-「新建通知對象」。


填寫消息推送機器人的 Webhook 地址。


告警策略

點擊「監(jiān)控」 -「告警策略管理」-「新建告警策略」。通過關(guān)聯(lián)監(jiān)控器與告警策略,系統(tǒng)可在異常發(fā)生時即時向指定對象發(fā)送通知。策略支持配置名稱、描述、時區(qū)與操作權(quán)限等基礎(chǔ)信息,并允許按告警等級、通知對象兩個維度靈活定義通知規(guī)則。針對高緊急度場景可啟用升級通知機制,同時支持自定義通知發(fā)送時段,以適配不同時段的業(yè)務需求。


日志監(jiān)控器

「監(jiān)控」 -「監(jiān)控器」-「新建監(jiān)控器」,選擇“日志檢測”,依次配置“檢測配置”、“事件通知”、“告警配置”。

檢測配置

如下圖是按主機和服務的維度,統(tǒng)計 5 分鐘內(nèi) mall-admin 服務中狀態(tài)是 error 的日志條數(shù)。


當錯誤數(shù)大于等于 2 條時觸發(fā)致命告警。


事件內(nèi)容

支持自定義事件通知的標題與內(nèi)容。

插入日志變量

點擊"變量"選擇需要展示的變量名,比如 host、service。


插入鏈接

點擊“鏈接”插入日志查看地址,實現(xiàn)告警界面一鍵跳轉(zhuǎn)到觀測云。


附加信息

點擊"添加附加信息"選擇日志字段(如 message),在告警內(nèi)容中展示。


點擊“變量”插入 {{df_related_data.message}},建議截取前200字符避免超出告警工具長度限制。


告警策略

配置告警策略后,系統(tǒng)將向?qū)獙ο蟀l(fā)送通知。


恢復事件

連續(xù)兩個周期無異常觸發(fā)恢復事件,留空則不發(fā)送。


告警通知

告警觸發(fā)后,事件中心關(guān)聯(lián)事件的“通知”列顯示企微圖標即表示推送成功。


在企微機器人群收到如下信息。


問題排查

企微未收到告警時,請在“事件中心”查找對應事件:

- 無事件:檢查監(jiān)控器DQL配置

- 事件存在但通知列無企微圖標:檢查通知對象與靜默期設置

- 通知列有企微圖標:可能因告警過于頻繁觸發(fā)Webhook限流

無事件排查

打開監(jiān)控器,復制上方的 DQL。


復制出來的 DQL 如下:

```

window("L('default')::RE(`.*`):(count(`*`)) { `service` = \"mall-admin\" AND `status` = \"error\" } BY `service`, `host`", '5m')

```

打開「快捷入口」 -「DQL 查詢」,粘貼 DQL,去掉外層的 windows 函數(shù),去掉轉(zhuǎn)義,檢測區(qū)間選擇和監(jiān)控器相同,點擊“執(zhí)行”。如果無數(shù)據(jù)則不會觸發(fā)告警。


?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容