OneAlert 入門(三)——事件分析

OneAlert 是國(guó)內(nèi)首個(gè) SaaS 模式的云告警平臺(tái),集成國(guó)內(nèi)外主流監(jiān)控/支撐系統(tǒng),實(shí)現(xiàn)一個(gè)平臺(tái)上集中處理所有 IT 事件,提升 IT 可靠性。有了 OneAlert,你可以更快更合理地為事件劃分優(yōu)先級(jí)、分配路徑,從而極大地提高團(tuán)隊(duì)的協(xié)作能力、優(yōu)化協(xié)作流程。本文是 OneAlert 入門系列文章的第三篇,將幫助你快速了解和配置 OneAlert,從而挖掘該平臺(tái)的最大價(jià)值。

OneAlert 入門(三)——事件分析

事件分析

你此前用過(guò)的大多數(shù)工單系統(tǒng)或問(wèn)題追蹤系統(tǒng)都會(huì)要求你手動(dòng)分類或聯(lián)結(jié)工單。OneAlert 可不一樣。OneAlert 事件流中的每個(gè)事件都是自動(dòng)創(chuàng)建的,且以監(jiān)控棧中實(shí)時(shí)產(chǎn)生的告警為基礎(chǔ)。Zabbix ,Nagios ,Solarwinds ,AWS CloudWatch ,阿里云 ,監(jiān)控寶,騰訊云等國(guó)內(nèi)外主流監(jiān)控工具都能支持,而且新的應(yīng)用正在快速集成。只要該工具會(huì)給 IT 和 DevOps(運(yùn)維開(kāi)發(fā)團(tuán)隊(duì))產(chǎn)生告警,我們都會(huì)想辦法與之集成。OneAlert 除了可以做一名合格的告警搬運(yùn)工,還提供事件分析功能,目前包括總覽、告警 Top 分析、告警壓縮、應(yīng)用,即將上線的還有面向 Team Leader 的團(tuán)隊(duì)分析、成員分析、通知分析功能。

OneAlert 入門(三)——事件分析

Top分析----對(duì)告警內(nèi)容和對(duì)象進(jìn)行深入分析

OneAlert 提供兩種 Top 分析,一種是根據(jù)告警內(nèi)容產(chǎn)生告警的頻繁次數(shù)進(jìn)行排名分析;一種是根據(jù)告警對(duì)象產(chǎn)生告警的頻繁次數(shù)進(jìn)行排名分析。我們可以直觀的看到哪些事件發(fā)生故障的次數(shù)排名,這樣我們可以有針對(duì)的排除發(fā)生故障的原因,預(yù)防下次還頻繁發(fā)生故障。我們還可以看相應(yīng)告警的持續(xù)時(shí)間和 MTTA / MTTR,可以查看團(tuán)隊(duì)的工作效率,從而繼續(xù)優(yōu)化團(tuán)隊(duì)排班和升級(jí)策略。

OneAlert 入門(三)——事件分析

告警壓縮----減少噪音

生產(chǎn)環(huán)境中的一個(gè)問(wèn)題可能導(dǎo)致多個(gè)告警。例如,一個(gè)磁盤(pán)問(wèn)題可能會(huì)先導(dǎo)致磁盤(pán) IO 告警。后者又很可能迅速觸發(fā)一些列的 CPU,內(nèi)存,數(shù)據(jù)庫(kù)及應(yīng)用告警。當(dāng)然,在這種情況下,你可不想分開(kāi)管理二十多個(gè)問(wèn)題。實(shí)際上,它們都是同一個(gè)原因?qū)е碌?。因此,OneAlert 會(huì)自動(dòng)進(jìn)行分組,將相關(guān)的告警整合為高級(jí)事件。OneAlert 的分組算法會(huì)使用主機(jī)名、集群和應(yīng)用等信息,確保所有相關(guān)告警都分到同一組內(nèi)。未來(lái)還會(huì)根據(jù)集群、應(yīng)用和團(tuán)隊(duì)職責(zé)等進(jìn)行分組。此外,算法還會(huì)考慮告警出現(xiàn)的時(shí)間順序,使你對(duì)事件的了解更加深入。

OneAlert 入門(三)——事件分析

前沿分享

以上事件分析功能主要面向運(yùn)營(yíng)團(tuán)隊(duì)的一線人員,未來(lái)我們將推出面向 Team Leader 的團(tuán)隊(duì)分析、成員分析、通知分析功能。讓 Team Leader 可以直觀看出團(tuán)隊(duì)設(shè)置的排版和升級(jí)策略是否需要繼續(xù)優(yōu)化,也可以看出每個(gè)人的確認(rèn)告警的時(shí)間和解決故障的時(shí)間,查看整個(gè)團(tuán)隊(duì)和成員的工作效率。更多功能敬請(qǐng)期待。

OneAlert 能夠?qū)崟r(shí)地自動(dòng)整合告警,并且通過(guò)多鏈路多種通知方式讓告警最有效率的通知到相關(guān)人員,極大的縮短 MTTR,最后事件分析功能讓團(tuán)隊(duì)價(jià)值最大化。這使 OneAlert 成為國(guó)內(nèi) IT 與 DevOps 團(tuán)隊(duì)管理并解決問(wèn)題的最佳平臺(tái)。在第四部分,我們會(huì)介紹如何在整個(gè)團(tuán)隊(duì)中使用該工具,從而最大限度地提高協(xié)作效率。

本文轉(zhuǎn)自 OneAPM 官方博客

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容