企業(yè)部署AIOps的重要性

隨著本土化APM的逐漸推進(jìn),AIOps也逐步走進(jìn)了大家的視野。通過AI技術(shù)的加持,對運(yùn)維工作賦予了更多的智能化、數(shù)據(jù)化標(biāo)準(zhǔn),那么下面我們一起走進(jìn)文章,來聊一聊AIOps的重要性。

隨著企業(yè)業(yè)務(wù)擴(kuò)大、IT資源豐富、業(yè)務(wù)模式多元化,IT運(yùn)維系統(tǒng)的落后開始逐漸體現(xiàn)出來。獨(dú)立的IT監(jiān)控系統(tǒng)發(fā)生故障后,查找故障根因困難,導(dǎo)致MTTR時間周期長,面對監(jiān)控系統(tǒng)大量告警信息,運(yùn)維部希望精簡告警量并隨時隨地了解最新故障狀態(tài),從而實現(xiàn)及時介入,精確修復(fù)故障。

國際最具權(quán)威的IT研究顧問咨詢機(jī)構(gòu)Gartner在2017年發(fā)布了關(guān)于AIOps的定義:

翻譯為:

AIOps平臺結(jié)合了大數(shù)據(jù)和機(jī)器學(xué)習(xí)功能,通過可擴(kuò)展的提取和分析IT相關(guān)數(shù)據(jù),不斷增加的數(shù)據(jù)量,種類和速度來支持所有主要IT操作功能。該平臺支持同時使用多個數(shù)據(jù)源,數(shù)據(jù)收集方法以及分析和演示技術(shù)。

對于市場描述方面:AIOps可以增強(qiáng)廣泛的IT運(yùn)營流程和任務(wù),包括性能分析,異常檢測,事件關(guān)聯(lián)和分析,IT服務(wù)管理和自動化。

那么AIOps平臺利用大數(shù)據(jù)、現(xiàn)代的機(jī)器學(xué)習(xí)技術(shù)和其他高級分析技術(shù),通過主動、個性化和動態(tài)的洞察力直接或間接地,持續(xù)增強(qiáng) IT 操作(監(jiān)控,自動化和服務(wù)臺)功能。AIOps平臺可以同時使用多個數(shù)據(jù)源,多種數(shù)據(jù)收集方法,實時分析技術(shù),深層分析技術(shù)以及展示技術(shù)。

隨著AIOps對本土化行業(yè)的深入,越來越多的商業(yè)化場景開始通過AIOps的方式管理自己的IT運(yùn)維工作,比如:互聯(lián)網(wǎng)、金融、航空、政企、運(yùn)營商、制造業(yè)、新零售……

進(jìn)入AIOps賽道比較早的LinkedSee靈犀對于智能運(yùn)維也有自己的一些看法:

LinkedAIOps是LinkedSee靈犀在AIOps領(lǐng)域的核心產(chǎn)品,基于運(yùn)維大數(shù)據(jù)和人工智能技術(shù),運(yùn)用多種機(jī)器學(xué)習(xí)算法,在故障產(chǎn)生時通過指標(biāo)異常檢測、日志異常檢測等算法及時感知故障,同時通過告警聚類、根因推薦、關(guān)聯(lián)數(shù)據(jù)排查等快速定位故障,幫助企業(yè)解決運(yùn)維故障管理中耗時較長(發(fā)現(xiàn)-定位)的問題,從而降低MTTR提升SLA。

而LinkedAIOps在眾多行業(yè)中也有自己的解決方案:

結(jié)合企業(yè)多元化業(yè)務(wù)及IT資源,梳理企業(yè)業(yè)務(wù)流程,建設(shè)完整的IT運(yùn)維流程。

將獨(dú)立的監(jiān)控系統(tǒng)進(jìn)行整合,部署LinkedAIOps智能運(yùn)維監(jiān)控系統(tǒng),實現(xiàn)Dashboard界面統(tǒng)一,通過實時監(jiān)控和縮短MTTR周期。

部署LinkedAIOps智能運(yùn)維監(jiān)控系統(tǒng),實現(xiàn)告警信息通過電話、短信、郵件、微信等方式通知運(yùn)維人員,避免“人盯監(jiān)控系統(tǒng)”的管理模式。

LinkedAIOps智能運(yùn)維監(jiān)控系統(tǒng),可以實現(xiàn)90%以上的告警降噪,極大降低了無效告警的干擾,提高故障響應(yīng)效率,并能根據(jù)故障模式及關(guān)聯(lián)消息持續(xù)自我學(xué)習(xí),實現(xiàn)快速發(fā)現(xiàn)和定位故障。

Gartner預(yù)測,到2019年底,全球四分之一的企業(yè)將策略性地實施AIOps,支持兩個或更多的IT運(yùn)營功能。而到2022年,40%的大型企業(yè)將結(jié)合大數(shù)據(jù)和機(jī)器學(xué)習(xí)功能,支持和部分替代監(jiān)測、服務(wù)臺和自動化流程和任務(wù)。

在此大環(huán)境下,LinkedAIOps也在持續(xù)不斷的發(fā)力,在主要核心價值方面,定義了八個重要的方向:

LinkedAIOps核心價值:

數(shù)據(jù)統(tǒng)一接入和治理。將分散孤立的運(yùn)維數(shù)據(jù)集中管理和分析。

90%告警降噪率。告警去重一級降噪,告警聚類二級降噪,極大降低無效告警的干擾。

日志異常檢測。從海量日志中實時分析日志模式的變化趨勢,及時發(fā)現(xiàn)日志異常,并發(fā)出告警。

指標(biāo)異常檢測。實時接入運(yùn)維監(jiān)控指標(biāo),通過異常檢測算法得出指標(biāo)的異常點(diǎn),及時發(fā)出告警。

智能根因分析?;诠收夏J郊瓣P(guān)聯(lián)消息的持續(xù)自我學(xué)習(xí),進(jìn)行自主機(jī)器學(xué)習(xí)后,根因推薦準(zhǔn)確率可大于90%。

多重根因定位。告警中找不到根因時,可以通過關(guān)聯(lián)日志模式、關(guān)聯(lián)指標(biāo)等輔助排障工具,快速發(fā)現(xiàn)和定位故障。

一鍵故障排查。在沒有監(jiān)控或系統(tǒng)未接入對應(yīng)主機(jī)的告警時,與主機(jī)相關(guān)的模塊或業(yè)務(wù)出現(xiàn)故障,可通過一鍵排障功能,實現(xiàn)簡單快速故障排查的目標(biāo),降低MTTR提升SLA。

數(shù)據(jù)可視化。多維度運(yùn)維數(shù)據(jù)統(tǒng)計展示,靈活運(yùn)維KPI報表。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容