大家知道,運維是數(shù)字世界的的基礎設施級別的技術。隨著支撐數(shù)字世界的軟硬件系統(tǒng)越來越龐大、越來越復雜,運維對智能化的要求就會越來越高。所以我們說,AIOps(智能運維)是運維技術發(fā)展必然的趨勢。
AIOps在國內正式提出來到現(xiàn)在的實際落地有兩三年了,也取得了初步的落地效果。那么下一步到底怎么做?做什么?未來幾年內能進一步達到什么樣的效果?今天我就分享下我最近總結出來的AIOps發(fā)展九大趨勢。
做趨勢預測是有很大挑戰(zhàn)和風險的,好在我之前在AIOps領域還有過成功的預測。
我在2018年1月曾給出一個AIOps宏觀預測:我說2018年將是AIOps在中國落地的元年,而據(jù)我所知在2018年的確有小幾十個AIOps項目開始落地,也就是說我的這個預測的確成為了現(xiàn)實。2019年1月我說2019年是AIOps快速發(fā)展的一年,而實際上截止2019年8月份在國內有大幾十個AIOps項目開始推進;與此同時,我們看到2019年初的時候人行以及各大銀行也發(fā)文闡述支持AIOps方向。
我在AIOps具體技術上也有個算是成功的預測。2018年中的時候我已經(jīng)在公開演講中講AIOps平臺化這個概念了;之后在2018年底,Gartner的報告也基于與世界范圍內的客戶和廠商的訪談正式提出了AIOps平臺化這一方向。
下面這幅圖的左下部分是我的團隊給出的AIOps平臺架構,該圖的右下部分是2009年我在AT&T工作時做的智能運維平臺的架構,可以看出兩幅圖在概念上是非常相似的。所以,從這個例子大家可以看出,我能夠先于Gartner提出AIOps平臺的概念,不是因為真有什么能看到未來的“水晶球”,而是因為我之前在其它場景下做過類似工作,并且在AIOps方向不斷努力推進。當我看到需求到了,相關條件成熟了,自然而然就能判斷應該做AIOps平臺了。所以,所謂的預測能力無非是經(jīng)驗的積累、不斷觀察、思考,最重要的是不斷的親手實踐,就像林肯和圖靈獎得主Alan Kay(面向對象編程語言的發(fā)明者)所言,預測未來最好的方法就是親手創(chuàng)造/發(fā)明這個未來。
下面我總結一下基于經(jīng)驗、訪談、觀察、思考和實踐得出的AIOps發(fā)展九大趨勢,即行業(yè)多樣化、產業(yè)生態(tài)化、數(shù)據(jù)多樣化、場景多樣化、場景精細化、算法服務化、技術平臺化、落地加速化、成熟度評估的標準化。
第一個趨勢就是AIOps落地的多樣化,這個結論是基于我通過多種渠道采集到的信息。我們自己有一個公眾號“智能運維前沿”,馬上要突破10000個用戶了;我們還有一個超過千人AIOps群,已經(jīng)成功舉辦了兩屆AIOps 挑戰(zhàn)賽,我一年中會到幾十家各行各業(yè)機構去進行現(xiàn)場交流。從上述多種渠道采集到的信息清楚表明:現(xiàn)在開始落地AIOps的,除了互聯(lián)網(wǎng)公司、銀行以外,證券、保險,電力、運營商、工業(yè)制造、國家機關、自動駕駛公司也都在嘗試AIOps落地。
第二個趨勢是AIOps產業(yè)生態(tài)化。各個行業(yè)都在試圖嘗試落地AIOps,給AIOps方向提供了一個很好的產業(yè)基礎。“產、學、研、用”各方也都在積極跟進,形成了一個AIOps生態(tài)系統(tǒng)。在這個生態(tài)系統(tǒng)里,專業(yè)的人負責專業(yè)的事,有越來越多的學術機構從事AIOps原理研究;由機構用戶負責提出實際需求,由有預研能力的廠商把AIOps原理上的突破變成實際落地效果;有負責數(shù)據(jù)采集、接入、存儲等的廠商,還有負責集成、交付、維保等的廠商。也就是說,“學、研、產、用”幾方專業(yè)分工,通力協(xié)作。AIOps產業(yè)生態(tài)化在AIOps落地過程中是一個重要的里程碑,會大力推動AIOps的更快落地。
第三個趨勢是AIOps數(shù)據(jù)多樣化。數(shù)據(jù)中心的系統(tǒng)物理架構和軟件架構都非常龐大復雜。因此我們必須采集、治理、融合多種運維數(shù)據(jù)源、從中提取對運維最有用的信息,幫助我們了解數(shù)據(jù)中心最新最全的運行狀態(tài), 從而為AIOps的眾多場景服務。因此我們說AIOps數(shù)據(jù)多樣化是必然趨勢。
第四個趨勢是AIOps場景多樣化。下圖羅列了一些我們與合作伙伴合作、交流時遇到的具體場景。我們分成幾個大場景:即異常發(fā)現(xiàn)、事件發(fā)現(xiàn)、事件分析、系統(tǒng)畫像、圖譜豐富等。每一個大場景會包含很多的具體場景,比如“事件分析”大場景就包括“異常機器定位”、“交易鏈條定位”、“多維度異常定位”等多種類型的事件分析。也就是說,當用戶認識到AIOps能實際幫助到運維的時候,會自發(fā)與生態(tài)系統(tǒng)中的伙伴共同找到越發(fā)多樣化的AIOps場景。
第五個趨勢是AIOps場景精細化。如下圖所示,異常檢測(也就是通過分析監(jiān)控數(shù)據(jù)自動發(fā)現(xiàn)運維故障)就包含單指標異常檢測、多指標異常檢測、多維度異常檢測、日志異常檢測等等。而單指標異常檢測在檢測業(yè)務、機器、網(wǎng)絡、數(shù)據(jù)庫、存儲系統(tǒng)、批處理的異常時,其場景和檢測側重點會有所不同,因此需要針對精細化的具體場景進行AIOps異常檢測算法的適當調整或適配。
為了避免AIOps場景多樣化和精細化導致的落地工作量增加,我們必須把各類場景用到的AIOps算法共性部分抽象提煉出來作為公用模塊,為多個場景服務。如下圖所示,從日志數(shù)據(jù)測量出的指標數(shù)據(jù)的異常檢測,就可以復用單指標異常檢測這一算法模塊,并且這一算法模塊已經(jīng)服務化,即可以通過API直接調用。所以我們說的第六個趨勢就是AIOps算法服務化,提升了效率,讓整體服務得更好。
在AIOps場景多樣化、場景精細化、算法服務化的前提下,第七個趨勢,即AIOps技術平臺化也就水到渠成了。AIOps技術平臺化打穿多個場景、多個數(shù)據(jù)源、多個算法。如下圖所示,上面輸入的是各種運維監(jiān)控數(shù)據(jù),輸出的就是我們所需要的各種運維智能,中間是各種服務化的AIOps算法。不管具體的某個運維場景有什么樣的特點,我們都可以通過整體平臺進行自由組合和編排,從而高效落地該運維場景,避免傳統(tǒng)方法的重復低效落地。
這也就引出了第八個趨勢:AIOps新算法落地加速化。以往一個新算法研制出來后,需要大量的工程工作配合才能讓新算法產生實際效果。有了平臺化之后,只需要通過編排把該新算法、新算法所需數(shù)據(jù)、已有工程工作“串”在一起,就能夠快速落地。比如做了一個0day攻擊檢測算法ZeroWall,我們在一家具體機構進行嘗試的時候,一周內捕獲28種0day攻擊,每天捕獲上萬條0day攻擊,每天誤報數(shù)0到6個。如果按照以往方法,我們要花大量的時間去做ZeroWall的落地工作,而有了AIOps平臺化, ZeroWall的落地工作就快了很多。
在過去半年期間,各個行業(yè)的合作伙伴都提出了AIOps成熟度評估標準化的需求,而銀保監(jiān)會、證監(jiān)會、人行、工信部相關領導也都表示會支持。這個事情我也已經(jīng)著手聯(lián)合各方開始做,預計一兩年的時間才能做出一個切實可行的標準。
總結一下AIOps的九大趨勢:行業(yè)多樣化、產業(yè)生態(tài)化、數(shù)據(jù)多樣化、場景多樣化、場景精細化、算法服務化、技術平臺化、落地加速化、成熟度評估標準化。這九大趨勢將助力AIOps在今后的幾年起飛、爆發(fā)。
AIOps落地還會遇到各種各樣的挑戰(zhàn)。我們需要抬頭看天,低頭看路,目標一致,腳踏實地,一步一個腳印落地AIOps。AIOps是我本人“擇一事,終一生”的事業(yè),希望與更多志同道合的同仁一起,為AIOps這個事業(yè)共同奮斗!