2018年2月,科來(lái)入圍Gartner 2018年度 NPMD(網(wǎng)絡(luò)性能監(jiān)測(cè)與診斷)魔力象限并榮獲“遠(yuǎn)見(jiàn)者”稱號(hào)。科來(lái)首次入圍即進(jìn)入“遠(yuǎn)見(jiàn)者”象限,幾乎覆蓋Cisco在NPMD領(lǐng)域的位置,在世界舞臺(tái)上進(jìn)行角逐。科來(lái)UPM業(yè)務(wù)性能管理解決方案具備極佳的前瞻性、順應(yīng)未來(lái)市場(chǎng)發(fā)展方向,科來(lái)將自主技術(shù)與性能管理的發(fā)展方向相結(jié)合,針對(duì)運(yùn)維技術(shù)高要求、高依賴的行業(yè)引發(fā)AIOps演進(jìn)思考。
“變化是唯一永恒的趨勢(shì)”
首先,在數(shù)據(jù)中心層面,數(shù)據(jù)中心已從單數(shù)據(jù)中心、多數(shù)據(jù)中心主備模式,發(fā)展到了多數(shù)據(jù)中心并行工作的狀態(tài),實(shí)現(xiàn)了從前端網(wǎng)絡(luò)接入直到后端核心業(yè)務(wù)系統(tǒng)的高可用和分鐘級(jí)數(shù)據(jù)中心級(jí)別的切換,確保了業(yè)務(wù)的7X24不間斷運(yùn)行。而在應(yīng)用架構(gòu)層面,伴隨著虛擬化、云計(jì)算技術(shù)的應(yīng)用,私有云架構(gòu)成為了主流,更進(jìn)一步,如部分新興的互聯(lián)網(wǎng)銀行不但沒(méi)有物理的營(yíng)業(yè)網(wǎng)點(diǎn),更沒(méi)有專用的數(shù)據(jù)中心,而采用公有云或者混合云架構(gòu)部署全行的IT系統(tǒng)。
其次,伴隨著業(yè)務(wù)的發(fā)展,IT系統(tǒng)在不斷擴(kuò)展,不僅對(duì)外應(yīng)用數(shù)量不斷增長(zhǎng),內(nèi)部應(yīng)用和連接的第三方服務(wù)數(shù)量也在不斷擴(kuò)充,同時(shí)應(yīng)用間相互調(diào)用關(guān)系持續(xù)復(fù)雜化。今天,對(duì)整體應(yīng)用數(shù)量以及相互間的調(diào)用關(guān)系,邏輯關(guān)系的清晰描述,已經(jīng)成為了一個(gè)艱巨的工作,在運(yùn)維工作中,已不能基于單一應(yīng)用判斷業(yè)務(wù)的可用性,還必須依賴其他應(yīng)用和第三方服務(wù)的狀態(tài),才能對(duì)業(yè)務(wù)整體可用性做出判斷,同時(shí),與之相伴的如何定義應(yīng)用的性能指標(biāo)也成為了難題。
第三,應(yīng)用的內(nèi)部架構(gòu),為適應(yīng)業(yè)務(wù)快速上線,應(yīng)用快速開(kāi)發(fā)快速部署的要求,虛擬化技術(shù)和容器微服務(wù)技術(shù)的應(yīng)用規(guī)模不斷擴(kuò)大,與之相伴的,單一應(yīng)用組件的規(guī)模卻不斷變小,這直接導(dǎo)致應(yīng)用組件間的訪問(wèn)關(guān)系、邏輯關(guān)系更趨復(fù)雜。形成了應(yīng)用組件的碎片化趨勢(shì),而對(duì)于運(yùn)維工作的難度直線提高。
AIOps幫助實(shí)現(xiàn)人工難以實(shí)現(xiàn)的海量運(yùn)維工作
現(xiàn)階段網(wǎng)絡(luò)性能管理的難點(diǎn)在于缺少業(yè)務(wù)視角,同時(shí)缺少覆蓋全局和第三方的視圖。目前的對(duì)策是引入流量分析,可以實(shí)現(xiàn)端到端的業(yè)務(wù)服務(wù)質(zhì)量的實(shí)時(shí)監(jiān)控和管理,關(guān)聯(lián)應(yīng)用特點(diǎn)的分析,主動(dòng)預(yù)警、智能化定位的運(yùn)維自動(dòng)化等。據(jù)此,Gartner提出了AIOps的概念,并預(yù)測(cè)到2020年,AIOps的采用率將會(huì)達(dá)到50%。簡(jiǎn)單來(lái)說(shuō),AIOps就是希望基于已有的運(yùn)維數(shù)據(jù)尤其是流量數(shù)據(jù),并通過(guò)機(jī)器學(xué)習(xí)的方式來(lái)進(jìn)一步解決自動(dòng)化運(yùn)維沒(méi)辦法解決的問(wèn)題。Gartner針對(duì)網(wǎng)絡(luò)運(yùn)維還專門提出了Netops2.0,化被動(dòng)運(yùn)維為主動(dòng)運(yùn)維,跳出網(wǎng)絡(luò)看網(wǎng)絡(luò)運(yùn)維,成為下一代運(yùn)維的核心思想。
怎樣實(shí)現(xiàn)AIOps智能化運(yùn)維?
作為一個(gè)新生領(lǐng)域的智能運(yùn)維平臺(tái)還處于發(fā)展的初期,發(fā)現(xiàn)并收集有價(jià)值的數(shù)據(jù)是當(dāng)務(wù)之急和首要問(wèn)題。而網(wǎng)絡(luò)流量作為整個(gè)IT系統(tǒng)的基礎(chǔ),所有的運(yùn)維操作也都以網(wǎng)絡(luò)流量為手段實(shí)現(xiàn),因此網(wǎng)絡(luò)全流量數(shù)據(jù)是最為完整的數(shù)據(jù)源,對(duì)其進(jìn)行采集和深度分析,可以作為智能運(yùn)維平臺(tái)的基礎(chǔ)。同時(shí),結(jié)合其他數(shù)據(jù)源,也是構(gòu)建智能運(yùn)維平臺(tái)的最佳路徑。
僅在IT系統(tǒng)中關(guān)鍵節(jié)點(diǎn)或者應(yīng)用前段部署網(wǎng)絡(luò)流量采集點(diǎn)是無(wú)法滿足全系統(tǒng)監(jiān)控分析的要求的,應(yīng)在應(yīng)用交易路徑的所有環(huán)節(jié)都應(yīng)當(dāng)部署流量采集點(diǎn),并加以統(tǒng)一視圖的分析,才能清晰準(zhǔn)確的實(shí)現(xiàn)應(yīng)用和整個(gè)系統(tǒng)的運(yùn)維監(jiān)控需求。
另一方面,網(wǎng)絡(luò)流量采集探針不能僅針對(duì)網(wǎng)絡(luò)設(shè)備等硬件,由于云計(jì)算、SDN技術(shù)的大規(guī)模應(yīng)用,流量采集探針也必須支持虛擬化環(huán)境、云和SDN環(huán)境,不僅能采集物理設(shè)備間的流量,還必須能夠在采集虛擬環(huán)境內(nèi)部的流量,特別是由于SDN環(huán)境的特點(diǎn)限制,網(wǎng)絡(luò)全流量采集分析是SDN環(huán)境下最佳故障排查手段。
在數(shù)據(jù)中心層面,新一代的智能運(yùn)維平臺(tái)必須能夠?qū)崿F(xiàn)應(yīng)用的全局監(jiān)控,快速準(zhǔn)確的展現(xiàn)應(yīng)用和業(yè)務(wù)運(yùn)行狀態(tài),同時(shí)對(duì)于應(yīng)用路徑的各個(gè)環(huán)節(jié)也必須實(shí)現(xiàn)全路徑監(jiān)控,當(dāng)任意一點(diǎn)由于任何原因?qū)е碌漠惓,F(xiàn)象,實(shí)現(xiàn)快速、準(zhǔn)確的展現(xiàn)和警報(bào),更進(jìn)一步,新一代的智能運(yùn)維平臺(tái)還應(yīng)當(dāng)具有深度的數(shù)據(jù)挖掘能力,可以對(duì)任何異?,F(xiàn)象實(shí)現(xiàn)數(shù)據(jù)包的深度挖掘和分析,還原異?,F(xiàn)象并對(duì)根因做出最準(zhǔn)確的還原和分析。
在數(shù)值監(jiān)控方面,新一代的智能運(yùn)維平臺(tái)不能僅面向IT運(yùn)維,還應(yīng)當(dāng)具備業(yè)務(wù)運(yùn)行的支撐能力,能夠?qū)崟r(shí)反映業(yè)務(wù)的運(yùn)行狀態(tài),對(duì)于交易成功率、交易時(shí)延、交易類別等等業(yè)務(wù)運(yùn)行狀態(tài)提供快速準(zhǔn)確的監(jiān)控報(bào)警能力,特別是在業(yè)務(wù)促銷、大業(yè)務(wù)量突發(fā)等場(chǎng)景下具備實(shí)時(shí)監(jiān)控相應(yīng)能力。相應(yīng)的,新一代的智能運(yùn)維平臺(tái)在應(yīng)用層面還必須具備交易路徑的監(jiān)控分析能力,這種能力不同于針對(duì)IT環(huán)境的監(jiān)控,其應(yīng)當(dāng)是對(duì)交易路徑中包括關(guān)聯(lián)業(yè)務(wù)和第三方等各個(gè)環(huán)節(jié)的監(jiān)控分析能力。而在警報(bào)分析能力層面,新一代的智能運(yùn)維平臺(tái)不能采用傳統(tǒng)的閥值警報(bào)模式,基線警報(bào)模式是其基本的要求之一。只有采用性能基線監(jiān)控和報(bào)警模式才能準(zhǔn)確反映一個(gè)時(shí)間段內(nèi)業(yè)務(wù)和應(yīng)用的變化趨勢(shì),并對(duì)未來(lái)的業(yè)務(wù)和應(yīng)用發(fā)展態(tài)勢(shì)做出預(yù)測(cè)。
大融合是未來(lái)智能運(yùn)維的發(fā)展趨勢(shì)
在今天的IT團(tuán)隊(duì)中,網(wǎng)絡(luò)、應(yīng)用、研發(fā)、安全是必備的四個(gè)部門,各部門的配合與協(xié)調(diào)確保了整個(gè)IT系統(tǒng)的平穩(wěn)可靠運(yùn)行,進(jìn)而確保了業(yè)務(wù)和交易的平穩(wěn)可靠。因此,從整個(gè)IT團(tuán)隊(duì)的角度出發(fā),新一代的智能運(yùn)維平臺(tái)不能像傳統(tǒng)平臺(tái)一樣僅面向單一的團(tuán)隊(duì),完成單一的網(wǎng)絡(luò)或者應(yīng)用等的運(yùn)維工作。新一代的智能運(yùn)維平臺(tái)應(yīng)當(dāng)是一個(gè)集成的平臺(tái),面向網(wǎng)絡(luò)、應(yīng)用、研發(fā)、安全部門,提供全方位的支持和操作平臺(tái)。因此,新一代的智能運(yùn)維平臺(tái)應(yīng)當(dāng)具備多層次的監(jiān)控運(yùn)維能力,既針對(duì)特定部門的特定需求提供精準(zhǔn)的監(jiān)控和操作工具,也可以針對(duì)部門間配合協(xié)調(diào)需求,提供集成化監(jiān)控分析和操作手段。
當(dāng)新一代的智能運(yùn)維平臺(tái)具備多種能力之后,其面向IT團(tuán)隊(duì)的人機(jī)接口就成為其可用性關(guān)鍵因素。只有具備了清晰、準(zhǔn)確、快速的展現(xiàn)能力,才能為整個(gè)業(yè)務(wù)應(yīng)用系統(tǒng)提供更好的支撐。因此新一代的智能運(yùn)維平臺(tái)的展現(xiàn)能力也應(yīng)當(dāng)是層次化的。面向業(yè)務(wù),其應(yīng)當(dāng)具備不同業(yè)務(wù)間的關(guān)聯(lián)關(guān)系和業(yè)務(wù)運(yùn)行狀態(tài)的展現(xiàn)能力,從而提供業(yè)務(wù)狀態(tài)的監(jiān)控分析能力。
而針對(duì)單一業(yè)務(wù),新一代的智能運(yùn)維平臺(tái)也必須提供全應(yīng)用系統(tǒng)的監(jiān)控、分析、展現(xiàn)能力,不僅僅包括了網(wǎng)絡(luò)設(shè)備或者應(yīng)用的單一視圖,還應(yīng)當(dāng)提供涵蓋了客戶端、網(wǎng)絡(luò)、應(yīng)用的統(tǒng)一視圖,從而實(shí)現(xiàn)針對(duì)應(yīng)用全系統(tǒng)的統(tǒng)一監(jiān)控,提升網(wǎng)絡(luò)、應(yīng)用、安全等不同運(yùn)維部門間的協(xié)同配合能力。
相應(yīng)的,新一代的智能運(yùn)維平臺(tái)也必須具備定制化的數(shù)值監(jiān)控能力,可以將重要的業(yè)務(wù)數(shù)據(jù)、應(yīng)用狀態(tài)、網(wǎng)絡(luò)狀態(tài)集中監(jiān)控和分析,提升網(wǎng)絡(luò)、應(yīng)用、安全等不同運(yùn)維部門間的協(xié)同配合能力。
當(dāng)前,新一代的智能運(yùn)維平臺(tái)已經(jīng)成為了IT系統(tǒng)運(yùn)維工作的發(fā)展方向,而基于網(wǎng)絡(luò)全流量分析的智能運(yùn)維平臺(tái)已經(jīng)具備基本的能力,但是距離智能運(yùn)維平臺(tái)的要求尚存在差距。未來(lái),應(yīng)當(dāng)引入多種數(shù)據(jù)源,采集分析來(lái)自業(yè)務(wù)事件、運(yùn)維操作、配置管理、資產(chǎn)管理等等多個(gè)來(lái)源的數(shù)據(jù),實(shí)現(xiàn)綜合的智能化分析,從而實(shí)現(xiàn)異常事件的自動(dòng)發(fā)現(xiàn)、警報(bào)和根因分析,并在此基礎(chǔ)上實(shí)現(xiàn)自動(dòng)化操作。