百度 AIOps 實(shí)踐中的四大金剛

百度 AIOps 實(shí)踐中的四大金剛

作者簡介

Noah青哥 百度云資深研發(fā)工程師

負(fù)責(zé)百度云智能監(jiān)控、智能故障自愈方向架構(gòu)設(shè)計(jì)與研發(fā),推動(dòng)AIOps的實(shí)踐與落地。

干貨概覽

AIOpsArtificial Intelligence for IT Operations),即智能運(yùn)維,是將人工智能的能力與運(yùn)維相結(jié)合,通過機(jī)器學(xué)習(xí)的方法來提升運(yùn)維效率。

在傳統(tǒng)的自動(dòng)化運(yùn)維體系中,重復(fù)性運(yùn)維工作的人力成本和效率問題得到了有效解決。但在復(fù)雜場(chǎng)景下的故障處理、變更管理、容量管理、服務(wù)資源過程中,仍需要人來掌控決策的過程,這阻礙了運(yùn)維效率的進(jìn)一步提升。而AI方法的引入,使得機(jī)器能夠代替人來做出決策,從而讓真正意義上的實(shí)現(xiàn)完全自動(dòng)化成為了可能。

在AIOps的落地實(shí)施過程中,最關(guān)鍵的因素還是,即AIOps的建設(shè)者們。

AIOps作為一個(gè)全新的技術(shù)發(fā)展和應(yīng)用方向,并不是簡單地說具備某一種技能或招募一兩個(gè)大牛就可以完成的,它需要不同角色、多個(gè)團(tuán)隊(duì)的配合才可以達(dá)成。根據(jù)近幾年來整個(gè)業(yè)界對(duì)AIOps的理解和實(shí)踐,AIOps參與角色的劃分也越來越清晰。在百度4年的AIOps實(shí)踐中,我們總結(jié)得出了如下四種不可或缺的角色:

運(yùn)維工程師

運(yùn)維研發(fā)工程師

平臺(tái)研發(fā)工程師

運(yùn)維AI工程師

可以看到,除了運(yùn)維AI工程師外,其他角色并不是AIOps產(chǎn)生之后才出現(xiàn)的,他們?cè)趥鹘y(tǒng)運(yùn)維中也發(fā)揮了重要作用。我們今天主要想和大家探討一下,在AIOps時(shí)代,他們的職責(zé)究竟發(fā)生了哪些變化。為了方便大家理解,我們會(huì)基于百度AIOps的實(shí)踐案例,來進(jìn)行具體說明。

單機(jī)房故障自愈場(chǎng)景

單機(jī)房故障自愈是一個(gè)典型的AIOps落地項(xiàng)目。該方案主要解決的問題場(chǎng)景如下:某個(gè)業(yè)務(wù)由于網(wǎng)絡(luò)、設(shè)備、變更、程序Bug、容量等原因造成故障,但故障范圍僅局限在單個(gè)機(jī)房或單個(gè)Region內(nèi)部。那么,我們可以基于流量調(diào)度等手段,將訪問流量調(diào)度到非故障機(jī)房或Region,實(shí)現(xiàn)該類型故障的自動(dòng)止損。

整個(gè)故障自愈過程分為如下幾個(gè)階段:

在這個(gè)過程中,需要AIOps四種角色分工明確、緊密配合,來完成整個(gè)AIOps解決方案的落地實(shí)現(xiàn)。在單機(jī)房故障自愈場(chǎng)景下,四種角色的關(guān)系如下圖所示:

運(yùn)維工程師

在單機(jī)房故障自愈項(xiàng)目中,運(yùn)維工程師基于日常運(yùn)維工作中所積累的場(chǎng)景、問題和經(jīng)驗(yàn),確定以單機(jī)房故障止損作為主要需求和突破口,通過定義單機(jī)房故障止損的問題域、解決思路以及風(fēng)險(xiǎn)點(diǎn),明確AI可以發(fā)力的領(lǐng)域。運(yùn)維工程師的職責(zé)主要包括如下幾個(gè)方面:

在完成問題域的定義后,運(yùn)維工程師需要跟蹤整個(gè)單機(jī)房故障自愈解決方案的落地,包括在策略設(shè)計(jì)前期提供數(shù)據(jù)標(biāo)注支持,在中期進(jìn)行效果的驗(yàn)收,在后期將單機(jī)房故障自愈方案實(shí)際部署運(yùn)行到生產(chǎn)環(huán)境。

AIOps時(shí)代的職責(zé)和技能變化

運(yùn)維工程師承擔(dān)線上服務(wù)質(zhì)量的責(zé)任,是服務(wù)質(zhì)量的關(guān)鍵保證。在工作過程中,會(huì)與研發(fā)、產(chǎn)品、運(yùn)營等各類角色、不同團(tuán)隊(duì)進(jìn)行深度的溝通和協(xié)作。

傳統(tǒng)運(yùn)維中,運(yùn)維工程師的主要職責(zé)分為三個(gè)方面:質(zhì)量、成本、效率。

主要包含如下工作內(nèi)容:

在AIOps落地實(shí)施中,運(yùn)維工程師是處于中心的角色,也賦予了新的職責(zé),他們是AIOps具體實(shí)施的需求提出者成果驗(yàn)收者。具體職責(zé)包括:

在AIOps時(shí)代,運(yùn)維工程師一方面需要熟悉運(yùn)維領(lǐng)域的知識(shí),了解運(yùn)維的難題和解決思路;另一方面需要了解人工智能和機(jī)器學(xué)習(xí)的思路,能夠理解哪些場(chǎng)景問題適合用機(jī)器學(xué)習(xí)方法解決,需要提供怎樣的樣本和數(shù)據(jù),即成為AI在運(yùn)維領(lǐng)域落地實(shí)施的解決方案專家。

運(yùn)維AI工程師

在單機(jī)房故障自愈場(chǎng)景中,運(yùn)維AI工程師將機(jī)器學(xué)習(xí)的算法與實(shí)際的故障處理業(yè)務(wù)場(chǎng)景相結(jié)合,針對(duì)單機(jī)房故障場(chǎng)景的風(fēng)險(xiǎn)點(diǎn),進(jìn)行策略研發(fā)與實(shí)驗(yàn)工作。如下圖所示:

運(yùn)維AI工程師分別設(shè)計(jì)了如下算法策略來滿足整個(gè)復(fù)雜故障場(chǎng)景的自動(dòng)決策:

異常檢測(cè)算法:解決故障發(fā)現(xiàn)時(shí)指標(biāo)異常判斷問題,基于AI方法實(shí)現(xiàn)較高的準(zhǔn)確率和召回率,作為整個(gè)故障自愈的數(shù)據(jù)基礎(chǔ)。

策略編排算法:基于當(dāng)前線上的實(shí)際流量和服務(wù)狀態(tài),設(shè)計(jì)損益計(jì)算模型,判斷基于何種方式的操作組合或步驟,能夠使整個(gè)自動(dòng)止損帶來收益最大,風(fēng)險(xiǎn)最小。

流量調(diào)度算法:基于線上服務(wù)容量與實(shí)時(shí)流量情況,進(jìn)行精確流量比例計(jì)算,防御容量不足或不準(zhǔn)風(fēng)險(xiǎn),并實(shí)現(xiàn)流量調(diào)度收益最大化。

在完成策略設(shè)計(jì)與研發(fā)后,需要根據(jù)歷史數(shù)據(jù)進(jìn)行Case回溯,并進(jìn)行仿真Case模擬,來驗(yàn)證策略效果,并進(jìn)行逐步迭代調(diào)優(yōu),以達(dá)到線上運(yùn)行的準(zhǔn)確率和召回率要求。

AIOps時(shí)代的職責(zé)和技能變化

運(yùn)維AI工程師是將AI引入運(yùn)維的核心角色。他們針對(duì)運(yùn)維數(shù)據(jù)、運(yùn)維經(jīng)驗(yàn)進(jìn)行理解和梳理,使用機(jī)器學(xué)習(xí)的方法將海量運(yùn)維數(shù)據(jù)進(jìn)行匯總、歸納,使得數(shù)據(jù)中的價(jià)值顯現(xiàn)出來。

運(yùn)維AI工程師首先需要具備AI工程師的技能,需要對(duì)數(shù)學(xué)及機(jī)器學(xué)習(xí)方法有足夠的掌握程度,并能應(yīng)用實(shí)踐。如下圖所示AI工程師技能表:

如單機(jī)房故障自愈場(chǎng)景中的介紹,運(yùn)維AI工程師需要具備機(jī)器學(xué)習(xí)知識(shí)并在運(yùn)維領(lǐng)域落地的能力。運(yùn)維AI工程師的職責(zé)如下:

平臺(tái)研發(fā)工程師

在單機(jī)房故障自愈場(chǎng)景中,平臺(tái)研發(fā)工程師需要關(guān)注三類平臺(tái)的建設(shè)。如圖所示:

基礎(chǔ)運(yùn)維平臺(tái):提供單機(jī)房故障自愈場(chǎng)景中的依賴平臺(tái),如:監(jiān)控平臺(tái)和流量調(diào)度平臺(tái)。在日常運(yùn)維中提供標(biāo)準(zhǔn)化運(yùn)維數(shù)據(jù)獲取和運(yùn)維操作的基礎(chǔ),而在AIOps中,這部分接口需要能夠同時(shí)支持人工和自動(dòng)的數(shù)據(jù)獲取和運(yùn)維操作。

智能運(yùn)維平臺(tái):提供對(duì)AI能力的支持,如:統(tǒng)一的數(shù)據(jù)服務(wù)(運(yùn)維知識(shí)庫)、運(yùn)維開發(fā)框架,以及給AI策略實(shí)驗(yàn)和運(yùn)行的運(yùn)維策略框架等。

故障自愈機(jī)器人:針對(duì)單個(gè)業(yè)務(wù)場(chǎng)景進(jìn)行平臺(tái)化抽象,使之成為一個(gè)基礎(chǔ)服務(wù),基于AIOps平臺(tái)研發(fā)和運(yùn)行。

AIOps時(shí)代的職責(zé)和技能變化

平臺(tái)研發(fā)工程師負(fù)責(zé)運(yùn)維平臺(tái)及基礎(chǔ)組件的研發(fā)與建設(shè)。

在傳統(tǒng)運(yùn)維場(chǎng)景中,平臺(tái)研發(fā)工程師負(fù)責(zé)平臺(tái)、基礎(chǔ)組件、類庫和工具的研發(fā)工作。在針對(duì)運(yùn)維的場(chǎng)景中,會(huì)覆蓋運(yùn)維相關(guān)的服務(wù)管理、監(jiān)控、變更、流量調(diào)度等相關(guān)平臺(tái)。

這部分平臺(tái)是運(yùn)維的基礎(chǔ),在AIOps時(shí)代仍然需要依賴于這些平臺(tái)的建設(shè)。

同時(shí)在AIOps場(chǎng)景中,數(shù)據(jù)成為了中心,運(yùn)維各種狀態(tài)信息轉(zhuǎn)換為大數(shù)據(jù),機(jī)器學(xué)習(xí)則作用在大數(shù)據(jù)上進(jìn)行分析。在百度AIOps的實(shí)踐中,運(yùn)維開發(fā)框架、運(yùn)維知識(shí)庫、運(yùn)維策略框架共同組成了完整的智能運(yùn)維平臺(tái),三大平臺(tái)的建設(shè)和實(shí)施離不開大數(shù)據(jù)、機(jī)器學(xué)習(xí)架構(gòu)的引入。這就要求平臺(tái)研發(fā)工程師具備大數(shù)據(jù)、機(jī)器學(xué)習(xí)平臺(tái)架構(gòu)師的多重身份,具備流式計(jì)算、分布式存儲(chǔ)、機(jī)器學(xué)習(xí)平臺(tái)、算法策略平臺(tái)等一系列大數(shù)據(jù)和機(jī)器學(xué)習(xí)平臺(tái)架構(gòu)能力。

運(yùn)維研發(fā)工程師

基于多個(gè)業(yè)務(wù)線場(chǎng)景抽象出的單機(jī)房故障自愈解決方案,能夠滿足大部分場(chǎng)景需求,但并不意味著可以直接提供給各個(gè)業(yè)務(wù)線來使用。原因如下:

策略和參數(shù)需要進(jìn)行調(diào)整

流量調(diào)度、容災(zāi)策略等策略,針對(duì)不同的業(yè)務(wù)線,配置并不相同。例如某些業(yè)務(wù)對(duì)響應(yīng)時(shí)間敏感,跨地域的調(diào)度會(huì)帶來較大的延遲,影響用戶體驗(yàn),這時(shí)就需要根據(jù)業(yè)務(wù)情況配置機(jī)房之間的跨機(jī)房流量調(diào)度延遲系數(shù),來實(shí)現(xiàn)流量優(yōu)先調(diào)度到延遲系數(shù)最低的機(jī)房。

通用框架無法滿足所有需求

部分業(yè)務(wù)線需要對(duì)原有的策略進(jìn)行部分重寫才能夠滿足需求。例如,部分業(yè)務(wù)在流量調(diào)度時(shí),需要聯(lián)動(dòng)服務(wù)降級(jí)來滿足容量需求,這就需要額外增加服務(wù)降級(jí)聯(lián)動(dòng)的邏輯。

那么,就需要運(yùn)維研發(fā)工程師出手來解決這個(gè)問題。根據(jù)業(yè)務(wù)線的實(shí)際情況,對(duì)策略和參數(shù)進(jìn)行配置和調(diào)優(yōu),對(duì)通用框架無法滿足的需求,進(jìn)行定制化研發(fā),使得單機(jī)房故障自愈方案能夠?qū)嶋H應(yīng)用在不同業(yè)務(wù)線上。

AIOps時(shí)代的職責(zé)和技能變化

運(yùn)維研發(fā)工程師負(fù)責(zé)基于業(yè)務(wù)線特征的運(yùn)維研發(fā)工作,在傳統(tǒng)運(yùn)維中,是運(yùn)維自動(dòng)化的實(shí)施者,實(shí)現(xiàn)了針對(duì)業(yè)務(wù)場(chǎng)景的自動(dòng)化運(yùn)維實(shí)施落地。其職責(zé)如下:

在AIOps時(shí)代,運(yùn)維研發(fā)工程師承擔(dān)了AIOps智能化運(yùn)維解決方案在業(yè)務(wù)線實(shí)施落地的職責(zé)。他們是AIOps場(chǎng)景的實(shí)踐者,將AIOps解決方案與業(yè)務(wù)架構(gòu)特征相結(jié)合,實(shí)現(xiàn)AIOps在業(yè)務(wù)線的落地。

一方面,他們會(huì)與運(yùn)維工程師緊密配合,對(duì)業(yè)務(wù)問題進(jìn)行深度分析,理解業(yè)務(wù)的特點(diǎn)。另一方面,他們與平臺(tái)研發(fā)工程師、AI工程師相配合,基于AIOps解決方案的策略和框架,進(jìn)行定制化開發(fā),使其適合自身業(yè)務(wù)線的特征。

總結(jié)

本文介紹了運(yùn)維工程師、運(yùn)維AI工程師、平臺(tái)研發(fā)工程師、運(yùn)維研發(fā)工程師四種角色在自動(dòng)化運(yùn)維時(shí)代和AIOps智能化運(yùn)維時(shí)代,其職責(zé)和技能的拓展和變化。AIOps技術(shù)為運(yùn)維技術(shù)的發(fā)展帶來了更多的機(jī)遇,對(duì)于每個(gè)參與到AIOps實(shí)施的個(gè)人或團(tuán)隊(duì)也是如此。四種角色既有術(shù)業(yè)專攻,同時(shí)又緊密協(xié)作,共同將AI能力引入為運(yùn)維賦能。那么,你的選擇是什么呢?

注:本文轉(zhuǎn)載自百度智能運(yùn)維團(tuán)隊(duì)公眾號(hào) AIOps 智能運(yùn)維

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 作者簡介 運(yùn)小青 百度云資深研發(fā)工程師 負(fù)責(zé)百度云智能監(jiān)控、智能故障自愈方向架構(gòu)設(shè)計(jì)與研發(fā),推動(dòng)AIOps的實(shí)踐...
    AIOPstack閱讀 988評(píng)論 0 3
  • ——沒有算法專家,AIOps 也能玩得這么 High 在這樣一個(gè) IT 技術(shù)高速發(fā)展的時(shí)代,速度往往能決定一切! ...
    Vincent_56ae閱讀 1,882評(píng)論 0 2
  • 隨著大數(shù)據(jù)、人工智能、云計(jì)算技術(shù)的日漸成熟和飛速發(fā)展,傳統(tǒng)的運(yùn)維技術(shù)和解決方案已經(jīng)不能滿足需求,智能運(yùn)維已成為運(yùn)維...
    AIOPstack閱讀 2,032評(píng)論 0 19
  • 你的淚水嗎 多想伸手拭擦 可隔著一層玻璃
    宗伊閱讀 218評(píng)論 0 2
  • 眾所周知,最優(yōu)的排序算法的復(fù)雜度是O(nlogn),但在學(xué)習(xí)最優(yōu)算法前,我們先來看看O(n^2)復(fù)雜度的算法,由簡...
    showaichuan閱讀 374評(píng)論 0 0

友情鏈接更多精彩內(nèi)容