業(yè)務(wù)運維這個事,我們越搞越有信心

寫在最前:這篇稿子困擾了我很久,我想了很多,但最終表達出來只有一點點。

許多事情可能都是這樣,你付出了很多,但最終展現(xiàn)給別人的,可能還不到十分之一。

于是許多人會說——“好簡單”。殊不知這三個字代表的,可能只是冰山一角。

能把復(fù)雜的事情變簡單,這本身就代表了強大的能力,至少目前的我還做不到。比如,我總想把稿子寫得簡單點,但總會很啰嗦,下筆千言,離題萬里。

再比如咱們今天要說的IT運維。這其中包括了太多的系統(tǒng),太多的軟硬件協(xié)調(diào),也需要太多的人力、物力投入,想要“變簡單”絕對不是一件容易的事情。但是這并不代表著“簡單”不可行,也并不能阻擋許多人苦苦的探索與嘗試,并且取得一些成就。

一、

IT運維是件苦差事。

如果這個世界上有“掙著賣白菜的錢,操著賣白粉的心”大獎評選,我相信IT運維一定能夠入圍。每隔幾個月,我們總能夠收獲這樣的信息——某云平臺癱瘓,因為光纖線纜被“臨時工”挖斷;某某網(wǎng)站數(shù)據(jù)丟失,因為“臨時工”誤刪核心數(shù)據(jù)庫;某某某單車APP無法運行,因為高峰期服務(wù)器壓力過大……

每當這個時候,IT運維人員都是沖在第一線的,而且經(jīng)常會24小時工作,不眠不休。如果說,7*24*365是數(shù)據(jù)中心運維基本要求的話,那么對于那些負責運維的人,情況也大抵如此。

IT運維人員都有兩面,一面是“救火隊長”,另一面就是“背鍋俠”。在我們剛才列舉的幾個事件中,無論是人為問題還是系統(tǒng)問題,最終免不了成為“人”的問題,而這個問題的解決,就依靠IT運維人員來實現(xiàn)。

拋開挖掘機弄斷光纖這種小概率事件;拋開所謂“誤刪”數(shù)據(jù)庫,順手還“誤刪”了備份文件的主觀動因不說,類似這種人為的故障都是可以避免的,也不是IT運維的常態(tài)。更多的時候,系統(tǒng)無故宕機、網(wǎng)絡(luò)流量逼近極限、服務(wù)器無法訪問等事件才是大家經(jīng)常遇到的情況,也亟待解決。

海量告警信息處理不及時、沒有可靠的自動化運維手段、缺少直觀的運維大數(shù)據(jù)可視化工具,這三者可能是IT規(guī)模迅速提高、IT環(huán)境越來越復(fù)雜的當下,運維部門最常遇到的問題,也是最希望解決的問題。原本,IT運維還只是企業(yè)管理的服務(wù)和保障部門,很難受到重視;但是伴隨著數(shù)字化轉(zhuǎn)型的深入,以及云計算、大數(shù)據(jù)技術(shù)的廣泛應(yīng)用,當街頭賣早點的小販都在利用微信支付收款的時候,傳統(tǒng)兩地三中心的集中式、重耦合IT運維理念已經(jīng)無法滿足互聯(lián)網(wǎng)用戶敏捷、高效的需求,自動化、智能化的呼聲越來越高。

“那時候運維就是體力活,大家戲稱干運維的都是搬箱子、搬服務(wù)器的……運維其實非常簡單,主要是依賴于人工巡檢,比如通過狀態(tài)燈看服務(wù)器或者硬件狀態(tài),哪個地方壞了換一個”,云智慧CEO殷晉(Andy)說。

二、

相對于印象中那種CEO來說,Andy顯得平易近人得多。在采訪之前,我也曾試圖在網(wǎng)上搜索一些與他相關(guān)的信息。不過這些信息大多是2014年或者2016年的,所談?wù)摰囊捕嗍桥cAPM相關(guān)的內(nèi)容。似乎在此之后,Andy就變得越發(fā)低調(diào)了。

“每年我都會花很多時間跟很多企業(yè)的CIO們聊,了解他們目前的需求和業(yè)務(wù)情況,并把最有價值的需求整理出來,在我們的產(chǎn)品中予以實現(xiàn)。從2016年開始,這些成果逐漸形成了云智慧業(yè)務(wù)運維的理論體系和框架,更為驚喜的是,這套體系居然與Gartner目前所倡導(dǎo)的AIOps概念不謀而合,當然人家的系統(tǒng)邏輯更為嚴密。”在采訪中,Andy表現(xiàn)得非常坦誠。

為了清晰表述云智慧業(yè)務(wù)運維理論框架,Andy通過畫板為我們勾勒出這套理論的形成過程?!皬V義的IT包括三個層面,硬件、軟件和數(shù)據(jù)。當然對于云智慧來說,我們覺得用戶應(yīng)該在這些層面之上,我們做的所有事情都是來自于用戶和客戶的真實需求?!币贿呎f著,Andy一邊飛快的畫出了這幅圖。

在底層硬件和IT基礎(chǔ)設(shè)施層面,傳統(tǒng)運維遵從ITIL管理體系,使用的是ITOM/ITSM管理工具,總結(jié)起來無外乎“監(jiān)控”兩個字。對于“監(jiān)”來說,主要是識別服務(wù)器、存儲、網(wǎng)絡(luò)等基礎(chǔ)設(shè)備的運行狀態(tài),進行監(jiān)視;而“控”則是對已經(jīng)發(fā)生的故障進行處理和修復(fù)。

正因為ITOM市場存在的時間最長,所以競爭也最為激烈,堪稱紅海。不僅有很多專業(yè)的運維管理軟件廠商,一些服務(wù)器、存儲和網(wǎng)絡(luò)設(shè)備廠商也都有自己的監(jiān)控系統(tǒng)與解決方案,比如大名鼎鼎的IBM Tivoli,HP Openview等。由于傳統(tǒng)運維主要是“搬箱子”之類簡單、繁瑣的工作,所以更多的企業(yè)都向上尋求業(yè)務(wù)空間,這樣就來到了軟件層。

三、

相對于硬件平臺監(jiān)控來說,軟件的應(yīng)用場景更為廣闊。這個層面的主要表現(xiàn)形式是各種應(yīng)用、系統(tǒng)組件、中間件等等。而針對應(yīng)用性能的診斷和管理,如今最流行的解決方案就是APM。所謂APM,即Application Performance Management ,包含Web應(yīng)用(網(wǎng)站)監(jiān)控、移動(APP)應(yīng)用監(jiān)控、API接口健康檢查及監(jiān)控、應(yīng)用拓撲關(guān)聯(lián)分析和業(yè)務(wù)性能診斷等。

作為在中國市場涉足APM領(lǐng)域最早的公司,云智慧在多年之前就以用戶體驗為核心指標,推出了端到端APM解決方案,通過覆蓋全部技術(shù)棧的應(yīng)用性能指標的采集、分析和統(tǒng)計,為用戶提供更加便捷、更優(yōu)成本、更高質(zhì)量的應(yīng)用系統(tǒng)監(jiān)測與前瞻性數(shù)據(jù)分析,持續(xù)提升應(yīng)用產(chǎn)品的開發(fā)、運維和運營效率。在Andy看來,“APM服務(wù)能夠幫助開發(fā)和運維人員深入到系統(tǒng)黑匣子之內(nèi)診斷和發(fā)現(xiàn)問題,極大的提升了運維工作效率,加速了產(chǎn)品迭代周期,讓企業(yè)能夠?qū)⒏噘Y源投入到更加擅長的業(yè)務(wù)領(lǐng)域”。

由于APM有較高的技術(shù)門檻,在很長一段時間內(nèi),像云智慧這樣的APM廠商僅僅有三四家。但是隨著云服務(wù)被廣大企業(yè)所接受,應(yīng)用的作用和價值愈發(fā)凸顯,越來越多的傳統(tǒng)運維管理廠商和B2B創(chuàng)業(yè)者投身APM領(lǐng)域,整個市場已經(jīng)從藍海轉(zhuǎn)變?yōu)榧t海。為了迎接新的挑戰(zhàn),Andy又在思索著更多的出路。

于是有了業(yè)務(wù)運維。

四、

前文提到,每到年終歲末,Andy的一項重要工作就是找各大企業(yè)的CIO/CTO溝通、交流,以此確定未來的發(fā)展策略。這部分用戶在IT用戶劃分中是最高端的,也是從整體層面把控IT發(fā)展的人群。隨著IT在企業(yè)內(nèi)部的地位不斷提升,CIO們需要更加貼合業(yè)務(wù)的數(shù)據(jù)分析、更加直觀的結(jié)果報告與指導(dǎo)性的解決方案,而不是簡單的一個新產(chǎn)品或者一項新技術(shù)。

“從硬件到軟件、再到數(shù)據(jù),IT層次越高越抽象了,十年前或者幾年前很少有人會從用戶和業(yè)務(wù)數(shù)據(jù)的角度考慮IT的事情,而最近幾年大家在這個層面看問題,找方向”,說到這里,Andy有些激動。恰恰是看到了如此強烈的客戶需求,云智慧才能從產(chǎn)品的層面更進一步,從監(jiān)控寶、透視寶的具體產(chǎn)品中升華出來,以業(yè)務(wù)數(shù)據(jù)和IT數(shù)據(jù)為藍本,為企業(yè)客戶提供更有價值的業(yè)務(wù)運維解決方案。

“現(xiàn)階段的CIO們會更加關(guān)心客戶滿意度怎么樣,業(yè)務(wù)線收入怎么樣,用戶轉(zhuǎn)化率怎么樣。而IT系統(tǒng)是什么樣子,有沒有問題;如果有問題,原因在哪里;IT部門怎么能夠更快的發(fā)現(xiàn),怎么能夠更快的修復(fù)?這是業(yè)務(wù)運維平臺干的事”。

這也就是云智慧業(yè)務(wù)運維架構(gòu)的邏輯。相對于傳統(tǒng)聚焦在一個功能點或者一條產(chǎn)品線的視角,業(yè)務(wù)運維從業(yè)務(wù)的全局角度自上而下考慮問題,這也就幫助管理者能夠分辨輕重緩急,酌情處理IT問題——對業(yè)務(wù)影響嚴重的問題必須第一時間處理,而不影響業(yè)務(wù)的問題完全可以放一放。

Andy將云智慧的業(yè)務(wù)運維的IT價值概括為八個字“監(jiān)控、發(fā)現(xiàn)、報警、處置”,相應(yīng)的云智慧也為此付出了八年的時間。在運維的早期,比如2010年左右,那時候運維工具還僅限于“監(jiān)控”和“發(fā)現(xiàn)”的層面,也就是我們說的基礎(chǔ)設(shè)施層面。隨后伴隨著CMDB、伴隨著NPM和APM的落地,發(fā)展自動化運維已經(jīng)成為業(yè)界的共識,實現(xiàn)了故障的自動巡檢和應(yīng)用的自動部署。而如今,擁有大數(shù)據(jù)分析和機器學(xué)習(xí)能力的業(yè)務(wù)運維平臺,正在逐步實現(xiàn)自動化處置。

這很大程度上得益于人工智能技術(shù)技術(shù)的成熟。在此之前,所有的處置都是依靠人來進行,系統(tǒng)能夠在故障之初發(fā)布告警,給運維人員發(fā)郵件或者短信,但是這之后就需要人工對故障進行響應(yīng)、判斷和處理,而人為因素恰恰是造成IT災(zāi)難的最大隱患。

對于云智慧來說,這是一次里程碑式的的升級。

一方面,業(yè)務(wù)運維平臺可以進行對海量告警信息進行聚合、分類和預(yù)處理,讓故障信息并非是一股腦爆發(fā)而是按照對業(yè)務(wù)的影響程度分級提供給不同的運維人員,同時通過根因分析準確定位故障節(jié)點,節(jié)省用戶的排查時間。而在另一方面,云智慧在告警信息處理方面積累了高達PB級別的海量數(shù)據(jù),結(jié)合機器學(xué)習(xí)和深度學(xué)習(xí)技術(shù),業(yè)務(wù)運維可以針對不同的故障給出對應(yīng)的解決方案,并在下一次事故發(fā)生前進行預(yù)判。

如今,云智慧的業(yè)務(wù)運維平臺借助于AI技術(shù)正在進行快速迭代,同時Andy秉承著互聯(lián)網(wǎng)的開放精神,把業(yè)務(wù)運維平臺的能力以API接口的方式開放出來,以便吸納更多的合作伙伴。相對于18個月之前解決方案剛剛發(fā)布時,如今的業(yè)務(wù)運維平臺已經(jīng)實現(xiàn)了商業(yè)化與產(chǎn)品化,并正在為包括金融、制造、連鎖快消等許多世界500強規(guī)模的客戶提供服務(wù),幫助這些企業(yè)在利舊的基礎(chǔ)上實現(xiàn)運維管理的升級。

在Andy看來,目前業(yè)務(wù)運維市場還是藍海,云智慧也是國內(nèi)第一家實現(xiàn)產(chǎn)品化的公司。在談到未來的時候,Andy提到了三個關(guān)鍵詞:持續(xù)迭代、場景落地和廣泛兼容。當然對于云智慧這樣的公司來說,他認為應(yīng)該專注于技術(shù)研發(fā),做好業(yè)務(wù)運維平臺的核心能力是第一位的。至于滿足更廣闊的數(shù)字化市場需求,和合作伙伴攜手共贏才是王道。

“業(yè)務(wù)運維這個事,我們越搞越有信心”,Andy說。

后記:從最初的搬箱子到現(xiàn)在的自動化,IT運維實現(xiàn)了從“平民到皇帝”的轉(zhuǎn)變。原本只屬于輔助、后勤、從屬地位的IT運維伴隨著互聯(lián)網(wǎng)化、數(shù)字化的推進逐漸走到前臺,同時IT價值的爆發(fā)也倒逼著管理者必須重視業(yè)務(wù)運維。對于云智慧來說,從最早的監(jiān)控寶產(chǎn)品到如今的業(yè)務(wù)運維平臺,它正在幫助越來越多的客戶擺脫傳統(tǒng)手工運維的束縛,向著智能化的新藍海闊步前行。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容