
內(nèi)容來源:2017年4月23日,優(yōu)云軟件解決方案中心總監(jiān)童華權(quán)在“云時(shí)代下的運(yùn)維管理實(shí)踐”進(jìn)行《優(yōu)云新一代智能化運(yùn)維管理解決方案》演講分享。IT 大咖說(ID:itdakashuo)作為獨(dú)家視頻合作方,經(jīng)主辦方和講者審閱授權(quán)發(fā)布。
閱讀字?jǐn)?shù):3981 | 6分鐘閱讀
獲取嘉賓演講視頻回放及PPT,請(qǐng)點(diǎn)擊:http://t.cn/RsDFrEC
摘要
優(yōu)云軟件解決方案中心總監(jiān)童華權(quán)為我們帶來優(yōu)云作為國(guó)內(nèi)在運(yùn)維領(lǐng)域做得比較深刻的廠商,在運(yùn)維管理方面的一些見解。
運(yùn)維面臨的挑戰(zhàn)
數(shù)據(jù)中心進(jìn)入“兩化轉(zhuǎn)變”
數(shù)據(jù)中心轉(zhuǎn)向“兩化轉(zhuǎn)變”,技術(shù)架構(gòu)層面隨著云計(jì)算、大數(shù)據(jù)、物聯(lián)網(wǎng)、微服務(wù)、容器等新技術(shù)廣泛使用,呈現(xiàn)出“混合化”趨勢(shì)。運(yùn)維模式層面上,DevOps理念快速推廣,CI/CD深入人心,尤其是GoogleSRE、國(guó)內(nèi)BATJDevOps等互聯(lián)網(wǎng)實(shí)踐,運(yùn)維模式上也呈現(xiàn)出明顯的態(tài)(Bimodal, Gartner )特征,穩(wěn)態(tài)與敏態(tài)的融合業(yè)務(wù)模式,運(yùn)維模式也出現(xiàn)隨之變化,運(yùn)維管理面臨雙態(tài)IT帶來的挑戰(zhàn)。
軟件定義數(shù)據(jù)中心(SDDC)對(duì)運(yùn)維的挑戰(zhàn)
軟件定義數(shù)據(jù)中心(SDDC)要求具備簡(jiǎn)化并自動(dòng)化的運(yùn)維管理,并支持應(yīng)用和基礎(chǔ)架構(gòu)交付自動(dòng)化。
上圖是軟件定義數(shù)據(jù)中心的模型。軟件數(shù)據(jù)中心對(duì)運(yùn)維和管理有幾個(gè)新的訴求。它要求更加簡(jiǎn)化和自動(dòng)化的運(yùn)維管理能力,還有應(yīng)用和基礎(chǔ)架構(gòu)交付自動(dòng)化能力。這是在新的軟件定義數(shù)據(jù)中心環(huán)境下對(duì)運(yùn)維和管理的一些新訴求。
互聯(lián)技術(shù)架構(gòu)應(yīng)用對(duì)運(yùn)維的挑戰(zhàn)
企業(yè)信息化建設(shè)中,新型互聯(lián)網(wǎng)開放技術(shù)架構(gòu)的廣泛應(yīng)用,對(duì)各類新技術(shù)的運(yùn)維支持成為當(dāng)前迫切的需求。
Devops對(duì)運(yùn)維的挑戰(zhàn)
DevOps理念的快速推廣,促進(jìn)了業(yè)務(wù)與技術(shù)的加速融合,及開發(fā)與運(yùn)維的加速融合,對(duì)運(yùn)維管理尤其是自動(dòng)化運(yùn)維提出更高的要求。
運(yùn)維業(yè)務(wù)模式轉(zhuǎn)變的挑戰(zhàn)
在雙態(tài)背景下,數(shù)據(jù)中心運(yùn)維業(yè)務(wù)模式發(fā)生了明顯轉(zhuǎn)變,技術(shù)與業(yè)務(wù)、開發(fā)與運(yùn)維加速融合。
在開發(fā)層面上,我們要更加注重持續(xù)交付的能力;在運(yùn)維層面上,要求更高水平的自動(dòng)化管理能力和更加敏捷的運(yùn)維管理過程。
因?yàn)橐玫貫闃I(yè)務(wù)服務(wù),所以我們?cè)谟脩艉蜆I(yè)務(wù)層級(jí)也要求有更好的管理和支撐能力。越來越注重用戶的體驗(yàn)和用戶行為的分析,這樣才能為業(yè)務(wù)進(jìn)行保障和促進(jìn)業(yè)務(wù)的發(fā)展。
雙態(tài)運(yùn)維管理理念
新背景下的運(yùn)維管理理念分享
我們提出了一個(gè)軟件定義運(yùn)維(Software Definition Ops)的概念。把運(yùn)維業(yè)務(wù)定義出來并且快速地實(shí)現(xiàn),能夠投入到日常的運(yùn)維過程中去。
運(yùn)維軟件平臺(tái)PaaS化,是運(yùn)維生命力關(guān)鍵,是雙態(tài)運(yùn)維最佳技術(shù)實(shí)踐?;诳啥x的范疇內(nèi)的內(nèi)容,通過平臺(tái)化把它們落地?;谶\(yùn)維PaaS平臺(tái),實(shí)現(xiàn)運(yùn)維場(chǎng)景化的梳理,運(yùn)維場(chǎng)景標(biāo)準(zhǔn)化的確認(rèn),通過更大范疇內(nèi)的自動(dòng)化運(yùn)維把它做出來,還有就是運(yùn)維的可視化以及持續(xù)不斷提升走向智能化的方向。
雙態(tài)運(yùn)維-軟件定義運(yùn)維(SDO)實(shí)踐策略
雙態(tài)通過運(yùn)維PaaS平臺(tái)對(duì)運(yùn)維場(chǎng)景進(jìn)行快速定義即可投入運(yùn)行,實(shí)現(xiàn)面向多變業(yè)務(wù)的敏捷運(yùn)維支撐,包括運(yùn)維場(chǎng)景分析、場(chǎng)景定義、場(chǎng)景運(yùn)營(yíng)、持續(xù)優(yōu)化等生命周期。
數(shù)據(jù)中心運(yùn)維業(yè)務(wù)梳理
數(shù)據(jù)中心運(yùn)維業(yè)務(wù)梳理是運(yùn)維場(chǎng)景分析的依據(jù),是標(biāo)準(zhǔn)化、規(guī)范化的前提,也是自動(dòng)化的基礎(chǔ)。
通過上圖可以把一個(gè)數(shù)據(jù)中心所要管理的內(nèi)容都梳理出來,總結(jié)為四個(gè)方面。
第一個(gè)就是調(diào)研評(píng)估,比如需求管理、風(fēng)險(xiǎn)分析、容量分析等一系列工作。還有就是例行操作、響應(yīng)支持和優(yōu)化改善。
運(yùn)維場(chǎng)景大致可以分為幾個(gè)部分。資產(chǎn)檔案管理,資產(chǎn)檔案管理是現(xiàn)在非常火的一個(gè)CMDB的概念,理清自己到底有多少IT資產(chǎn),形成運(yùn)維的基礎(chǔ)。還有全方位監(jiān)控管理、運(yùn)行值班與故障處置、變更與校對(duì)管理以及巡檢與作業(yè)管理。
雙態(tài)運(yùn)維平臺(tái)建設(shè)
優(yōu)云全棧互聯(lián)網(wǎng)+運(yùn)維平臺(tái)
采用微服務(wù)、大數(shù)據(jù)的新一代互聯(lián)網(wǎng)技術(shù)架構(gòu),定位于運(yùn)維PaaS平臺(tái),采用統(tǒng)一平臺(tái)+產(chǎn)品APP模式,平臺(tái)提供統(tǒng)一采集操作層和資源庫,產(chǎn)品APP基于平臺(tái)服務(wù)和組件規(guī)范,可不斷豐富擴(kuò)展和相互聯(lián)動(dòng)。
1、資產(chǎn)檔案管理
資產(chǎn)配置管理常見問題(一)
由Excel說起的資產(chǎn)配置管理,信息零散、缺乏全局管理,消耗大量的人力成本,及時(shí)性低。
數(shù)據(jù)容易被任意修改,缺乏版本控制,數(shù)據(jù)準(zhǔn)確性低。
資產(chǎn)配置管理常見問題(二)
傳統(tǒng)運(yùn)維工具,資源管理范圍大、維護(hù)過程復(fù)雜,反倒增大的運(yùn)維人員工作負(fù)擔(dān),使用意愿低。
一直處在數(shù)據(jù)維護(hù)的困局當(dāng)中,從未有余力思考如何發(fā)揮配置數(shù)據(jù)的價(jià)值。
數(shù)據(jù)中心IT資產(chǎn)檔案管理方案場(chǎng)景
系統(tǒng)通過全網(wǎng)掃描與自動(dòng)化采集、社交化維護(hù)方式促進(jìn)CMDB的自動(dòng)化構(gòu)建、敏捷化維護(hù)、場(chǎng)景化應(yīng)用。
眾所周知,自動(dòng)化掃描是非常有價(jià)值的。它可以幫助我們找到網(wǎng)絡(luò)環(huán)境中有哪些IP和資源,做到?jīng)]有遺漏。
再通過細(xì)化的配置采集,找出我們所需的數(shù)據(jù)中心里出現(xiàn)的資源詳細(xì)信息,構(gòu)建一個(gè)完整的配置信息。
配置數(shù)據(jù)的維護(hù)需要各自團(tuán)隊(duì)去維護(hù)自己的數(shù)據(jù),讓最熟悉的人負(fù)責(zé)自己的數(shù)據(jù)才是合適的,這就是團(tuán)隊(duì)化的維護(hù)圈。
在數(shù)據(jù)維護(hù)的過程中還要注意反饋機(jī)制,用戶在使用過程中做出相應(yīng)的回復(fù),就是一個(gè)非常好的反饋機(jī)制。所以我們采用了點(diǎn)評(píng)、點(diǎn)贊、訂閱等一些社交化的理念,使用戶覺得使用CMDB的時(shí)候不像一個(gè)上世紀(jì)的老古董,而是具有時(shí)尚化的感覺。
構(gòu)建一個(gè)配置數(shù)據(jù)的消費(fèi)圈,消費(fèi)圈里的人可以共享同一份數(shù)據(jù),這份數(shù)據(jù)也可以通過圖形化的方式展示出來,應(yīng)用到各種各樣分析的場(chǎng)景中。
2、全方位監(jiān)控管理
監(jiān)控常見問題(一)
業(yè)務(wù)應(yīng)用與用戶體驗(yàn)出現(xiàn)問題,而IT基礎(chǔ)設(shè)施一切正常。
我們看到的往往都是一些日常維護(hù)的視角,而用戶所看到的是我們所有問題累積后的結(jié)果。
監(jiān)控常見問題(二)
我們無法感知最終用戶的真實(shí)體驗(yàn),無法了解我們應(yīng)當(dāng)在哪些方面進(jìn)行優(yōu)化改善,更無法奢望獲得用戶的認(rèn)可。
根據(jù)IDC的統(tǒng)計(jì),大約40%的故障是由最終用戶首先發(fā)現(xiàn),并通知服務(wù)臺(tái)的。
監(jiān)控常見問題(三)
故障排查定位花費(fèi)大量的精力,需要網(wǎng)絡(luò)、系統(tǒng)、應(yīng)用、開發(fā)團(tuán)隊(duì)參與,投入大量人力成本。
數(shù)據(jù)中心全方位監(jiān)控方案場(chǎng)景
針對(duì)以上問題,我們提供了面向基礎(chǔ)資源、應(yīng)用后臺(tái)、應(yīng)用前端的監(jiān)控能力。從應(yīng)用用戶體驗(yàn)到應(yīng)用代碼的應(yīng)用端對(duì)端應(yīng)用性能與故障監(jiān)測(cè),并支持業(yè)務(wù)交易與用戶體驗(yàn)監(jiān)測(cè)。
大規(guī)模云監(jiān)控
全面支持傳統(tǒng)架構(gòu)與互聯(lián)網(wǎng)架構(gòu)的監(jiān)控,系統(tǒng)同時(shí)支持非代理方式進(jìn)行資源監(jiān)控。
支持萬節(jié)點(diǎn)資源的秒級(jí)監(jiān)控;支持超過6000個(gè)指標(biāo)及腳本級(jí)擴(kuò)展;支持監(jiān)測(cè)資源進(jìn)行標(biāo)簽化管理與展示;支持監(jiān)控展示儀表盤的自定義。
3、運(yùn)行值班與故障處置
運(yùn)維值班與故障處置常見問題
運(yùn)行值班是IT運(yùn)行的守護(hù)者,我們是否有真正能做到:清晰掌握運(yùn)行態(tài)勢(shì)、快速分析定位故障、觸發(fā)故障處置措施。
常見問題有:運(yùn)行態(tài)勢(shì)展示是否直觀、明了,高層、中層、執(zhí)行層無法各取所需;監(jiān)控告警信息無法集中展現(xiàn)與處理;不具備故障分析與定位的能力;故障處置過程不連續(xù)貫通。
告警流水式處理與故障根因分析
支持告警集中管理,具有高性能告警關(guān)聯(lián)引擎,自動(dòng)化告警處置,做到報(bào)的出、報(bào)得準(zhǔn)、找得對(duì)。
ECC大屏可視化展示
“看得清、管得住”是管理學(xué)的真諦,運(yùn)維可視化是數(shù)據(jù)中心運(yùn)行安全可靠的儀表盤,支持按需設(shè)計(jì)。
ECC大屏設(shè)計(jì)三模式:運(yùn)行態(tài)勢(shì)展示(參觀模式)、運(yùn)維指揮調(diào)度(指揮模式)、運(yùn)行值班模式(值班模式)。
4、巡檢與作業(yè)管理
運(yùn)維操作常見問題
在數(shù)據(jù)中心軟件定義化、技術(shù)架構(gòu)互聯(lián)網(wǎng)化、業(yè)務(wù)快速發(fā)展、應(yīng)用持續(xù)交付等背景下,尤其是Devops理念在運(yùn)維領(lǐng)域的全面推廣,自動(dòng)化運(yùn)維成為運(yùn)維管理能力提升的“點(diǎn)金石”。
運(yùn)維壓力大、效率偏低;運(yùn)維規(guī)范化難以真正落地;運(yùn)維操作存在安全隱患,根據(jù)“墨菲定律”——錯(cuò)誤總在發(fā)生,所以鍋就在那里;業(yè)務(wù)變化帶來的持續(xù)交付壓力;IT服務(wù)的自動(dòng)化交付水平低。
巡檢與作業(yè)管理場(chǎng)景分析
自動(dòng)化操作的標(biāo)準(zhǔn)化、自動(dòng)化,是運(yùn)維規(guī)范化的關(guān)鍵,是提高運(yùn)維效率、降低操作風(fēng)險(xiǎn)的關(guān)鍵,也是快速故障處置與應(yīng)急響應(yīng)的重要手段。
自動(dòng)化巡檢管理
巡檢能力:針對(duì)Windows、Linux、AIX重要指標(biāo)進(jìn)行自動(dòng)巡檢;支持靈活增加系統(tǒng)巡檢項(xiàng)目。
豐富巡檢項(xiàng):系統(tǒng)參數(shù)、服務(wù)狀態(tài)、錯(cuò)誤日志、異常登錄、關(guān)鍵進(jìn)程、合規(guī)檢查。
自動(dòng)化運(yùn)維作業(yè)
系統(tǒng)支持環(huán)境準(zhǔn)備、系統(tǒng)補(bǔ)丁升級(jí)、系統(tǒng)參數(shù)修改、合規(guī)檢查、服務(wù)啟停、數(shù)據(jù)備份、應(yīng)急切換等自動(dòng)化作業(yè)場(chǎng)景。
應(yīng)用持續(xù)交付與Devops
應(yīng)用快速部署,包括環(huán)境準(zhǔn)備、基礎(chǔ)軟件部署、應(yīng)用部署、參數(shù)配置等部署活動(dòng),支持應(yīng)用持續(xù)交付。
作業(yè)場(chǎng)景編排與作業(yè)調(diào)度管理
系統(tǒng)支持運(yùn)維操作最佳實(shí)踐腳本庫,支持靈活的作業(yè)編排與作業(yè)調(diào)度能力,實(shí)現(xiàn)數(shù)據(jù)中心的自動(dòng)化運(yùn)營(yíng)。運(yùn)維人員由炮灰轉(zhuǎn)變成戰(zhàn)場(chǎng)指揮官。
5、變更與交付管理
變更與交付常見問題
運(yùn)維部門具有明確的服務(wù)特性,但服務(wù)便利性、服務(wù)效率、服務(wù)水平等方面我們是否能讓用戶滿意。
不清楚到底對(duì)外提供哪些服務(wù),以及運(yùn)維團(tuán)隊(duì)需要如何進(jìn)行支持不清晰;為最終用戶提供的服務(wù)的途徑單一,往往依賴于電話、郵件;內(nèi)部對(duì)運(yùn)營(yíng)效率與協(xié)作水平較低;缺乏工具與方法讓對(duì)外服務(wù)自動(dòng)化流轉(zhuǎn)。
運(yùn)維服務(wù)流程ITSM
ITIL/DevOps流程全面支持
支持ITIL V3 / ISO20000理念相關(guān)運(yùn)維流程;支持通過服務(wù)目錄梳理運(yùn)維業(yè)務(wù),以服務(wù)目錄驅(qū)動(dòng)流程;支持表單、流程的拖拽式靈活設(shè)計(jì);采用社交化、敏捷的流程交互模式,支持工單的評(píng)論、動(dòng)態(tài)等。
社交化支持
提供工單關(guān)注功能;提供工單的評(píng)論功能,評(píng)論支持回復(fù);評(píng)論支持圈人功能;評(píng)論支持即時(shí)的站內(nèi)信或其他方式通知。
即時(shí)運(yùn)維協(xié)同ChatOps
ChatOps概念定義
ChatOps是一種實(shí)時(shí)聊天驅(qū)動(dòng)型的運(yùn)維模型,通過將自動(dòng)化機(jī)器人植入到聊天會(huì)話當(dāng)中,形成了人、機(jī)器,數(shù)據(jù)的自動(dòng)化、透明化的聯(lián)動(dòng),使運(yùn)維團(tuán)隊(duì)能夠高效的溝通協(xié)作和執(zhí)行任務(wù),ChatOps是DevOps的一種實(shí)踐演進(jìn)方法。
ChatOps幫助組織平滑演進(jìn)到DevOps
ChatOps面向運(yùn)維內(nèi)外部用戶的統(tǒng)一運(yùn)維入口,使用組織運(yùn)維模式對(duì)用戶透明,可以幫助逐步平滑演進(jìn)到DevOps更高階段。
ChatOps在GitHub的起源與應(yīng)用
管理Github內(nèi)部的服務(wù)器,啟停,升級(jí)、打補(bǔ)?。秽]件管理,收發(fā)個(gè)人郵件;代碼提交通知;代碼構(gòu)建,部署上線;數(shù)據(jù)庫管理,刪除數(shù)據(jù),備份數(shù)據(jù)…
運(yùn)維智能化運(yùn)維平臺(tái)建設(shè)規(guī)則
優(yōu)云智能化運(yùn)維管理平臺(tái)可以幫忙各類企業(yè)用戶逐步走向運(yùn)維“一體化”、“自動(dòng)化”、“智能化”的運(yùn)維管理更高水平。
1、一體化,傳統(tǒng)運(yùn)維工具分散,工具間缺乏有效的運(yùn)維數(shù)據(jù)與場(chǎng)景融合,因此基于新技術(shù)架構(gòu)之上運(yùn)維PaaS平臺(tái)成為主流選擇;
2、自動(dòng)化,將人工運(yùn)維轉(zhuǎn)變化自動(dòng)化運(yùn)維,逐步實(shí)現(xiàn)日常運(yùn)維操作與應(yīng)用持續(xù)交付等運(yùn)維場(chǎng)景的自動(dòng)化落地,提高運(yùn)維效率與過程規(guī)范化、降低人工操作風(fēng)險(xiǎn);
3、智能化,通過大數(shù)據(jù)分析、運(yùn)維智能機(jī)器人技術(shù)實(shí)現(xiàn)運(yùn)維智能化管理,支撐故障自愈、容量伸縮、應(yīng)急保障等。
希望優(yōu)云能夠幫助大家從一體化運(yùn)維向自動(dòng)化運(yùn)維轉(zhuǎn)變,并且未來能看到自動(dòng)化的曙光,謝謝大家。
我今天的分享就到這里,謝謝大家!