DevOps藍(lán)圖思考

最近在做18年規(guī)劃,思考運(yùn)維到底應(yīng)該干哪些事,得出如下圖表一張,歡迎各位同仁一起討論

DevOps藍(lán)圖



* 定標(biāo)準(zhǔn)

我們希望線(xiàn)上環(huán)境是統(tǒng)一的、干凈的、規(guī)范的,所以就要定標(biāo)準(zhǔn),比如:

● ?機(jī)型:線(xiàn)上機(jī)型盡量少,省得光各種機(jī)型的備機(jī)就一大堆,浪費(fèi)成本,針對(duì)少量機(jī)型做精,穩(wěn)定性也更容易做

● ?OS:比如統(tǒng)一CentOS6.3,統(tǒng)一kernel,統(tǒng)一各種優(yōu)化配置,更安全,更穩(wěn)定

● ?第三方軟件:比如MySQL、Tomcat、Nginx,盡量統(tǒng)一版本,統(tǒng)一擴(kuò)展,統(tǒng)一部署方式,統(tǒng)一監(jiān)控方式

● ?發(fā)布標(biāo)準(zhǔn):比如啟停腳本,啟動(dòng)賬號(hào),LOG格式、切分方式,部署路徑,watchdog

● ?監(jiān)控標(biāo)準(zhǔn):制定指標(biāo)黃頁(yè),機(jī)器、網(wǎng)絡(luò)、業(yè)務(wù)程序、中間件等等都要如何監(jiān)控,程序如何吐出反應(yīng)自身健康狀況的指標(biāo)均要定規(guī)范


* 資源管理

運(yùn)維作為一個(gè)支撐性的部門(mén),沒(méi)辦法賺錢(qián),但可以省錢(qián),把資源盡量合理利用起來(lái),花更少的錢(qián)辦更多的事

● ?做好預(yù)算,容量規(guī)劃,看業(yè)務(wù)增量得出預(yù)算機(jī)器量

● ?各種機(jī)型需要備機(jī)配比,避免某機(jī)器壞了之后找不到備機(jī)可換

● ?機(jī)器生命周期管理,流轉(zhuǎn)流程,比如上線(xiàn),下線(xiàn),故障,借用等等

● ?通過(guò)類(lèi)似服務(wù)樹(shù)這樣的系統(tǒng),分門(mén)別類(lèi)的管理機(jī)器,知道每個(gè)機(jī)器的用途

● ?通過(guò)類(lèi)似Borg這樣的統(tǒng)一調(diào)度系統(tǒng),混部服務(wù),提升資源利用率


* 監(jiān)控

監(jiān)控作為運(yùn)維的眼睛,穩(wěn)定性的必要保障,必須要做好,做全面,做穩(wěn)定,所有服務(wù)都掛了,監(jiān)控不能掛

● ?監(jiān)控系統(tǒng)自身構(gòu)建,監(jiān)控?cái)?shù)據(jù)量比較大,是運(yùn)維系統(tǒng)中一個(gè)非常有難度的系統(tǒng),可以參考的比如Borgmon、Gorilla、OpenTSDB、Open-Falcon等等

● ?機(jī)器性能監(jiān)控、基礎(chǔ)環(huán)境監(jiān)控、日志監(jiān)控、網(wǎng)絡(luò)監(jiān)控、訪(fǎng)問(wèn)質(zhì)量監(jiān)控、業(yè)務(wù)監(jiān)控,等等等等,沒(méi)有最全,只有更全

● ?部分問(wèn)題報(bào)警之后,處理步驟是重復(fù)的固化的,這樣的場(chǎng)景可以考慮故障自愈,無(wú)人值守自動(dòng)處理,即使無(wú)法自動(dòng)處理,也可以自動(dòng)抓現(xiàn)場(chǎng),提供后續(xù)分析依據(jù)


* 安全

所謂安全無(wú)小事,安全直接關(guān)系到一個(gè)公司的存亡,有的公司會(huì)把安全團(tuán)隊(duì)放到運(yùn)維部門(mén)下面,有的是單拎出來(lái),不管組織結(jié)構(gòu)怎么劃分,安全都是運(yùn)維一定要重點(diǎn)關(guān)注的

● ?登錄控制和操作審計(jì),比如各個(gè)公司做的堡壘機(jī)、跳板機(jī),控制哪些人可以登錄哪些機(jī)器,而且所有操作均有記錄,均可審計(jì)

● ?安全接入,比如防DDOS,流量清洗,在公司所有服務(wù)之前,放置一道讓人信賴(lài)的長(zhǎng)城

● ?服務(wù)安全,比如研發(fā)同學(xué)使用統(tǒng)一的框架,避免一些編碼上的安全漏洞,再經(jīng)常做一下漏洞掃描,掃掃更健康


* 災(zāi)難管理

線(xiàn)上服務(wù)穩(wěn)定性是運(yùn)維同學(xué)的第一要?jiǎng)?wù),災(zāi)難管理,是其中重要一環(huán)

● ?首先服務(wù)架構(gòu)本身,上線(xiàn)之前就要考慮好怎么做容災(zāi),有單點(diǎn)的系統(tǒng)顯然是過(guò)不了準(zhǔn)入的,運(yùn)維同學(xué)不能接

● ?重要數(shù)據(jù)必須做好備份,只備份沒(méi)演練可能會(huì)步了gitlab的后塵,所以定期演練必不可少,另外提前找好擅長(zhǎng)數(shù)據(jù)恢復(fù)的伙伴,省得臨時(shí)抱佛腳

● ?線(xiàn)上所有變更操作,故障處理,需求處理都要有完善的SOP,新人來(lái)了,看著SOP,就可以搞定

● ?宕機(jī)演練,定期巡檢要常做,預(yù)料外的故障是我們最不希望看到的


* 訪(fǎng)問(wèn)質(zhì)量

公司做的業(yè)務(wù)如果是To C的,這塊就重要了,互聯(lián)網(wǎng)客戶(hù)都沒(méi)多少耐心,不要讓客戶(hù)感覺(jué)網(wǎng)站響應(yīng)慢,這會(huì)直接導(dǎo)致客戶(hù)流失

● ?訪(fǎng)問(wèn)質(zhì)量要做全國(guó)甚至全球監(jiān)控,各個(gè)省市,各個(gè)主要鏈路,搞個(gè)大屏,全國(guó)用戶(hù)訪(fǎng)問(wèn)質(zhì)量清晰可見(jiàn)

● ?通過(guò)CDN,圖片優(yōu)化,緩存策略,流量調(diào)度等等手段,讓網(wǎng)站訪(fǎng)問(wèn)速度變成與友商競(jìng)爭(zhēng)的一大優(yōu)勢(shì)


* 變更管理

對(duì)線(xiàn)上做變更,是導(dǎo)致線(xiàn)上問(wèn)題的一大源頭,這塊要單獨(dú)拎出來(lái)說(shuō)說(shuō)

● ?系統(tǒng)組交付機(jī)器之后,首先要根據(jù)自身業(yè)務(wù)特點(diǎn)做一次初始化,對(duì)操作系統(tǒng)做一些配置,安裝一些必要的軟件,比如機(jī)器掛載到服務(wù)樹(shù)自動(dòng)觸發(fā)初始化策略

● ?大點(diǎn)的公司,每天幾千次發(fā)布很正常,有個(gè)部署平臺(tái)很重要,歷史版本要可回溯,一鍵回滾,支持各種策略各種并發(fā)度上線(xiàn),具備分發(fā)大文件到幾萬(wàn)甚至幾十萬(wàn)臺(tái)機(jī)器的能力

● ?關(guān)聯(lián)關(guān)系類(lèi)型的配置可以采用統(tǒng)一的名字服務(wù)解決,開(kāi)關(guān)類(lèi)的配置可以采用中心化配置中心或者采用一次發(fā)布解決,每個(gè)程序如果都支持reload配置倒是不錯(cuò)


* 編程框架

編程框架好像跟運(yùn)維無(wú)關(guān),實(shí)則不然。統(tǒng)一的編程框架會(huì)讓運(yùn)維復(fù)雜度降低,還可以在框架中嵌入運(yùn)維邏輯,不考慮運(yùn)維的架構(gòu)師不是好架構(gòu)師

● ?統(tǒng)一RPC框架,統(tǒng)一重試策略,統(tǒng)一名字服務(wù),統(tǒng)一配置管理,統(tǒng)一watchdog,統(tǒng)一監(jiān)控方式,統(tǒng)一日志打印...

● ?多環(huán)境支持:開(kāi)發(fā)環(huán)境,單測(cè)環(huán)境,集測(cè)環(huán)境,小流量環(huán)境,線(xiàn)上環(huán)境...用同一個(gè)發(fā)布包上線(xiàn),搞定配置不同的問(wèn)題

● ?服務(wù)治理方面,比如接口權(quán)限控制,接口版本管理,流控,路由規(guī)則,等等


* 自動(dòng)化平臺(tái)

運(yùn)維這個(gè)行當(dāng),不是一個(gè)console一個(gè)pssh就萬(wàn)事大吉的,也需要相關(guān)系統(tǒng)的支持,提高工作效率,提高穩(wěn)定性

● ?發(fā)布之前:版本管理系統(tǒng),比如gitlab、編譯打包平臺(tái)、制品管理倉(cāng)庫(kù)

● ?發(fā)布中:機(jī)器管理分組系統(tǒng),部署系統(tǒng),大文件分發(fā)工具

● ?發(fā)布之后:監(jiān)控系統(tǒng),資源利用率平臺(tái)

● ?日常工作:初始化平臺(tái)來(lái)初始化操作系統(tǒng),跳板機(jī)、堡壘機(jī)控制登錄,工單系統(tǒng)等等


* 結(jié)語(yǔ)

如果一個(gè)公司注重服務(wù)穩(wěn)定性、安全性,注重成本控制,那就應(yīng)該注重運(yùn)維,這群默默工作在服務(wù)背后的背鍋俠,請(qǐng)珍惜!

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容