監(jiān)控告警系統(tǒng)(一)

什么是監(jiān)控告警系統(tǒng)
監(jiān)控告警系統(tǒng)是一個軟件系統(tǒng),給用戶提供監(jiān)控、告警、通知的功能??梢杂孟聢D簡單的描述


image.png

監(jiān)控
監(jiān)控系統(tǒng)采集并存儲監(jiān)控對象的一個或者多個指標(biāo)。這里提到了幾個名詞,稍加解釋:
監(jiān)控系統(tǒng):對下采集一個或者多個監(jiān)控對象的指標(biāo)數(shù)據(jù)并存儲,對上暴露接口供上層做應(yīng)用圖形化展示、告警評估、報表;
監(jiān)控對象:在互聯(lián)網(wǎng)和軟件行業(yè),可能是服務(wù)器、虛擬機等基礎(chǔ)設(shè)施,也可能是apiserver、消息隊列、數(shù)據(jù)庫等軟件;
監(jiān)控指標(biāo):監(jiān)控對象的某一特征,例如服務(wù)器的CPU利用率、apiserver的RPS等。一般會周期性的采集,采集方式包括但不限于:Agent主動推送到Server、Server從Agent拉取、Agent發(fā)布Server訂閱等方式,其值跟時間相關(guān),類似下面的數(shù)據(jù):


image.png

告警
告警系統(tǒng)根據(jù)設(shè)定的規(guī)則,周期性評估所有規(guī)則是否滿足條件,并輸出評估結(jié)果。這里解釋一下幾個概念:

告警規(guī)則:告警規(guī)則是一個或者多個監(jiān)控指標(biāo)運算表達式。例如:以一分鐘為評估周期,內(nèi)存使用率峰值大于60%;
評估:對所有的告警規(guī)則進行計算;
評估結(jié)果:評估的結(jié)果有三種情況:
滿足:表達式成立。例如:內(nèi)存使用率峰值>60%;
不滿足:表達式不成立。例如:內(nèi)存使用率峰值<=60%;
數(shù)據(jù)不足:采集的數(shù)據(jù)無法支撐表達式的計算。例如最近一分鐘內(nèi)沒有采集到內(nèi)存使用率的數(shù)據(jù)
通知
大多數(shù)監(jiān)控告警系統(tǒng),會把告警評估后的動作并入告警的范疇,動作可以是執(zhí)行某個操作,但更多的情況是通知某對象,由某對象來執(zhí)行具體的操作。通知模塊負責(zé)將告警評估的結(jié)果發(fā)布出去,涉及到幾個關(guān)鍵部分:
發(fā)布方式:以何種方式發(fā)布?例如:電視墻、大屏、短信、企業(yè)微信、郵件、電話、報警鈴聲等等
發(fā)布范圍:發(fā)布的范圍?例如:手機或者郵件的收件人列表
為什么需要監(jiān)控告警系統(tǒng)
監(jiān)控告警的作用:


監(jiān)控告警系統(tǒng)2.png

圖中監(jiān)控告警系統(tǒng)的使用者包括:
運維人員:人力時代主要的用戶。接受到監(jiān)控告警系統(tǒng)的通知后處理告警,根據(jù)需要查看監(jiān)控數(shù)據(jù),并恢復(fù)監(jiān)控對象的故障;
研發(fā)人員:根據(jù)告警、監(jiān)控報表分析系統(tǒng)問題,指定優(yōu)化方案,提升監(jiān)控對象的可用性;
智能運維系統(tǒng):根據(jù)告警信息調(diào)整監(jiān)控對象,調(diào)整的方法可能有:
根據(jù)負載彈性伸縮
故障隔離
故障恢復(fù)等
總結(jié)起來包括以下兩個方面:
提升系統(tǒng)可用性
改善用戶體驗
提升系統(tǒng)可用性
從上述公式可以看出,想要提升系統(tǒng)可用性,無外乎兩個辦法:
提升MTBF,即提升系統(tǒng)可靠性,讓系統(tǒng)盡可能長時間穩(wěn)定運行不出故障。監(jiān)控告警系統(tǒng)的報表可以幫助研發(fā)人員分析系統(tǒng)存在的問題,不斷改進,以提升可靠性;
降低MTTR,即減少故障修復(fù)時間,讓故障快速恢復(fù)。監(jiān)控告警系統(tǒng)從兩個方面助力:
發(fā)現(xiàn)故障并告知智能運維系統(tǒng)自動擴容、自動恢復(fù)以應(yīng)對過載、故障等情況;
對于沒有智能運維系統(tǒng)或者智能運維系統(tǒng)無法處理的情況及時發(fā)現(xiàn)故障并知會相關(guān)人修復(fù)。
改善用戶體驗


監(jiān)控告警系統(tǒng)3.png

從上圖可以看出,對于產(chǎn)品的用戶來講,一般包含三種角色:
運維人員,負責(zé)所購買產(chǎn)品的運行維護,跟產(chǎn)品研發(fā)團隊的運維人員類似,但關(guān)注的指標(biāo)不同;
資源管理員,負責(zé)資源的規(guī)劃、采購等。需要根據(jù)告警、監(jiān)控的報表調(diào)整資源的規(guī)劃和布局,例如某地資源利用率過低則減少該地的資源投入,某地負載過高則增加資源投入;
智能運維/調(diào)度系統(tǒng),根據(jù)資源使用情況智能調(diào)整資源布局,例如:根據(jù)負載彈性伸縮,根據(jù)特征將流量調(diào)度到最合適的接入點等。
作為一個用戶,對什么樣的產(chǎn)品是更為滿意呢?監(jiān)控告警系統(tǒng)在提升用戶滿意度上又有什么作用?
用戶對什么樣的產(chǎn)品是更為滿意。我覺得能讓用戶滿意的產(chǎn)品至少有以下特點:
穩(wěn)定、安全。這是基本要求;
透明。用戶對產(chǎn)品的知情權(quán),使用該產(chǎn)品能夠給用戶帶來哪些收益,需要用戶付出什么,有哪些限制等;
可操控。用戶可以根據(jù)自身需要進行調(diào)整產(chǎn)品的規(guī)格和期限。
監(jiān)控告警系統(tǒng)在提升用戶滿意度上的作用有:
可以提升系統(tǒng)的可用性;
讓用戶清楚的了解所購買產(chǎn)品的真實運行情況;
將運行情況(告警、報表等)告知用戶,由用戶決定產(chǎn)品的規(guī)格、期限以及分布情況
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容