如何有效預(yù)防宕機(jī)?你需要掌握這4個方法

隨著應(yīng)用架構(gòu)的不斷演進(jìn),IT 系統(tǒng)也變得越來越復(fù)雜,這樣就容易產(chǎn)生各類宕機(jī)事件。就在今年,國內(nèi)外就出現(xiàn)了多起宕機(jī)事故。

  • 2015年1月27日,網(wǎng)友發(fā)現(xiàn)無法登陸 Facebook,頁面顯示「對不起,出故障了,目前正在搶修,會盡快修復(fù)」。

  • 2015年3月11日,包括 App Store、iTunes Store、Mac App Store 以及 iBooks Store 在內(nèi)的一系列蘋果在線商店服務(wù),遭遇大面積服務(wù)中斷。據(jù)統(tǒng)計(jì)事故恢復(fù)時間長達(dá)11個小時。

  • 2015年5月,陌陌、網(wǎng)易、支付寶、攜程網(wǎng)、藝龍網(wǎng)、招商證券、同花順、齊魯證券接連發(fā)生故障......

宕機(jī)事件會引發(fā):

  • 最直接或者間接的經(jīng)濟(jì)損失!如果是社交類、服務(wù)類的應(yīng)用,就會嚴(yán)重影響用戶體驗(yàn),會造成用戶流失,其后果不亞于一般的經(jīng)濟(jì)損失,甚至直接影響到品牌價(jià)值。
如何有效預(yù)防宕機(jī)?你需要掌握這4個方法
如何有效預(yù)防宕機(jī)?你需要掌握這4個方法
  • 宕機(jī)事件發(fā)生后,必然會耗費(fèi)大量工程師的精力和時間,這也是重要的「人力資源」損失。而且頻發(fā)的宕機(jī)事故,會嚴(yán)重影響整個團(tuán)隊(duì)的士氣。

所以當(dāng)故障發(fā)生后,最快恢復(fù)故障是第一要務(wù)。而故障恢復(fù)時間(mean time to resolve)是重要的考核指標(biāo),那么如何有效降低故障恢復(fù)時間,就是運(yùn)維團(tuán)隊(duì)面臨的最嚴(yán)峻挑戰(zhàn)。

預(yù)防宕機(jī)事件的 4 個方法

降低事件和告警數(shù)量

相信不少同學(xué)有過被大量的告警郵件、短信撐爆郵箱的經(jīng)歷。更有甚者,專門采購一臺手機(jī)來接收各種監(jiān)控短信,但大量無效的干擾事件、告警短信蒙蔽了運(yùn)維同學(xué)的雙眼,而這樣會導(dǎo)致一個后果,就是一些重要故障可能會被忽略掉了。因此識別和確定重要故障尤為重要,而且大量的告警信息也是不合適的。所以,我們需要持續(xù)地降低事件和告警數(shù)量,但隨著 IT 系統(tǒng)的不斷升級變更,配套的監(jiān)控就會調(diào)整,此時告警數(shù)量又會增加,所以我們要進(jìn)行持續(xù)的調(diào)整。

國內(nèi)第一個 SaaS 模式的云告警平臺 OneAlert 就可以幫助用戶很好地解決這個問題,該平臺集成了國內(nèi)外多種主流的監(jiān)控和支撐系統(tǒng),在一個平臺上就可以集中處理所有 IT 事件, OneAlert 可以深度分析事件趨勢,并進(jìn)行回顧和優(yōu)化操作,從真正意義上降低事件和告警數(shù)量。

降低故障恢復(fù)時間

首先需要收集有效數(shù)據(jù),通過 OneAlert 對事件進(jìn)行收集和分析,我們發(fā)現(xiàn)了兩種情況:事件少,處理時間長;事件多,處理時間短,這兩者都不合理。前者是不出事,出事就是大事,總結(jié)起來就是一句話:「監(jiān)控不到位」。后者就是頻繁的小事,經(jīng)常會耗費(fèi)整個團(tuán)隊(duì)的大量精力。最合理的方式就是是事件和處理時間的平衡。中間數(shù)(median time of resolve)的處理時間應(yīng)該是20-30分鐘,這僅供參考。當(dāng)然,最理想的狀態(tài)是事件和恢復(fù)時間同步日趨減少。

降低故障響應(yīng)時間

如果我們的系統(tǒng)發(fā)生故障,第一時間能夠發(fā)現(xiàn)問題當(dāng)然是最好的,然而如果沒有成熟的管理體系,故障的發(fā)現(xiàn)時間會延遲很久。例如:凌晨1點(diǎn)發(fā)生故障,早上7點(diǎn)起來看手機(jī)才知道故障,就算再快處理,也是好幾個小時之后的事情了。所以建立快速響應(yīng)機(jī)制是非常有必要的,最理想的方式就是響應(yīng)時間能夠迅速下降。在這一點(diǎn)上,OneAlert 提供了微信和電話的報(bào)警功能,能讓用戶第一時間得到報(bào)警通知,可以最快響應(yīng)故障問題的處理。

升級策略

當(dāng)事件發(fā)生后,如果在規(guī)定時間內(nèi)沒有處理,而事件可能會無限期的拖延或者是遺漏,如果建立有效的升級策略和高效的管理組織,就能夠避免類似問題發(fā)生。現(xiàn)在,OneAlert 還提供了事件升級機(jī)制,如果一線值班人員拖延或者遺漏,則會升級到二線,以此類推,從而有效地防止故障問題疏漏。

如何有效預(yù)防宕機(jī)?你需要掌握這4個方法
如何有效預(yù)防宕機(jī)?你需要掌握這4個方法

我們相信,如果能夠有效利用上面4個數(shù)據(jù)指標(biāo),以數(shù)據(jù)驅(qū)動,并進(jìn)行持續(xù)的改進(jìn)和優(yōu)化。就可以有效的降低故障恢復(fù)時間,而且有序的事件處理過程,也能夠讓我們的團(tuán)隊(duì)成員保持良好的體能和精神。

OneAlert 是北京藍(lán)海訊通科技有限公司(OneAPM)旗下產(chǎn)品,是國內(nèi)第一個 SaaS 模式的云告警平臺,集成國內(nèi)外主流監(jiān)控/支撐系統(tǒng),實(shí)現(xiàn)一個平臺上集中處理所有 IT 事件,提升 IT 可靠性。想了解更多信息,請?jiān)L問 OneAlert 官網(wǎng),歡迎免費(fèi)注冊體驗(yàn) 。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容