系統(tǒng)可用性測量

宕機:無計劃、有計劃。
無計劃包括一一
系統(tǒng)級故障,包括主機、操作系統(tǒng)、中間件、數(shù)據(jù)庫、網(wǎng)絡(luò)、電源以及外圍設(shè)備。
數(shù)據(jù)和中介的故障,包括人員誤操作、硬盤故障、數(shù)據(jù)亂了。
還有自然災(zāi)害、人為破壞,以及供電問題等。
有計劃的包括一一
日常任務(wù):備份,容量規(guī)劃,用戶和安全管理,后臺批處理應(yīng)用。
運維相關(guān):數(shù)據(jù)庫維護、應(yīng)用維護、中間件維護、操作系統(tǒng)維護、網(wǎng)絡(luò)維護。
升級相關(guān):數(shù)據(jù)庫、應(yīng)用、中間件、操作系統(tǒng)、網(wǎng)絡(luò),包括硬件升級。
故障分類:
網(wǎng)絡(luò)問題。網(wǎng)絡(luò)鏈接出現(xiàn)問題,網(wǎng)絡(luò)帶寬出現(xiàn)擁塞……
性能問題。數(shù)據(jù)庫慢 SQL、Java Full GC、硬盤 IO 過大、CPU 飆高、內(nèi)存不足……
安全問題。被網(wǎng)絡(luò)攻擊,如 DDoS 等。
運維問題。系統(tǒng)總是在被更新和修改,架構(gòu)也在不斷地被調(diào)整,監(jiān)控問題……
管理問題。沒有梳理出關(guān)鍵服務(wù)以及服務(wù)的依賴關(guān)系,運行信息沒有和控制系統(tǒng)同步……
硬件問題。硬盤損壞、網(wǎng)卡出問題、交換機出問題、機房掉電、挖掘機問題……
#彈力設(shè)計之隔離設(shè)計#
按服務(wù)種類分離:
·跨板塊取數(shù)據(jù)性能低、數(shù)據(jù)合并計算復(fù)雜、業(yè)務(wù)流程跨板塊時一個服務(wù)down就全跪了、跨板塊交互復(fù)雜、跨板塊事務(wù)需要二階段提交。(通常引入大量異步處理模型)。
按角色分離:(多租戶模式)
完全獨立、服務(wù)共享 數(shù)據(jù)隔離、服務(wù)共享 數(shù)據(jù)共享。
隔離設(shè)計的重點:
1. 業(yè)務(wù)大小粒度
2. 復(fù)雜度、成本、性能、資源
3. 高可用、重試、異步、消息中間件、流控、熔斷等設(shè)計模式
4. 自動化運維
5. 監(jiān)控系統(tǒng)