AWS云上混沌工程實踐之對照實驗設(shè)計和實施主要講述了亞馬遜混沌工程的實踐經(jīng)驗的分享。將疫苗預(yù)防和混沌工程做類比,緊接著講述混沌工程的實驗?zāi)繕?biāo),混沌工程實驗成熟度等級和混沌工程實驗接納指數(shù),觀測指標(biāo)的設(shè)計,故障注入場景的設(shè)計,實驗工具的選擇,最小爆炸半徑的案例分析。
從1到100:混沌工程實踐的可視化與平臺化主要講述了混沌工程的時機和機遇:隨著敏捷開發(fā),devops,云原生架構(gòu)和治理,引入混沌工程提前發(fā)現(xiàn)問題和解決問題;實施混沌工程的實驗場景:從1個增加到100個。遇到的新挑戰(zhàn):實驗場景如何管理。模板化啊,可以看到借鑒的模板。解決新挑戰(zhàn):混沌工程實驗數(shù)量級增長,平臺化啊,Goblin有故障注入服務(wù),業(yè)務(wù)指標(biāo)觀測服務(wù),流量生成服務(wù),護欄服務(wù),暫停服務(wù),流水線服務(wù)和權(quán)限服務(wù)等;實施混沌工程的業(yè)務(wù)應(yīng)用數(shù)量:從1個增加到100個。新挑戰(zhàn):混沌工程效果評估的復(fù)雜性,混沌工程成熟度評估模型和自動化式可視化;實施混沌工程的人員數(shù)量:從1個增加到100個,新挑戰(zhàn):混沌工程技能和人員培訓(xùn),用混沌工程的游戲日計劃(game day)。
AWS云上混沌工程實踐之對照實驗設(shè)計和實施,來自黃帥-2019


























從1到100:混沌工程實踐的可視化與平臺化 黃帥




混沌工程的時機和機遇(敏捷開發(fā),devops,和云原生架構(gòu)和治理,引入混沌工程提前發(fā)現(xiàn)問題和解決問題)







實施混沌工程的實驗場景:從1個增加到100個

















實施混沌工程的業(yè)務(wù)應(yīng)用數(shù)量:從1個增加到100個






韌性(Resilience)是指軟件通過適度降級和快速恢復(fù)而在遇到故障 時保持可用性的能力。
? 只能通過在遇到故障情況時分析應(yīng)用程序的行為來衡量軟件的韌性。
? 混沌工程實驗用于驗證是否已使用預(yù)防故障的最佳實踐以及軟件行為 是否已達到韌性目標(biāo)。
? 韌性分?jǐn)?shù)是一種報告機制,用于衡量服務(wù)對故障的韌性。




實施混沌工程的人員數(shù)量:從1個增加到100個

新挑戰(zhàn):混沌工程技能和人員培訓(xùn)
混沌工程的游戲日計劃(game day)
混沌工程的“游戲日計劃”是一個基于團隊的交互式和開放式的學(xué)習(xí)與練習(xí)。旨在測試系統(tǒng)中模擬各種事件響應(yīng)的流程,比如故障發(fā)生、被侵入、擴展要求 等等。目的是訓(xùn)練團隊的響應(yīng)能力以及建立如何應(yīng)對的“肌肉記憶 ”。

總結(jié)




