處理流程
- 在問題發(fā)生后,需要及時知會相關(guān)人員問題,包括:問題發(fā)生時間、問題現(xiàn)象、問題影響
- 開始進(jìn)行問題排查,記錄涉及服務(wù)及對應(yīng)的參與人員
- 一段時間后,若是問題較為棘手,需要耗費更長時間定位,則優(yōu)先考慮實施規(guī)避方案,并同步問題進(jìn)展
- 繼續(xù)完成問題排查,直至問題根因
- 分析現(xiàn)網(wǎng)環(huán)境是否存在相同或類似的問題,若存在,則盡快安排進(jìn)行修復(fù)
- 考慮后續(xù)改進(jìn)工作(根因/觸發(fā)條件/監(jiān)控告警是否生效/等等)
問題進(jìn)展通報模板(參考Google SRE 事后總結(jié))
【xxx服務(wù)問題通報】xxxxxxxxx問題摘要
【問題發(fā)生時間】2018-10-18 xx:xx:xx
【問題描述】xxxxxxxxxx問題詳細(xì)描述
【問題影響】xxxxxxxxxxxxxxxx問題影響
【當(dāng)前狀態(tài)】(已受理/技術(shù)服務(wù)orSREor開發(fā)定位中/已解決,待辦事項進(jìn)行中/...)
【規(guī)避方案】棘手問題需優(yōu)先恢復(fù)環(huán)境
【定位過程】具體定位過程,視情況決定取舍
【根源問題】問題根因
【解決方案】最終解決方案
【相關(guān)人員】涉及服務(wù)、相關(guān)人員
【后續(xù)改進(jìn)/待辦事項】關(guān)鍵步驟,決定我們未來會不會再掉進(jìn)同一個坑里
| 待辦事項 | 類型 | 負(fù)責(zé)人 | TickID |
|---|---|---|---|
| xxxxx | 預(yù)防 | xxx | xxxxx |
【經(jīng)驗教訓(xùn)】做得好的地方/做得不好的地方/幸運的因素
【時間線】記錄問題發(fā)生后相關(guān)的一系列事件及發(fā)生的時間點