從廣發(fā)證券的網(wǎng)文里來的。
相發(fā)鏈接https://mp.weixin.qq.com/s/jM5kX-Kf_F1OyWhC_OmpUA
故障可恢復(fù)
- 定義應(yīng)用服務(wù)的可用性目標(biāo)。制定評價系統(tǒng)容量的關(guān)鍵指標(biāo)。
- 在容災(zāi)、主機、服務(wù)層面實現(xiàn)系統(tǒng)應(yīng)用的高可用性。
- 確保系統(tǒng)應(yīng)用依賴的服務(wù)、基礎(chǔ)設(shè)施、應(yīng)用平臺的高可用性。
- 對關(guān)鍵功能自身不可用或依賴服務(wù)不可用時的業(yè)務(wù)健康進行監(jiān)控。
- 在關(guān)鍵功能層面實施限流和降級措施。
- 在技術(shù)架構(gòu)層面實現(xiàn)隔離、熔斷和冗余高可用。
- 在軟件設(shè)計層面采用解耦、并發(fā)、超時機制、重試、
- 以及文件或數(shù)據(jù)可用性檢測。在容災(zāi)層面實施BCM。
- 發(fā)現(xiàn)異常并觸發(fā)恢復(fù)策略的能力。
性能可擴展
- 定義系統(tǒng)容量性能評價目標(biāo)與指標(biāo)。具備彈性伸縮能力的基礎(chǔ)設(shè)施和依賴的技術(shù)平臺。
- 支撐并實現(xiàn)自動、半自動、手動的彈性伸縮能力,包括縱向資源擴容、橫向集群節(jié)點新增或復(fù)制同類型節(jié)點,以及應(yīng)用層面的降級與限流等。
- 應(yīng)用能夠感知性能瓶頸,具備監(jiān)控和壓力測試能力,及時發(fā)現(xiàn)性能瓶頸并觸發(fā)相應(yīng)的擴展或縮減操作。
- 制定性能擴展預(yù)案,并定期進行壓力測試和演練,確保在故障發(fā)生時能夠有信心執(zhí)行預(yù)案。
- 參與系統(tǒng)設(shè)計階段,重點推動系統(tǒng)可擴展性的需求,采用模塊化、微服務(wù)等架構(gòu)設(shè)計,便于未來的擴展和維護。
- 與研發(fā)團隊緊密合作,確保系統(tǒng)設(shè)計時就考慮到性能擴展的需求,并在系統(tǒng)部署和運行過程中能夠快速響應(yīng)性能問題。
- 與研發(fā)溝通容量評估指標(biāo),并在生產(chǎn)環(huán)境中設(shè)置監(jiān)控點,使系統(tǒng)具備容量評估能力,準確評估當(dāng)前系統(tǒng)的性能容量,并預(yù)測在不同負載下的表現(xiàn),為資源擴展提供數(shù)據(jù)支持。
業(yè)務(wù)可監(jiān)控
- 明確不同業(yè)務(wù)類型信息系統(tǒng)的業(yè)務(wù)監(jiān)控覆蓋面要求;
- 業(yè)務(wù)影響面監(jiān)控,比如業(yè)務(wù)黃金指標(biāo)、技術(shù)黃金指標(biāo)、用戶體驗指標(biāo)、安全與風(fēng)控指標(biāo)、廢單數(shù)量等。
- 性能容量監(jiān)控,比如關(guān)鍵性能指標(biāo)、同環(huán)比與基線分析、趨勢分析、容量預(yù)期、行情及時性等。
- 業(yè)務(wù)狀態(tài)監(jiān)控,比如上下場狀態(tài)、訂單狀態(tài)異常、參數(shù)狀態(tài)異常、內(nèi)存加載異常等。
- 業(yè)務(wù)撥測監(jiān)控,比如終端撥測、站點撥測、登錄撥測等。
- 接口撥測監(jiān)控,比如接口可用性、接口性能、接口正確性等。
- 數(shù)據(jù)正確性監(jiān)控,比如回庫數(shù)據(jù)一致性、上下場數(shù)據(jù)一致性、清算數(shù)據(jù)一致性等。
- 業(yè)務(wù)鏈路監(jiān)控,比如上游依賴服務(wù)堵塞、依賴服務(wù)異常、下游系統(tǒng)請求過多、關(guān)鍵鏈路成功率與耗時等。
問題可觀測
- 明確面向業(yè)務(wù)及交易系統(tǒng)可觀測要求。
- 支持行業(yè)主流成熟的 OTLP v1 標(biāo)準作為建設(shè)依據(jù)。
- 制定相關(guān)可觀測數(shù)據(jù)埋點的技術(shù)標(biāo)準,確保從管理決策層到一線專家、從運維到研發(fā)崗位都能達成共識。
- 支持一線運維專家與研發(fā)專家落地健康檢測剖析的自動化編排能力。
- 提供涉及數(shù)據(jù)采控的運維平臺能力,以便在軟件設(shè)計階段進行數(shù)據(jù)埋點。
- 圍繞問題剖析,設(shè)計面向運維、研發(fā)、測試、供應(yīng)商等多種視角的數(shù)據(jù)分析場景。
- 在整合系列數(shù)據(jù)分析可視化之上,推進精準定位的能力建設(shè)。
變更可管控
- 無論是穩(wěn)態(tài)系統(tǒng)還是敏態(tài)系統(tǒng)的灰度發(fā)布,都應(yīng)實施統(tǒng)一的變更計劃管理,確保變更的協(xié)調(diào)性和一致性。
- 變更申請需遵循嚴格的“儀式感”,即要求變更滿足基本的準入條件,從源頭上確保變更的合理性。
- 嚴格管控變更評審過程,包括實施方案、變更風(fēng)險、影響分析、資源準備、問題跟蹤以及配套監(jiān)控等,確保變更的可行性和安全性。
- 提升變更實施的管控能力,包括但不限于實施手段、工具的選擇、發(fā)布頻率的把控,以及出現(xiàn)異常時的應(yīng)對能力,確保變更過程的高效和穩(wěn)定。
- 變更場景自動化,以盡可能減少直接對IT資產(chǎn)對象進行臨時性的操作為目標(biāo),實現(xiàn)變更操作場景自動化。
- 變更影響風(fēng)險分析,在變更前基于變更服務(wù)目錄、上下游依賴等信息評估變更風(fēng)險,為變更前的風(fēng)險防范、資源調(diào)度、變更后保障等提供支撐。
- 變更防御策略管控,對于危險的變更操作行為進行事中的防御管控,盡可能降低操作風(fēng)險。
- 嚴格落實變更后的驗證工作,特別是重要變更項的當(dāng)日技術(shù)驗證,以及變更后到開業(yè)、首日保障、首筆業(yè)務(wù)等關(guān)鍵節(jié)點的驗證,確保變更效果符合預(yù)期。
- 加強變更行為過程事件的采集與控制,利用事件驅(qū)動機制,實時監(jiān)控變更過程中的各項事件,確保變更的透明度和可追溯性。
- 增強對變更對象變化的感知能力,通過實時監(jiān)控和數(shù)據(jù)分析,及時發(fā)現(xiàn)并應(yīng)對變更可能帶來的潛在風(fēng)險。
- 故障的變更定位,基于上述的變更管控數(shù)據(jù)建模,在出現(xiàn)故障時能夠輔助定位是哪個變更引發(fā)的故障。
部署可感知
- 建立系統(tǒng)在交付生產(chǎn)前需要有一份面向應(yīng)用系統(tǒng)的部署配置清單;
- 推動CMDB向應(yīng)用及業(yè)務(wù)配置的擴展,構(gòu)建包括操作系統(tǒng)環(huán)境、應(yīng)用配置、技術(shù)參數(shù)、業(yè)務(wù)參數(shù)、數(shù)據(jù)庫結(jié)構(gòu)、數(shù)據(jù)庫參數(shù)、中間件配置、應(yīng)用平臺配置等在內(nèi)的配置項模型;
- 建立采集配置信息的能力,并以時間片為單位感知配置變化;
- 支持從系統(tǒng)、集群、應(yīng)用到主機等不同視角,隨時獲取相關(guān)配置的數(shù)字化信息;
- 實現(xiàn)配置信息的實時更新和歷史追溯,以支持快速的問題定位和系統(tǒng)恢復(fù)。
效能可評估
- 建立IT資產(chǎn)臺帳管理:以CMDB為中心,建立詳細的IT資產(chǎn)清單,包括硬件、軟件、許可證等,以便更好地規(guī)劃和管理資源。
- 研發(fā)設(shè)計階段落地評價系統(tǒng)運營好壞的效能指標(biāo),并落地效能數(shù)據(jù)。
- 對系統(tǒng)效能指標(biāo)進行數(shù)字化評估,以挖掘低效的IT資源。
- 從平臺支撐角度建立硬件資源池、數(shù)據(jù)庫及中間件平臺,簽訂更優(yōu)惠的許可協(xié)議,提升虛擬化與容器化比例,優(yōu)化測試資源的利用。
- 實施實時監(jiān)控,以便及時發(fā)現(xiàn)性能瓶頸和資源使用情況,進行必要的優(yōu)化,并根據(jù)業(yè)務(wù)增長和IT需求進行容量規(guī)劃,確保軟硬件資產(chǎn)的擴展性和靈活性。
- 定期進行成本效益分析,評估IT資產(chǎn)的投資回報率,優(yōu)化資源配置