打造平臺穩(wěn)定性能力
限流和降級
這兩種能力是平臺在服務(wù)化體系下還能保持穩(wěn)定運行所必須具備的
實現(xiàn)這兩個功能是簡單的,但是要中臺化,阿里是通過哨兵系統(tǒng)來實現(xiàn)
-
sentinel哨兵系統(tǒng)四大功能模塊
1.授權(quán)——通過配置白名單與黑名單的方式對HSF的接口和方法進行調(diào)用權(quán)限的控制
限流——對我寫資源進行調(diào)用的保護,防止資源的過度調(diào)用
降級——判斷依賴的資源的響應(yīng)情況,當(dāng)依賴的資源響應(yīng)時間過長時,進行自動降級,并且在指定的時間后自動恢復(fù)調(diào)用
監(jiān)控——提供了你下面的運行狀態(tài)監(jiān)控,實時監(jiān)控資源的調(diào)用情況
兩個基礎(chǔ)概念,資源和策略,對我寫的資源采取不同的控制策略,起到保障應(yīng)用穩(wěn)定性的作用
流量調(diào)度
-
分布式系統(tǒng)中單個結(jié)點問題會影響整個鏈路或者系統(tǒng)
分布式服務(wù)環(huán)境調(diào)用鏈路局部問題會被放大到整個鏈路
單點、局部問題會被放大成面
-
實現(xiàn)原理
秒級獲取服務(wù)器系統(tǒng)運行指標(biāo)以及業(yè)務(wù)指標(biāo),通過流量調(diào)度平臺設(shè)置的決策算法以及規(guī)則,來進行服務(wù)上下線等操作
業(yè)務(wù)開關(guān)
統(tǒng)一的業(yè)務(wù)開關(guān)管理switch平臺
-
多種不同類型的配置項和業(yè)務(wù)開關(guān)的基礎(chǔ)推送功能和推送方式
線上控制臺直接推送到內(nèi)存
線上控制臺持久化推送
diamond控制臺直推送
HTTP API推送
容量壓測及評估規(guī)劃
容量壓測是通過線上真實的流量引流到壓測目標(biāo)機器上,從而獲取到單機QPS數(shù)據(jù)及發(fā)現(xiàn)可能的性能問題
評估規(guī)劃即通過上面獲取的數(shù)據(jù)在評估預(yù)測平臺來進行服務(wù)的規(guī)劃部署
全鏈路壓測平臺
個人認為很重要,但是容易被忽視的就是全鏈路壓測,在分布式系統(tǒng)中,以往的測試或者普通壓測不再能發(fā)現(xiàn)服務(wù)對整個鏈路的影響,全鏈路壓測至關(guān)重要,往往新增一個旁路的接口調(diào)用故障超時,就可能導(dǎo)致整個鏈路崩潰,而整個業(yè)務(wù)鏈路的性能取決于速度最慢的服務(wù)
業(yè)務(wù)一致性平臺
-
實時業(yè)務(wù)審計平臺(Business Check Platform, BCP)
高實時性地發(fā)現(xiàn)業(yè)務(wù)臟數(shù)據(jù)或錯誤邏輯實現(xiàn),第一時間發(fā)現(xiàn)并及時通知技術(shù)保障人員,而不是等客戶反饋
方便地接入各種業(yè)務(wù)規(guī)則,通過腳本規(guī)則編寫的方式,讓各應(yīng)用快速接入業(yè)務(wù)審計平臺
整合訂正工具,形成規(guī)范的贓數(shù)據(jù)訂正流程
業(yè)務(wù)上線的實時監(jiān)控,新上線業(yè)務(wù)可以很方便地進行校驗