系統(tǒng)降級

什么是降級

Year GMV
2017 1682.00 億
2016 1207.48 億
2015 912.00 億
2014 571.00 億

2015年雙11,下午四五點左右確認(rèn)收貨被停掉。
2014年雙11, 商品評論功能被停掉。


image.png

高可用系統(tǒng)為了保證自身的高可用性,會在異常情況下限制自身的一些能力,來保證核心功能的可用性。這有點類似武俠小說里面的壯士斷腕,也有點類似于象棋里面的棄車保帥。

為什么需要降級?

在系統(tǒng)復(fù)雜度越來越高的今天,我們可能會經(jīng)常遇到這樣的困擾:一個非核心的功能異常最終導(dǎo)致了整個系統(tǒng)的不可用。比如一個獲取非核心數(shù)據(jù)接口的超時最終導(dǎo)致了整個線程池全部阻塞,影響了核心功能線程的運行;業(yè)務(wù)鏈條中某個環(huán)節(jié)的接口不可用導(dǎo)致整個業(yè)務(wù)鏈的失敗。這樣的例子比比皆是,造成的損失往往也非常大,所以為了避免這種小功能搞垮大系統(tǒng)的情況發(fā)生,降級的概念就應(yīng)運而生了

降級預(yù)案

在進行降級之前要對系統(tǒng)進行梳理,看看系統(tǒng)是不是可以丟卒保帥;從而梳理出哪些必須誓死保護,哪些可降級。

一般:比如有些服務(wù)偶爾因為網(wǎng)絡(luò)抖動或者服務(wù)正在上線而超時,可以自動降級;

警告:有些服務(wù)在一段時間內(nèi)成功率有波動(如在95~100%之間),可以自動降級或人工降級,并發(fā)送告警;

錯誤:比如可用率低于90%,或者數(shù)據(jù)庫連接池被打爆了,或者訪問量突然猛增到系統(tǒng)能承受的最大閥值,此時可以根據(jù)情況自動降級或者人工降級;

嚴(yán)重錯誤:比如因為特殊原因數(shù)據(jù)錯誤了,此時需要緊急人工降級。

降級的類別

  • 降級按照是否自動化可分為:自動開關(guān)降級和人工開關(guān)降級。
  • 降級按照功能可分為:讀服務(wù)降級、寫服務(wù)降級。
  • 降級按照處于的系統(tǒng)層次可分為:多級降級。

降級的功能點

降級的功能點主要從服務(wù)端鏈路考慮,即根據(jù)用戶訪問的服務(wù)調(diào)用鏈路來梳理哪里需要降級:

頁面降級:在大促或者某些特殊情況下,某些頁面占用了一些稀缺服務(wù)資源,在緊急情況下可以對其整個降級,以達到丟卒保帥;

頁面片段降級:比如商品詳情頁中的商家部分因為數(shù)據(jù)錯誤了,此時需要對其進行降級;

頁面異步請求降級:比如商品詳情頁上有推薦信息/配送至等異步加載的請求,如果這些信息響應(yīng)慢或者后端服務(wù)有問題,可以進行降級;

服務(wù)功能降級:比如渲染商品詳情頁時需要調(diào)用一些不太重要的服務(wù):相關(guān)分類、熱銷榜等,而這些服務(wù)在異常情況下直接不獲取,即降級即可;

讀降級:比如多級緩存模式,如果后端服務(wù)有問題,可以降級為只讀緩存,這種方式適用于對讀一致性要求不高的場景;

寫降級:比如秒殺搶購,我們可以只進行Cache的更新,然后異步同步扣減庫存到DB,保證最終一致性即可,此時可以將DB降級為Cache。

爬蟲降級:在大促活動時,可以將爬蟲流量導(dǎo)向靜態(tài)頁或者返回空數(shù)據(jù)從而降級保護后端稀缺資源。

降級策略

1、自動開關(guān)降級

自動降級是根據(jù)系統(tǒng)負(fù)載、資源使用情況、SLA等指標(biāo)進行降級。

image.png

超時降級

當(dāng)訪問的數(shù)據(jù)庫/http服務(wù)/遠(yuǎn)程調(diào)用響應(yīng)慢或者長時間響應(yīng)慢,且該服務(wù)不是核心服務(wù)的話可以在超時后自動降級;

比如商品詳情頁上有推薦內(nèi)容/評價,但是推薦內(nèi)容/評價暫時不展示對用戶購物流程不會產(chǎn)生很大的影響;

對于這種服務(wù)是可以超時降級的。如果是調(diào)用別人的遠(yuǎn)程服務(wù),和對方定義一個服務(wù)響應(yīng)最大時間,如果超時了則自動降級。

統(tǒng)計失敗次數(shù)降級

有時候依賴一些不穩(wěn)定的API,比如調(diào)用外部機票服務(wù),當(dāng)失敗調(diào)用次數(shù)達到一定閥值自動降級;然后通過異步線程去探測服務(wù)是否恢復(fù)了,則取消降級。

故障降級

比如要調(diào)用的遠(yuǎn)程服務(wù)掛掉了(網(wǎng)絡(luò)故障、DNS故障、http服務(wù)返回錯誤的狀態(tài)碼、rpc服務(wù)拋出異常),則可以直接降級。

降級后的處理方案有:

默認(rèn)值(比如庫存服務(wù)掛了,返回默認(rèn)現(xiàn)貨)

兜底數(shù)據(jù)(比如廣告掛了,返回提前準(zhǔn)備好的一些靜態(tài)頁面)

緩存(之前暫存的一些緩存數(shù)據(jù))

限流降級

當(dāng)我們?nèi)ッ霘⒒蛘邠屬徱恍┫拶徤唐窌r,此時可能會因為訪問量太大而導(dǎo)致系統(tǒng)崩潰,此時開發(fā)者會使用限流來進行限制訪問量,當(dāng)達到限流閥值,后續(xù)請求會被降級;

降級后的處理方案可以是:

排隊頁面(紅包)

無貨(直接告知用戶沒貨了)

錯誤頁(如活動太火爆了,稍后重試)

2、人工開關(guān)降級

  • 在大促期間通過監(jiān)控發(fā)現(xiàn)線上的一些服務(wù)存在問題,這個時候需要暫時將這些服務(wù)摘掉;
  • 還有有時候通過任務(wù)系統(tǒng)調(diào)用一些服務(wù),但是服務(wù)依賴的數(shù)據(jù)庫可能存在:網(wǎng)卡被打滿了、掛掉了或者很多慢查詢,此時需要暫停下任務(wù)系統(tǒng)讓服務(wù)方進行處理;
  • 還有發(fā)現(xiàn)突然調(diào)用量太大,可能需要改變處理方式(比如同步轉(zhuǎn)換為異步);

此時就可以使用開關(guān)來完成降級。

開關(guān)可以存放到配置文件、存放到數(shù)據(jù)庫、存放到Redis/ZooKeeper;如果不是存放在本地,可以定期同步開關(guān)數(shù)據(jù)(比如1秒同步一次)。然后通過判斷某個KEY的值來決定是否降級。

另外對于新開發(fā)的服務(wù)想上線進行灰度測試;但是不太確定該服務(wù)的邏輯是否正確,此時就需要設(shè)置開關(guān),當(dāng)新服務(wù)有問題可以通過開關(guān)切換回老服務(wù)。

還有多機房服務(wù),如果某個機房掛掉了,此時需要將一個機房的服務(wù)切到另一個機房,此時也可以通過開關(guān)完成切換。

還有一些是因為功能問題需要暫時屏蔽掉某些功能,比如商品規(guī)格參數(shù)數(shù)據(jù)有問題,數(shù)據(jù)問題不能用回滾解決,此時需要開關(guān)控制降級。

3、讀服務(wù)降級

對于讀服務(wù)降級一般采用的策略有:

暫時切換讀(降級到讀緩存、降級到走靜態(tài)化)

暫時屏蔽讀(屏蔽讀入口、屏蔽某個讀服務(wù))

還有一種是頁面靜態(tài)化場景:

動態(tài)化降級為靜態(tài)化:比如平時網(wǎng)站可以走動態(tài)化渲染商品詳情頁,但是到了大促來臨之際可以將其切換為靜態(tài)化來減少對核心資源的占用,而且可以提升性能;其他還有如列表頁、首頁、頻道頁都可以這么玩;可以通過一個程序定期的推送靜態(tài)頁到緩存或者生成到磁盤,出問題時直接切過去;

靜態(tài)化降級為動態(tài)化:比如當(dāng)使用靜態(tài)化來實現(xiàn)商品詳情頁架構(gòu)時,平時使用靜態(tài)化來提供服務(wù),但是因為特殊原因靜態(tài)化頁面有問題了,需要暫時切換回動態(tài)化來保證服務(wù)正確性。

以上都保證出問題了有預(yù)案,用戶還是可以使用網(wǎng)站,不影響用戶購物。

4、寫服務(wù)降級

寫服務(wù)在大多數(shù)場景下是不可降級的,不過可以通過一些迂回戰(zhàn)術(shù)來解決問題。比如將同步操作轉(zhuǎn)換為異步操作,或者限制寫的量/比例。

5、多級降級

緩存是離用戶最近越高效;而降級是離用戶越近越能對系統(tǒng)保護的好。因為業(yè)務(wù)的復(fù)雜性導(dǎo)致越到后端QPS/TPS越低。

頁面JS降級開關(guān):主要控制頁面功能的降級,在頁面中通過JS腳本部署功能降級開關(guān),在適當(dāng)時機開啟/關(guān)閉開關(guān);

接入層降級開關(guān):主要控制請求入口的降級,請求進入后會首先進入接入層,在接入層可以配置功能降級開關(guān),可以根據(jù)實際情況進行自動/人工降級;

應(yīng)用層降級開關(guān):主要控制業(yè)務(wù)的降級,在應(yīng)用中配置相應(yīng)的功能開關(guān),根據(jù)實際業(yè)務(wù)情況進行自動/人工降級。

( 參考鏈接)[http://www.yunweipai.com/archives/8627.html]
(參考鏈接)
http://fengfu.io/2017/04/23/%E6%9C%8D%E5%8A%A1%E5%8C%96%E6%9E%B6%E6%9E%84-%E6%9C%8D%E5%8A%A1%E9%99%8D%E7%BA%A7/

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容