在應(yīng)用開發(fā)中,緩存的使用相當廣泛,從硬件上來說有CPU,協(xié)議上有DNS,應(yīng)用也經(jīng)常使用內(nèi)存緩存數(shù)據(jù)庫或者上游系統(tǒng)中返回的數(shù)據(jù)。那我們?yōu)槭裁匆谙到y(tǒng)實現(xiàn)中引入緩存呢?
其實從CPU與內(nèi)存之間使用緩存,內(nèi)存與文件系統(tǒng)之間使用緩存,以及本地進程與遠程進程之間使用緩存的使用來看,使用緩存的目的都是為了提高讀寫的速率,另外一個目的也是為了保護底層系統(tǒng)。
緩存可以說是提高系統(tǒng)并發(fā)訪問的銀彈,下面我們來看看常用的幾種緩存模式。
基于過期時間的簡單模式
基于過期時間的簡單模式就是客戶端先查詢緩存,若緩存中數(shù)據(jù)不存在則訪問數(shù)據(jù)庫,然后將數(shù)據(jù)庫中數(shù)據(jù)寫入緩存,最后客戶端返回。流程如下:

基于過期時間的改進模式
基于過期時間的改進模式相比于基于過期時間的簡單模式的區(qū)別在于當cache失效時,客戶端只有一個線程回去查詢數(shù)據(jù)庫,其他線程等待這個線程的返回結(jié)果。這種改進主要是在遇到緩存擊穿的場景下不至于有大量請求去訪問數(shù)據(jù)庫,減輕了數(shù)據(jù)庫的壓力。
基于加載的簡單模式
前面兩種模式要么存在著緩存擊穿的問題,要么存在客戶端無法需要同步等待數(shù)據(jù)庫數(shù)據(jù)返回,若從數(shù)據(jù)庫中查詢數(shù)據(jù)需要的時間很長,則這時會導(dǎo)致客戶端線程長時間阻塞,影響服務(wù)使用,于是就有了基于加載的簡單模式。
基于加載的簡單模式的流程如下:

流程描述:客戶端查詢緩存,如果緩存的數(shù)據(jù)不存在則查詢數(shù)據(jù)庫,然后將數(shù)據(jù)寫回緩存;若緩存中數(shù)據(jù)存在則先判斷是否需要重新加載,若需要重新加載則這時請求數(shù)據(jù)庫進行一次查詢,然后將數(shù)據(jù)寫回緩存,若不需要加載則直接返回緩存數(shù)據(jù)給客戶端。這里相比過期時間模式的優(yōu)點在于客戶端能夠決定是否返回給客戶端過期數(shù)據(jù)。其中加載數(shù)據(jù)的操作可以分為同步模式和異步模式。
基于加載的改進模式
基于加載的簡單模式的缺點在于每個客戶端在緩存需要加載時都需要進行一次加載操作,基于加載的改進模式的流程:

相比較于基于加載的簡單模式的不同點在于客戶端線程客戶端判斷是否有線程正在從數(shù)據(jù)庫加載數(shù)據(jù),若有線程正在加載數(shù)據(jù)庫數(shù)據(jù)則直接返回緩存中數(shù)據(jù),沒有線程在加載數(shù)據(jù)庫數(shù)據(jù)則該線程加載一次數(shù)據(jù)庫數(shù)據(jù)。該模式在具體的實現(xiàn)上可以在緩存值中添加一個最近一次讀或?qū)懙臅r間戳。
基于加載的續(xù)期模式
前面講的4種模式在加載加載數(shù)據(jù)庫數(shù)據(jù)時有可能出現(xiàn)異常的情況,且在出現(xiàn)異常情況下直接返回錯誤或者返回緩存中已經(jīng)過期的數(shù)據(jù),而基于加載的續(xù)期模式則是在從數(shù)據(jù)庫中加載數(shù)據(jù)異常的時候,在直接將緩存中過期數(shù)據(jù)返回給客戶端的同時還需要將過期數(shù)據(jù)重新寫回緩存。當然其他幾種模式也可以進行同樣的續(xù)期優(yōu)化。
更新失效模式
緩存中的數(shù)據(jù)避免不了修改,這里又有幾種更新失效的模式。
- 模式1(Cache Aside)
先更新數(shù)據(jù)庫,數(shù)據(jù)庫更新成功后,然后再將緩存置為失效。很多使用緩存的同學(xué)錯誤地先將緩存置為失效然后再更新數(shù)據(jù)庫了。 - 模式2(Wite Through)
這種模式是在更新數(shù)據(jù)庫之前先查詢一下緩存,若緩存未失效則直接更新更新緩存,然后由緩存更新數(shù)據(jù)庫;若緩存失效則直接更新數(shù)據(jù)庫。 - 模式3(Write Back)
這種模式就是任何情況下的數(shù)據(jù)更新都直接更新緩存,不用更新數(shù)據(jù)庫,然后由緩存更新數(shù)據(jù)庫。
在實際的應(yīng)用開發(fā)中我們使用模式1的情況會比較多。
以上幾種模式中,判斷緩存中數(shù)據(jù)是否存在的意思等同于判斷緩存中的數(shù)據(jù)是否已經(jīng)變臟。
另外緩存組件還需要考慮緩存穿透的問題,數(shù)據(jù)序列化,數(shù)據(jù)序列化協(xié)議修改,緩存雪崩(基于加載的改進模式和續(xù)費模式能夠解決此問題),緩存key命中率統(tǒng)計等問題。
緩存穿透
緩存穿透是指從數(shù)據(jù)庫加載的數(shù)據(jù)也不存在,導(dǎo)致緩存中數(shù)據(jù)也不存在,導(dǎo)致請求全部落到數(shù)據(jù)庫,緩存穿透在高并發(fā)的情況下會造成數(shù)據(jù)庫和服務(wù)器極大的壓力,常用的解決方法是從數(shù)據(jù)庫中加載的數(shù)據(jù)不存在的情況下,在緩存中設(shè)置默認值。
數(shù)據(jù)序列化協(xié)議修改
有時候我們需要將數(shù)據(jù)的序列化方式從json修改成其他的序列化方式,比如PB,hession等,由于協(xié)議之間不兼容導(dǎo)致在升級的之后導(dǎo)致采用新的協(xié)議去反序列化緩存中的數(shù)據(jù)會失敗。常用的解決方案是在緩存的key中增加一個版本號,通過升級版本號,從而換取不到緩存中數(shù)據(jù),重新從數(shù)據(jù)庫中加載一次,然后采用新的序列化協(xié)議將數(shù)據(jù)存到緩存中。
緩存key的命中率統(tǒng)計
緩存命中率是緩存使用的核心指標。在使用緩存的時候需要對緩存命中率進行監(jiān)控,這樣才能對緩存進行優(yōu)化,比如識別數(shù)據(jù)是否適合進行緩存,調(diào)整緩存的過期時間,數(shù)據(jù)的緩存粒度,雪崩識別。常用的統(tǒng)計方法是基于時間滑動窗口統(tǒng)計命中率,定期將命中率數(shù)據(jù)寫到日志文件中或者kafka,后續(xù)可用awk或者其他其他的計算工具計算一段時間內(nèi)各key的命中率數(shù)據(jù)。