【分布式鎖第三篇 基于Redis的分布式鎖】

基于單Redis節(jié)點(diǎn)的分布式鎖

組件依賴

首先我們要通過Maven引入Jedis開源組件,在pom.xml文件加入下面的代碼:

<dependency>
    <groupId>redis.clients</groupId>
    <artifactId>jedis</artifactId>
    <version>2.9.0</version>
</dependency>

加鎖代碼

正確姿勢

Talk is cheap, show me the code。先展示代碼,再帶大家慢慢解釋為什么這樣實(shí)現(xiàn):

public class RedisTool {
    private static final String LOCK_SUCCESS = "OK";
    private static final String SET_IF_NOT_EXIST = "NX";
    private static final String SET_WITH_EXPIRE_TIME = "PX";
    /**
     * 嘗試獲取分布式鎖
     * @param jedis Redis客戶端
     * @param lockKey 鎖
     * @param requestId 請求標(biāo)識
     * @param expireTime 超期時(shí)間
     * @return 是否獲取成功
     */
    public static boolean tryGetDistributedLock(Jedis jedis, String lockKey, String requestId, int expireTime) {
        String result = jedis.set(lockKey, requestId, SET_IF_NOT_EXIST, SET_WITH_EXPIRE_TIME, expireTime);
        if (LOCK_SUCCESS.equals(result)) {
            return true;
        }
        return false;
    }
}

可以看到,我們加鎖就一行代碼:jedis.set(String key, String value, String nxxx, String expx, int time),這個(gè)set()方法一共有五個(gè)形參:

  • 第一個(gè)為key,我們使用key來當(dāng)鎖,因?yàn)閗ey是唯一的。
  • 第二個(gè)為value,我們傳的是requestId,很多童鞋可能不明白,有key作為鎖不就夠了嗎,為什么還要用到value?原因就是我們在上面講到可靠性時(shí),分布式鎖要滿足第四個(gè)條件解鈴還須系鈴人,通過給value賦值為requestId,我們就知道這把鎖是哪個(gè)請求加的了,在解鎖的時(shí)候就可以有依據(jù)。requestId可以使用UUID.randomUUID().toString()方法生成。
  • 第三個(gè)為nxxx,這個(gè)參數(shù)我們填的是NX,意思是SET IF NOT EXIST,即當(dāng)key不存在時(shí),我們進(jìn)行set操作;若key已經(jīng)存在,則不做任何操作;
  • 第四個(gè)為expx,這個(gè)參數(shù)我們傳的是PX,意思是我們要給這個(gè)key加一個(gè)過期的設(shè)置,具體時(shí)間由第五個(gè)參數(shù)決定。
  • 第五個(gè)為time,與第四個(gè)參數(shù)相呼應(yīng),代表key的過期時(shí)間。
    總的來說,執(zhí)行上面的set()方法就只會導(dǎo)致兩種結(jié)果:1. 當(dāng)前沒有鎖(key不存在),那么就進(jìn)行加鎖操作,并對鎖設(shè)置個(gè)有效期,同時(shí)value表示加鎖的客戶端。2. 已有鎖存在,不做任何操作。

心細(xì)的童鞋就會發(fā)現(xiàn)了,我們的加鎖代碼滿足我們可靠性里描述的三個(gè)條件。首先,set()加入了NX參數(shù),可以保證如果已有key存在,則函數(shù)不會調(diào)用成功,也就是只有一個(gè)客戶端能持有鎖,滿足互斥性。其次,由于我們對鎖設(shè)置了過期時(shí)間,即使鎖的持有者后續(xù)發(fā)生崩潰而沒有解鎖,鎖也會因?yàn)榈搅诉^期時(shí)間而自動解鎖(即key被刪除),不會發(fā)生死鎖。最后,因?yàn)槲覀儗alue賦值為requestId,代表加鎖的客戶端請求標(biāo)識,那么在客戶端在解鎖的時(shí)候就可以進(jìn)行校驗(yàn)是否是同一個(gè)客戶端。由于我們只考慮Redis單機(jī)部署的場景,所以容錯(cuò)性我們暫不考慮。

錯(cuò)誤示例1

比較常見的錯(cuò)誤示例就是使用jedis.setnx()和jedis.expire()組合實(shí)現(xiàn)加鎖,代碼如下:

public static void wrongGetLock1(Jedis jedis, String lockKey, String requestId, int expireTime) {
    Long result = jedis.setnx(lockKey, requestId);
    if (result == 1) {
        // 若在這里程序突然崩潰,則無法設(shè)置過期時(shí)間,將發(fā)生死鎖
        jedis.expire(lockKey, expireTime);
    }
}

setnx()方法作用就是SET IF NOT EXIST,expire()方法就是給鎖加一個(gè)過期時(shí)間。乍一看好像和前面的set()方法結(jié)果一樣,然而由于這是兩條Redis命令,不具有原子性,如果程序在執(zhí)行完setnx()之后突然崩潰,導(dǎo)致鎖沒有設(shè)置過期時(shí)間。那么將會發(fā)生死鎖。網(wǎng)上之所以有人這樣實(shí)現(xiàn),是因?yàn)榈桶姹镜膉edis并不支持多參數(shù)的set()方法。

錯(cuò)誤示例2

public static boolean wrongGetLock2(Jedis jedis, String lockKey, int expireTime) {
    long expires = System.currentTimeMillis() + expireTime;
    String expiresStr = String.valueOf(expires);
    // 如果當(dāng)前鎖不存在,返回加鎖成功
    if (jedis.setnx(lockKey, expiresStr) == 1) {
        return true;
    }
    // 如果鎖存在,獲取鎖的過期時(shí)間
    String currentValueStr = jedis.get(lockKey);
    if (currentValueStr != null && Long.parseLong(currentValueStr) < System.currentTimeMillis()) {
        // 鎖已過期,獲取上一個(gè)鎖的過期時(shí)間,并設(shè)置現(xiàn)在鎖的過期時(shí)間
        String oldValueStr = jedis.getSet(lockKey, expiresStr);
        if (oldValueStr != null && oldValueStr.equals(currentValueStr)) {
            // 考慮多線程并發(fā)的情況,只有一個(gè)線程的設(shè)置值和當(dāng)前值相同,它才有權(quán)利加鎖
            return true;
        }
    }
        
    // 其他情況,一律返回加鎖失敗
    return false;
}

這一種錯(cuò)誤示例就比較難以發(fā)現(xiàn)問題,而且實(shí)現(xiàn)也比較復(fù)雜。實(shí)現(xiàn)思路:使用jedis.setnx()命令實(shí)現(xiàn)加鎖,其中key是鎖,value是鎖的過期時(shí)間。執(zhí)行過程:1. 通過setnx()方法嘗試加鎖,如果當(dāng)前鎖不存在,返回加鎖成功。2. 如果鎖已經(jīng)存在則獲取鎖的過期時(shí)間,和當(dāng)前時(shí)間比較,如果鎖已經(jīng)過期,則設(shè)置新的過期時(shí)間,返回加鎖成功。代碼如下:

那么這段代碼問題在哪里?1. 由于是客戶端自己生成過期時(shí)間,所以需要強(qiáng)制要求分布式下每個(gè)客戶端的時(shí)間必須同步。 2. 當(dāng)鎖過期的時(shí)候,如果多個(gè)客戶端同時(shí)執(zhí)行jedis.getSet()方法,那么雖然最終只有一個(gè)客戶端可以加鎖,但是這個(gè)客戶端的鎖的過期時(shí)間可能被其他客戶端覆蓋。3. 鎖不具備擁有者標(biāo)識,即任何客戶端都可以解鎖。

解鎖代碼

正確姿勢

還是先展示代碼,再帶大家慢慢解釋為什么這樣實(shí)現(xiàn):

public class RedisTool {
    private static final Long RELEASE_SUCCESS = 1L;
    /**
     * 釋放分布式鎖
     * @param jedis Redis客戶端
     * @param lockKey 鎖
     * @param requestId 請求標(biāo)識
     * @return 是否釋放成功
     */
    public static boolean releaseDistributedLock(Jedis jedis, String lockKey, String requestId) {
        String script = "if redis.call('get', KEYS[1]) == ARGV[1] then return redis.call('del', KEYS[1]) else return 0 end";
        Object result = jedis.eval(script, Collections.singletonList(lockKey), Collections.singletonList(requestId));
        if (RELEASE_SUCCESS.equals(result)) {
            return true;
        }
        return false;
    }
}

可以看到,我們解鎖只需要兩行代碼就搞定了!第一行代碼,我們寫了一個(gè)簡單的Lua腳本代碼,上一次見到這個(gè)編程語言還是在《黑客與畫家》里,沒想到這次居然用上了。第二行代碼,我們將Lua代碼傳到j(luò)edis.eval()方法里,并使參數(shù)KEYS[1]賦值為lockKey,ARGV[1]賦值為requestId。eval()方法是將Lua代碼交給Redis服務(wù)端執(zhí)行。
那么這段Lua代碼的功能是什么呢?其實(shí)很簡單,首先獲取鎖對應(yīng)的value值,檢查是否與requestId相等,如果相等則刪除鎖(解鎖)。那么為什么要使用Lua語言來實(shí)現(xiàn)呢?因?yàn)橐_保上述操作是原子性的。關(guān)于非原子性會帶來什么問題,可以閱讀【解鎖代碼-錯(cuò)誤示例2】 。那么為什么執(zhí)行eval()方法可以確保原子性,源于Redis的特性,下面是官網(wǎng)對eval命令的部分解釋:
簡單來說,就是在eval命令執(zhí)行Lua代碼的時(shí)候,Lua代碼將被當(dāng)成一個(gè)命令去執(zhí)行,并且直到eval命令執(zhí)行完成,Redis才會執(zhí)行其他命令。

錯(cuò)誤示例1

最常見的解鎖代碼就是直接使用jedis.del()方法刪除鎖,這種不先判斷鎖的擁有者而直接解鎖的方式,會導(dǎo)致任何客戶端都可以隨時(shí)進(jìn)行解鎖,即使這把鎖不是它的。

public static void wrongReleaseLock1(Jedis jedis, String lockKey) {
    jedis.del(lockKey);
}

錯(cuò)誤示例2

這種解鎖代碼乍一看也是沒問題,甚至我之前也差點(diǎn)這樣實(shí)現(xiàn),與正確姿勢差不多,唯一區(qū)別的是分成兩條命令去執(zhí)行,代碼如下:

public static void wrongReleaseLock2(Jedis jedis, String lockKey, String requestId) {
        
    // 判斷加鎖與解鎖是不是同一個(gè)客戶端
    if (requestId.equals(jedis.get(lockKey))) {
        // 若在此時(shí),這把鎖突然不是這個(gè)客戶端的,則會誤解鎖
        jedis.del(lockKey);
    }
}

如代碼注釋,問題在于如果調(diào)用jedis.del()方法的時(shí)候,這把鎖已經(jīng)不屬于當(dāng)前客戶端的時(shí)候會解除他人加的鎖。那么是否真的有這種場景?答案是肯定的,比如客戶端A加鎖,一段時(shí)間之后客戶端A解鎖,在執(zhí)行jedis.del()之前,鎖突然過期了,此時(shí)客戶端B嘗試加鎖成功,然后客戶端A再執(zhí)行del()方法,則將客戶端B的鎖給解除了。

鎖續(xù)期問題

因?yàn)闃I(yè)務(wù)代碼耗時(shí)過長,超過了鎖的超時(shí)時(shí)間,造成鎖自動失效,然后另外一個(gè)線程意外的持有了鎖。于是就出現(xiàn)了多個(gè)線程共同持有鎖的現(xiàn)象。

是否可以通過合理地設(shè)置LockTime(鎖超時(shí)時(shí)間)來解決這個(gè)問題?
但LockTime的設(shè)置原本就很不容易。LockTime設(shè)置過小,鎖自動超時(shí)的概率就會增加,鎖異常失效的概率也就會增加,而LockTime設(shè)置過大,萬一服務(wù)出現(xiàn)異常無法正常釋放鎖,那么出現(xiàn)這種異常鎖的時(shí)間也就越長。我們只能通過經(jīng)驗(yàn)去配置,一個(gè)可以接受的值,基本上是這個(gè)服務(wù)歷史上的平均耗時(shí)再增加一定的buff。

具體實(shí)現(xiàn)原理可以參考參考資料3,實(shí)際使用推薦使用Redission中的watchdog機(jī)制即可。

基于Redis集群的分布式鎖

Redlock的出現(xiàn)原因:由failover(失敗切換重試)引起的問題,卻是基于單Redis節(jié)點(diǎn)的分布式鎖無法解決的。

當(dāng)單Redis節(jié)點(diǎn)宕機(jī)了,那么所有客戶端就都無法獲得鎖了,服務(wù)變得不可用。為了提高可用性,我們可以給這個(gè)Redis節(jié)點(diǎn)掛一個(gè)Slave,當(dāng)Master節(jié)點(diǎn)不可用的時(shí)候,系統(tǒng)自動切到Slave上(failover)。但由于Redis的主從復(fù)制(replication)是異步的,這可能導(dǎo)致在failover過程中喪失鎖的安全性。考慮下面的執(zhí)行序列:

  1. 客戶端1從Master獲取了鎖。
  2. Master宕機(jī)了,存儲鎖的key還沒有來得及同步到Slave上。
  3. Slave升級為Master。
  4. 客戶端2從新的Master獲取到了對應(yīng)同一個(gè)資源的鎖。

于是,客戶端1和客戶端2同時(shí)持有了同一個(gè)資源的鎖。鎖的安全性被打破。針對Redis主從復(fù)制過程中可能存在喪失鎖的安全性問題,Redis作者設(shè)計(jì)了Redlock算法。

Redlock是為了規(guī)范各家對基于Redis的分布式鎖的實(shí)現(xiàn),而由Redis的作者提出的一個(gè)更安全的實(shí)現(xiàn)。下面是該算法的說明:

實(shí)現(xiàn)思路

  1. 獲取當(dāng)前時(shí)間(時(shí)間戳)
  2. 按順序依次向N個(gè)節(jié)點(diǎn)執(zhí)行獲取鎖的操作。這個(gè)獲取操作跟前面基于單Redis節(jié)點(diǎn)獲取鎖的過程相同。為了保證在某個(gè)Redis節(jié)點(diǎn)不可用時(shí)該算法能夠繼續(xù)運(yùn)行,這個(gè)獲取鎖的操作需要一個(gè)超時(shí)時(shí)間,它遠(yuǎn)小于鎖的有效時(shí)間,通常在幾十毫秒的量級??蛻舳嗽谙蚰硞€(gè)Redis節(jié)點(diǎn)獲取鎖失敗之后,應(yīng)該立即嘗試下一個(gè)Redis節(jié)點(diǎn)。這里的失敗包含Redis節(jié)點(diǎn)不可用,或者該Redis節(jié)點(diǎn)上對應(yīng)的鎖已經(jīng)被其他客戶端持有。
  3. 整個(gè)獲取鎖的過程總共耗時(shí)。計(jì)算方法為當(dāng)前時(shí)間-第1步記錄的時(shí)間。如果客戶端從大多數(shù)Redis節(jié)點(diǎn)(>=N/2+1)成功獲取到了鎖,并且獲取鎖的總耗時(shí)沒有超過鎖的有效時(shí)間,那么此時(shí)客戶端才認(rèn)為最終獲取鎖成功;否則,則認(rèn)為獲取鎖失敗。
  4. 如果成功獲取到了鎖,那么這個(gè)鎖的有效時(shí)間應(yīng)該重新計(jì)算,它等于這個(gè)鎖的有效時(shí)間減去第3步計(jì)算出來的獲取鎖消耗的時(shí)間。
  5. 如果最終獲取鎖失敗了(可能有云獲取到的鎖的Redis節(jié)點(diǎn)個(gè)數(shù)小于N/2+1,或者總耗時(shí)大于鎖的有效時(shí)間),name客戶端應(yīng)該立即向所有的Redis節(jié)點(diǎn)發(fā)起釋放鎖的操作。(與前面介紹的使用lua腳本釋放鎖的方式一致)
  6. 釋放鎖:對所有的Redis節(jié)點(diǎn)發(fā)起釋放鎖的操作。

釋放鎖的過程比較簡單:客戶端向所有Redis節(jié)點(diǎn)發(fā)起釋放鎖的操作,不管這些節(jié)點(diǎn)當(dāng)時(shí)在獲取鎖的時(shí)候成功與否。也就是說,即使當(dāng)時(shí)向某個(gè)節(jié)點(diǎn)獲取鎖沒有成功,在釋放鎖的時(shí)候也不應(yīng)該漏掉這個(gè)節(jié)點(diǎn)。這是因?yàn)榇嬖谶@樣一種情況,客戶端發(fā)給某個(gè)Redis節(jié)點(diǎn)的獲取鎖的請求成功到達(dá)了該Redis節(jié)點(diǎn),這個(gè)節(jié)點(diǎn)也成功執(zhí)行了SET操作,但是它返回給客戶端的響應(yīng)包卻丟失了。這在客戶端看來,獲取鎖的請求由于超時(shí)而失敗了,但在Redis這邊看來,加鎖已經(jīng)成功了。因此,釋放鎖的時(shí)候,客戶端也應(yīng)該對當(dāng)時(shí)獲取鎖失敗的那些Redis節(jié)點(diǎn)同樣發(fā)起請求

存在問題

  1. Redlock是基于timeing的分布式鎖,而實(shí)際場景下存在時(shí)鐘不一致和問題。
  2. Redlock是基于自動過期機(jī)制,依然沒有解決長時(shí)間的gc pause等問題帶來的鎖自動失效,從而帶來的安全性問題。

Redis鎖是通過以下命令對資源進(jìn)行加鎖:

set key_id key_value NX PX expireTime

其中,set nx命令只會在key不存在時(shí)給key進(jìn)行賦值,px用來設(shè)置key過期時(shí)間,key_value一般是隨機(jī)值,用來保證釋放鎖的安全性(釋放時(shí)會判斷是否是之前設(shè)置過的隨機(jī)值,只有是才釋放鎖)。由于資源設(shè)置了過期時(shí)間,一定時(shí)間后鎖會自動釋放。

set nx保證并發(fā)加鎖時(shí)只有一個(gè)client能設(shè)置成功(Redis內(nèi)部是單線程,并且數(shù)據(jù)存在內(nèi)存中,也就是說redis內(nèi)部執(zhí)行命令是不會有多線程同步問題的),此時(shí)的lock/unlock偽代碼如下:

def lock:

分布式鎖服務(wù)中的一個(gè)問題

如果一個(gè)獲取到鎖的client因?yàn)槟撤N原因?qū)е聸]能及時(shí)釋放鎖,并且redis因?yàn)槌瑫r(shí)釋放了鎖,另外一個(gè)client獲取到了鎖,此時(shí)情況如下圖所示:

an

那么如何解決這個(gè)問題呢,一種方案是引入鎖續(xù)約機(jī)制,也就是獲取鎖之后,釋放鎖之前,會定時(shí)進(jìn)行鎖續(xù)約,比如以鎖超時(shí)時(shí)間的1/3為間隔周期進(jìn)行鎖續(xù)約。

關(guān)于開源的redis的分布式鎖實(shí)現(xiàn)有很多,比較出名的有redisson[1]、百度的dlock[2],關(guān)于分布式鎖,筆者也寫了一個(gè)簡易版的分布式鎖redis-lock,主要是增加了鎖續(xù)約和可同時(shí)針對多個(gè)key加鎖的機(jī)制。

對于高可用性,一般可以通過集群或者master-slave來解決,redis鎖優(yōu)勢是性能出色,劣勢就是由于數(shù)據(jù)在內(nèi)存中,一旦緩存服務(wù)宕機(jī),鎖數(shù)據(jù)就丟失了。像redis自帶復(fù)制功能,可以對數(shù)據(jù)可靠性有一定的保證,但是由于復(fù)制也是異步完成的,因此依然可能出現(xiàn)master節(jié)點(diǎn)寫入鎖數(shù)據(jù)而未同步到slave節(jié)點(diǎn)的時(shí)候宕機(jī),鎖數(shù)據(jù)丟失問題。

參考資料

  1. 分布式鎖設(shè)計(jì)與實(shí)現(xiàn)
  2. 【肥朝】面試官問我,Redis分布式鎖如何續(xù)期?懵了。
  3. Redis分布式鎖(二):支持鎖的續(xù)期,避免鎖超時(shí)后導(dǎo)致多個(gè)線程獲得鎖
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容