基于單Redis節(jié)點(diǎn)的分布式鎖
組件依賴
首先我們要通過Maven引入Jedis開源組件,在pom.xml文件加入下面的代碼:
<dependency>
<groupId>redis.clients</groupId>
<artifactId>jedis</artifactId>
<version>2.9.0</version>
</dependency>
加鎖代碼
正確姿勢
Talk is cheap, show me the code。先展示代碼,再帶大家慢慢解釋為什么這樣實(shí)現(xiàn):
public class RedisTool {
private static final String LOCK_SUCCESS = "OK";
private static final String SET_IF_NOT_EXIST = "NX";
private static final String SET_WITH_EXPIRE_TIME = "PX";
/**
* 嘗試獲取分布式鎖
* @param jedis Redis客戶端
* @param lockKey 鎖
* @param requestId 請求標(biāo)識
* @param expireTime 超期時(shí)間
* @return 是否獲取成功
*/
public static boolean tryGetDistributedLock(Jedis jedis, String lockKey, String requestId, int expireTime) {
String result = jedis.set(lockKey, requestId, SET_IF_NOT_EXIST, SET_WITH_EXPIRE_TIME, expireTime);
if (LOCK_SUCCESS.equals(result)) {
return true;
}
return false;
}
}
可以看到,我們加鎖就一行代碼:jedis.set(String key, String value, String nxxx, String expx, int time),這個(gè)set()方法一共有五個(gè)形參:
- 第一個(gè)為key,我們使用key來當(dāng)鎖,因?yàn)閗ey是唯一的。
- 第二個(gè)為value,我們傳的是requestId,很多童鞋可能不明白,有key作為鎖不就夠了嗎,為什么還要用到value?原因就是我們在上面講到可靠性時(shí),分布式鎖要滿足第四個(gè)條件解鈴還須系鈴人,通過給value賦值為requestId,我們就知道這把鎖是哪個(gè)請求加的了,在解鎖的時(shí)候就可以有依據(jù)。requestId可以使用UUID.randomUUID().toString()方法生成。
- 第三個(gè)為nxxx,這個(gè)參數(shù)我們填的是NX,意思是SET IF NOT EXIST,即當(dāng)key不存在時(shí),我們進(jìn)行set操作;若key已經(jīng)存在,則不做任何操作;
- 第四個(gè)為expx,這個(gè)參數(shù)我們傳的是PX,意思是我們要給這個(gè)key加一個(gè)過期的設(shè)置,具體時(shí)間由第五個(gè)參數(shù)決定。
- 第五個(gè)為time,與第四個(gè)參數(shù)相呼應(yīng),代表key的過期時(shí)間。
總的來說,執(zhí)行上面的set()方法就只會導(dǎo)致兩種結(jié)果:1. 當(dāng)前沒有鎖(key不存在),那么就進(jìn)行加鎖操作,并對鎖設(shè)置個(gè)有效期,同時(shí)value表示加鎖的客戶端。2. 已有鎖存在,不做任何操作。
心細(xì)的童鞋就會發(fā)現(xiàn)了,我們的加鎖代碼滿足我們可靠性里描述的三個(gè)條件。首先,set()加入了NX參數(shù),可以保證如果已有key存在,則函數(shù)不會調(diào)用成功,也就是只有一個(gè)客戶端能持有鎖,滿足互斥性。其次,由于我們對鎖設(shè)置了過期時(shí)間,即使鎖的持有者后續(xù)發(fā)生崩潰而沒有解鎖,鎖也會因?yàn)榈搅诉^期時(shí)間而自動解鎖(即key被刪除),不會發(fā)生死鎖。最后,因?yàn)槲覀儗alue賦值為requestId,代表加鎖的客戶端請求標(biāo)識,那么在客戶端在解鎖的時(shí)候就可以進(jìn)行校驗(yàn)是否是同一個(gè)客戶端。由于我們只考慮Redis單機(jī)部署的場景,所以容錯(cuò)性我們暫不考慮。
錯(cuò)誤示例1
比較常見的錯(cuò)誤示例就是使用jedis.setnx()和jedis.expire()組合實(shí)現(xiàn)加鎖,代碼如下:
public static void wrongGetLock1(Jedis jedis, String lockKey, String requestId, int expireTime) {
Long result = jedis.setnx(lockKey, requestId);
if (result == 1) {
// 若在這里程序突然崩潰,則無法設(shè)置過期時(shí)間,將發(fā)生死鎖
jedis.expire(lockKey, expireTime);
}
}
setnx()方法作用就是SET IF NOT EXIST,expire()方法就是給鎖加一個(gè)過期時(shí)間。乍一看好像和前面的set()方法結(jié)果一樣,然而由于這是兩條Redis命令,不具有原子性,如果程序在執(zhí)行完setnx()之后突然崩潰,導(dǎo)致鎖沒有設(shè)置過期時(shí)間。那么將會發(fā)生死鎖。網(wǎng)上之所以有人這樣實(shí)現(xiàn),是因?yàn)榈桶姹镜膉edis并不支持多參數(shù)的set()方法。
錯(cuò)誤示例2
public static boolean wrongGetLock2(Jedis jedis, String lockKey, int expireTime) {
long expires = System.currentTimeMillis() + expireTime;
String expiresStr = String.valueOf(expires);
// 如果當(dāng)前鎖不存在,返回加鎖成功
if (jedis.setnx(lockKey, expiresStr) == 1) {
return true;
}
// 如果鎖存在,獲取鎖的過期時(shí)間
String currentValueStr = jedis.get(lockKey);
if (currentValueStr != null && Long.parseLong(currentValueStr) < System.currentTimeMillis()) {
// 鎖已過期,獲取上一個(gè)鎖的過期時(shí)間,并設(shè)置現(xiàn)在鎖的過期時(shí)間
String oldValueStr = jedis.getSet(lockKey, expiresStr);
if (oldValueStr != null && oldValueStr.equals(currentValueStr)) {
// 考慮多線程并發(fā)的情況,只有一個(gè)線程的設(shè)置值和當(dāng)前值相同,它才有權(quán)利加鎖
return true;
}
}
// 其他情況,一律返回加鎖失敗
return false;
}
這一種錯(cuò)誤示例就比較難以發(fā)現(xiàn)問題,而且實(shí)現(xiàn)也比較復(fù)雜。實(shí)現(xiàn)思路:使用jedis.setnx()命令實(shí)現(xiàn)加鎖,其中key是鎖,value是鎖的過期時(shí)間。執(zhí)行過程:1. 通過setnx()方法嘗試加鎖,如果當(dāng)前鎖不存在,返回加鎖成功。2. 如果鎖已經(jīng)存在則獲取鎖的過期時(shí)間,和當(dāng)前時(shí)間比較,如果鎖已經(jīng)過期,則設(shè)置新的過期時(shí)間,返回加鎖成功。代碼如下:
那么這段代碼問題在哪里?1. 由于是客戶端自己生成過期時(shí)間,所以需要強(qiáng)制要求分布式下每個(gè)客戶端的時(shí)間必須同步。 2. 當(dāng)鎖過期的時(shí)候,如果多個(gè)客戶端同時(shí)執(zhí)行jedis.getSet()方法,那么雖然最終只有一個(gè)客戶端可以加鎖,但是這個(gè)客戶端的鎖的過期時(shí)間可能被其他客戶端覆蓋。3. 鎖不具備擁有者標(biāo)識,即任何客戶端都可以解鎖。
解鎖代碼
正確姿勢
還是先展示代碼,再帶大家慢慢解釋為什么這樣實(shí)現(xiàn):
public class RedisTool {
private static final Long RELEASE_SUCCESS = 1L;
/**
* 釋放分布式鎖
* @param jedis Redis客戶端
* @param lockKey 鎖
* @param requestId 請求標(biāo)識
* @return 是否釋放成功
*/
public static boolean releaseDistributedLock(Jedis jedis, String lockKey, String requestId) {
String script = "if redis.call('get', KEYS[1]) == ARGV[1] then return redis.call('del', KEYS[1]) else return 0 end";
Object result = jedis.eval(script, Collections.singletonList(lockKey), Collections.singletonList(requestId));
if (RELEASE_SUCCESS.equals(result)) {
return true;
}
return false;
}
}
可以看到,我們解鎖只需要兩行代碼就搞定了!第一行代碼,我們寫了一個(gè)簡單的Lua腳本代碼,上一次見到這個(gè)編程語言還是在《黑客與畫家》里,沒想到這次居然用上了。第二行代碼,我們將Lua代碼傳到j(luò)edis.eval()方法里,并使參數(shù)KEYS[1]賦值為lockKey,ARGV[1]賦值為requestId。eval()方法是將Lua代碼交給Redis服務(wù)端執(zhí)行。
那么這段Lua代碼的功能是什么呢?其實(shí)很簡單,首先獲取鎖對應(yīng)的value值,檢查是否與requestId相等,如果相等則刪除鎖(解鎖)。那么為什么要使用Lua語言來實(shí)現(xiàn)呢?因?yàn)橐_保上述操作是原子性的。關(guān)于非原子性會帶來什么問題,可以閱讀【解鎖代碼-錯(cuò)誤示例2】 。那么為什么執(zhí)行eval()方法可以確保原子性,源于Redis的特性,下面是官網(wǎng)對eval命令的部分解釋:
簡單來說,就是在eval命令執(zhí)行Lua代碼的時(shí)候,Lua代碼將被當(dāng)成一個(gè)命令去執(zhí)行,并且直到eval命令執(zhí)行完成,Redis才會執(zhí)行其他命令。
錯(cuò)誤示例1
最常見的解鎖代碼就是直接使用jedis.del()方法刪除鎖,這種不先判斷鎖的擁有者而直接解鎖的方式,會導(dǎo)致任何客戶端都可以隨時(shí)進(jìn)行解鎖,即使這把鎖不是它的。
public static void wrongReleaseLock1(Jedis jedis, String lockKey) {
jedis.del(lockKey);
}
錯(cuò)誤示例2
這種解鎖代碼乍一看也是沒問題,甚至我之前也差點(diǎn)這樣實(shí)現(xiàn),與正確姿勢差不多,唯一區(qū)別的是分成兩條命令去執(zhí)行,代碼如下:
public static void wrongReleaseLock2(Jedis jedis, String lockKey, String requestId) {
// 判斷加鎖與解鎖是不是同一個(gè)客戶端
if (requestId.equals(jedis.get(lockKey))) {
// 若在此時(shí),這把鎖突然不是這個(gè)客戶端的,則會誤解鎖
jedis.del(lockKey);
}
}
如代碼注釋,問題在于如果調(diào)用jedis.del()方法的時(shí)候,這把鎖已經(jīng)不屬于當(dāng)前客戶端的時(shí)候會解除他人加的鎖。那么是否真的有這種場景?答案是肯定的,比如客戶端A加鎖,一段時(shí)間之后客戶端A解鎖,在執(zhí)行jedis.del()之前,鎖突然過期了,此時(shí)客戶端B嘗試加鎖成功,然后客戶端A再執(zhí)行del()方法,則將客戶端B的鎖給解除了。
鎖續(xù)期問題
因?yàn)闃I(yè)務(wù)代碼耗時(shí)過長,超過了鎖的超時(shí)時(shí)間,造成鎖自動失效,然后另外一個(gè)線程意外的持有了鎖。于是就出現(xiàn)了多個(gè)線程共同持有鎖的現(xiàn)象。
是否可以通過合理地設(shè)置LockTime(鎖超時(shí)時(shí)間)來解決這個(gè)問題?
但LockTime的設(shè)置原本就很不容易。LockTime設(shè)置過小,鎖自動超時(shí)的概率就會增加,鎖異常失效的概率也就會增加,而LockTime設(shè)置過大,萬一服務(wù)出現(xiàn)異常無法正常釋放鎖,那么出現(xiàn)這種異常鎖的時(shí)間也就越長。我們只能通過經(jīng)驗(yàn)去配置,一個(gè)可以接受的值,基本上是這個(gè)服務(wù)歷史上的平均耗時(shí)再增加一定的buff。
具體實(shí)現(xiàn)原理可以參考參考資料3,實(shí)際使用推薦使用Redission中的watchdog機(jī)制即可。
基于Redis集群的分布式鎖
Redlock的出現(xiàn)原因:由failover(失敗切換重試)引起的問題,卻是基于單Redis節(jié)點(diǎn)的分布式鎖無法解決的。
當(dāng)單Redis節(jié)點(diǎn)宕機(jī)了,那么所有客戶端就都無法獲得鎖了,服務(wù)變得不可用。為了提高可用性,我們可以給這個(gè)Redis節(jié)點(diǎn)掛一個(gè)Slave,當(dāng)Master節(jié)點(diǎn)不可用的時(shí)候,系統(tǒng)自動切到Slave上(failover)。但由于Redis的主從復(fù)制(replication)是異步的,這可能導(dǎo)致在failover過程中喪失鎖的安全性。考慮下面的執(zhí)行序列:
- 客戶端1從Master獲取了鎖。
- Master宕機(jī)了,存儲鎖的key還沒有來得及同步到Slave上。
- Slave升級為Master。
- 客戶端2從新的Master獲取到了對應(yīng)同一個(gè)資源的鎖。
于是,客戶端1和客戶端2同時(shí)持有了同一個(gè)資源的鎖。鎖的安全性被打破。針對Redis主從復(fù)制過程中可能存在喪失鎖的安全性問題,Redis作者設(shè)計(jì)了Redlock算法。
Redlock是為了規(guī)范各家對基于Redis的分布式鎖的實(shí)現(xiàn),而由Redis的作者提出的一個(gè)更安全的實(shí)現(xiàn)。下面是該算法的說明:
實(shí)現(xiàn)思路
- 獲取當(dāng)前時(shí)間(時(shí)間戳)
- 按順序依次向N個(gè)節(jié)點(diǎn)執(zhí)行獲取鎖的操作。這個(gè)獲取操作跟前面基于單Redis節(jié)點(diǎn)獲取鎖的過程相同。為了保證在某個(gè)Redis節(jié)點(diǎn)不可用時(shí)該算法能夠繼續(xù)運(yùn)行,這個(gè)獲取鎖的操作需要一個(gè)超時(shí)時(shí)間,它遠(yuǎn)小于鎖的有效時(shí)間,通常在幾十毫秒的量級??蛻舳嗽谙蚰硞€(gè)Redis節(jié)點(diǎn)獲取鎖失敗之后,應(yīng)該立即嘗試下一個(gè)Redis節(jié)點(diǎn)。這里的失敗包含Redis節(jié)點(diǎn)不可用,或者該Redis節(jié)點(diǎn)上對應(yīng)的鎖已經(jīng)被其他客戶端持有。
- 整個(gè)獲取鎖的過程總共耗時(shí)。計(jì)算方法為當(dāng)前時(shí)間-第1步記錄的時(shí)間。如果客戶端從大多數(shù)Redis節(jié)點(diǎn)(>=N/2+1)成功獲取到了鎖,并且獲取鎖的總耗時(shí)沒有超過鎖的有效時(shí)間,那么此時(shí)客戶端才認(rèn)為最終獲取鎖成功;否則,則認(rèn)為獲取鎖失敗。
- 如果成功獲取到了鎖,那么這個(gè)鎖的有效時(shí)間應(yīng)該重新計(jì)算,它等于這個(gè)鎖的有效時(shí)間減去第3步計(jì)算出來的獲取鎖消耗的時(shí)間。
- 如果最終獲取鎖失敗了(可能有云獲取到的鎖的Redis節(jié)點(diǎn)個(gè)數(shù)小于N/2+1,或者總耗時(shí)大于鎖的有效時(shí)間),name客戶端應(yīng)該立即向所有的Redis節(jié)點(diǎn)發(fā)起釋放鎖的操作。(與前面介紹的使用lua腳本釋放鎖的方式一致)
- 釋放鎖:對所有的Redis節(jié)點(diǎn)發(fā)起釋放鎖的操作。
釋放鎖的過程比較簡單:客戶端向所有Redis節(jié)點(diǎn)發(fā)起釋放鎖的操作,不管這些節(jié)點(diǎn)當(dāng)時(shí)在獲取鎖的時(shí)候成功與否。也就是說,即使當(dāng)時(shí)向某個(gè)節(jié)點(diǎn)獲取鎖沒有成功,在釋放鎖的時(shí)候也不應(yīng)該漏掉這個(gè)節(jié)點(diǎn)。這是因?yàn)榇嬖谶@樣一種情況,客戶端發(fā)給某個(gè)Redis節(jié)點(diǎn)的獲取鎖的請求成功到達(dá)了該Redis節(jié)點(diǎn),這個(gè)節(jié)點(diǎn)也成功執(zhí)行了SET操作,但是它返回給客戶端的響應(yīng)包卻丟失了。這在客戶端看來,獲取鎖的請求由于超時(shí)而失敗了,但在Redis這邊看來,加鎖已經(jīng)成功了。因此,釋放鎖的時(shí)候,客戶端也應(yīng)該對當(dāng)時(shí)獲取鎖失敗的那些Redis節(jié)點(diǎn)同樣發(fā)起請求
存在問題
- Redlock是基于timeing的分布式鎖,而實(shí)際場景下存在時(shí)鐘不一致和問題。
- Redlock是基于自動過期機(jī)制,依然沒有解決長時(shí)間的gc pause等問題帶來的鎖自動失效,從而帶來的安全性問題。
Redis鎖是通過以下命令對資源進(jìn)行加鎖:
set key_id key_value NX PX expireTime
其中,set nx命令只會在key不存在時(shí)給key進(jìn)行賦值,px用來設(shè)置key過期時(shí)間,key_value一般是隨機(jī)值,用來保證釋放鎖的安全性(釋放時(shí)會判斷是否是之前設(shè)置過的隨機(jī)值,只有是才釋放鎖)。由于資源設(shè)置了過期時(shí)間,一定時(shí)間后鎖會自動釋放。
set nx保證并發(fā)加鎖時(shí)只有一個(gè)client能設(shè)置成功(Redis內(nèi)部是單線程,并且數(shù)據(jù)存在內(nèi)存中,也就是說redis內(nèi)部執(zhí)行命令是不會有多線程同步問題的),此時(shí)的lock/unlock偽代碼如下:
def lock:
分布式鎖服務(wù)中的一個(gè)問題
如果一個(gè)獲取到鎖的client因?yàn)槟撤N原因?qū)е聸]能及時(shí)釋放鎖,并且redis因?yàn)槌瑫r(shí)釋放了鎖,另外一個(gè)client獲取到了鎖,此時(shí)情況如下圖所示:
那么如何解決這個(gè)問題呢,一種方案是引入鎖續(xù)約機(jī)制,也就是獲取鎖之后,釋放鎖之前,會定時(shí)進(jìn)行鎖續(xù)約,比如以鎖超時(shí)時(shí)間的1/3為間隔周期進(jìn)行鎖續(xù)約。
關(guān)于開源的redis的分布式鎖實(shí)現(xiàn)有很多,比較出名的有redisson[1]、百度的dlock[2],關(guān)于分布式鎖,筆者也寫了一個(gè)簡易版的分布式鎖redis-lock,主要是增加了鎖續(xù)約和可同時(shí)針對多個(gè)key加鎖的機(jī)制。
對于高可用性,一般可以通過集群或者master-slave來解決,redis鎖優(yōu)勢是性能出色,劣勢就是由于數(shù)據(jù)在內(nèi)存中,一旦緩存服務(wù)宕機(jī),鎖數(shù)據(jù)就丟失了。像redis自帶復(fù)制功能,可以對數(shù)據(jù)可靠性有一定的保證,但是由于復(fù)制也是異步完成的,因此依然可能出現(xiàn)master節(jié)點(diǎn)寫入鎖數(shù)據(jù)而未同步到slave節(jié)點(diǎn)的時(shí)候宕機(jī),鎖數(shù)據(jù)丟失問題。