前言
哈希函數(shù)又稱哈希算法,它通過一個函數(shù),把任意長度的數(shù)據(jù)轉(zhuǎn)換為一個長度固定的數(shù)據(jù)串(通常用16進制的字符串表示)。
Hash算法特別的地方在于它是一種單向算法,用戶可以通過Hash算法對目標信息生成一段特定長度的唯一的Hash值,卻不能通過這個Hash值重新獲得目標信息。因此Hash算法常用在不可還原的密碼存儲、信息完整性校驗等
hash值的兩個特性
抗碰撞能力:對于任意兩個不同的數(shù)據(jù)塊,其hash值相同的可能性極小;對于一個給定的數(shù)據(jù)塊,找到和它hash值相同的數(shù)據(jù)塊極為困難。
抗篡改能力:對于一個數(shù)據(jù)塊,哪怕只改動其一個比特位,其hash值的改動也會非常大。
常用的hash算法
常見的Hash算法有MD2、MD4、MD5、SHA1、SHA256和SHA512
加密算法的效能通??梢园凑账惴ū旧淼膹碗s程度、密鑰長度(密鑰越長越安全)、加解密速度等來衡量。上述的算法中,MD2速度較慢已逐漸被淘汰外,其他算法仍在目前的加密系統(tǒng)產(chǎn)品中使用。
MD5的全稱是Message-Digest Algorithm 5(信息-摘要算法)。
MD5的結(jié)果是128bit字節(jié),通常由32位16進制字符串表示。
具有很高的安全性。它對應(yīng)任何字符串都可以加密成一段唯一的固定長度的代碼。
SHA1的全稱是Secure Hash Algorithm(安全哈希算法) 。SHA1基于MD5,加密后的數(shù)據(jù)長度更長,
它對長度小于264的輸入,產(chǎn)生長度為160bit的散列值,比MD5多32bit,通常由40位的16進制字符串表示。
因此,比MD5更加安全,但SHA1的運算速度就比MD5要慢了。
hashlib的用法
下面以算法MD5為例,計算一個字符串的MD5值:
import hashlib
md5 = hashlib.md5()
md5.update("how to use md5 in python hashlib?")
print md5.hexdigest() # digest的意思是摘要,hex是16進制的意思
計算結(jié)果如下:
d26a53750bc40b38b65a520292f69306
另一種常見的摘要算法是SHA1:
import hashlib
sha1 = hashlib.sha1()
sha1.update("how to use sha1 in python hashlib?")
print sha1.hexdigest()
hash算法的用途
1.加密網(wǎng)站注冊用戶的密碼
在密碼學中,hash算法的主要作用是用于消息摘要和簽名,主要用于消息的完整性校驗。
hash算法不可逆,用于密文保存密碼的簽名,網(wǎng)站后臺只保存簽名值。
在上述場景下,對于抗碰撞和抗篡改能力要求極高,對于速度要求在其次。
2.網(wǎng)站用戶上傳圖片/文件后,計算出MD5值作為文件名
MD5可以保證唯一性。
3.key-value數(shù)據(jù)庫中使用MD5作為key
在使用hash進行管理的數(shù)據(jù)結(jié)構(gòu)中,比如hashmap,hash值(key)存在的目的是加速鍵值對的查找,key的作用是為了將元素適當?shù)姆旁诟鱾€桶里,對抗碰撞的要求不是那么高。換句話說,hash出來的key,只要保證value大致均勻的放在不同的桶里就可以了。但整個算法的set性能,直接與hash值產(chǎn)生的速度有關(guān),所以這時候的hash值的產(chǎn)生速度就尤為重要。
4.比較兩個文件是否相同
大家在下載一些資源的時候,就會發(fā)現(xiàn)網(wǎng)站提供了MD5值,就是用來檢測文件是否被篡改。