1.什么是哈希?
散列算法(Hash Algorithm),又稱哈希算法,雜湊算法,是一種從任意文件中創(chuàng)造小的數(shù)字「指紋」的方法。生成的值成為哈希值。與指紋一樣,散列算法就是一種以較短的信息來保證文件唯一性的標志,這種標志與文件的每一個字節(jié)都相關,而且難以找到逆向規(guī)律。因此,當原有文件發(fā)生改變時,其標志值也會發(fā)生改變,從而告訴文件使用者當前的文件已經(jīng)不是你所需求的文件。
Hash 算法能將將任意長度的二進制明文映射為較短的二進制串的算法,并且不同的明文很難映射為相同的 Hash 值。
也可以理解為空間映射函數(shù),是從一個非常大的取值空間映射到一個非常小的取值空間,由于不是一對一的映射,Hash 函數(shù)轉換后不可逆,意思是不可能通過逆操作和 Hash 值還原出原始的值。
散列方法的主要思想是根據(jù)結點的關鍵碼值來確定其存儲地址:以關鍵碼值K為自變量,通過一定的函數(shù)關系h(K)(稱為散列函數(shù)),計算出對應的函數(shù)值來,把這個值解釋為結點的存儲地址,將結點存入到此存儲單元中。檢索時,用同樣的方法計算地址,然后到相應的單元里去取要找的結點。通過散列方法可以對結點進行快速檢索。散列(hash,也稱“哈?!保┦且环N重要的存儲方式,也是一種常見的檢索方法。
這里有幾點:a.將不定長度轉換為固定長度(長度一般128)。b.不可逆的
2.特點是什么?
Hash 值又稱為指紋或者摘要,具有以下特點:
正向快速:給定明文和 Hash 算法,在有限時間和有限資源內(nèi)能計算得到 Hash 值。
逆向困難:給定 Hash 值,在有限時間內(nèi)很難逆推出明文。
輸入敏感:原始輸入信息發(fā)生任何變化,新的 Hash 值都應該出現(xiàn)很大變化。
沖突避免:很難找到兩段內(nèi)容不同的明文,使得它們的 Hash 值一致。
3.Hash 算法有哪些?
常見 Hash 算法有 MD5 和 SHA 系列,目前 MD5 和 SHA1 已經(jīng)被破解,一般推薦至少使用 SHA2-256 算法。
4.Hash 算法碰撞
稍微想一下就可以發(fā)現(xiàn),既然輸入數(shù)據(jù)長度不固定,而輸出的哈希值卻是固定長度的,這意味著哈希值是一個有限集合,而輸入數(shù)據(jù)則可以是無窮多個,那么建立一對一關系明顯是不現(xiàn)實的。所以“碰撞”是必然會發(fā)生的,所以一個成熟的哈希算法會有較好的抗沖突性,同時在實現(xiàn)哈希表的結構時也要考慮到哈希沖突的問題。
比如“666”經(jīng)過 Hash 后是“fae0b27c451c728867a567e8c1bb4e53”,相同 Hash 算法得到的值是一樣的。比如 WiFi 密碼如果是 8 位純數(shù)字的話,頂多就是 99999999 種可能性,破解這個密碼需要做的就是提前生成好 0 到 1 億數(shù)字的 Hash 值,然后做 1 億次布爾運算(就是 Bool 值判斷,0 或者 1),而現(xiàn)在普通 I5 四核 CPU 每秒能到達 200 億次浮點數(shù)計算,做 1 億次布爾運算也就是秒級別的時間就破解了。
所以密碼盡量不要用純數(shù)字,因為根本沒有任何安全性。
5.加鹽防碰撞
對數(shù)字內(nèi)容進行 Hash 運算,獲取唯一的摘要值來指代原始完整的數(shù)字內(nèi)容,利用 Hash 函數(shù)的抗碰撞性來確保內(nèi)容未被篡改。
常用于用戶名和密碼來確保用戶信息安全,為了防止攻擊會采用加鹽的方法,就是原來的明文加上一個隨機數(shù)之后的 Hash 值,Hash 值和鹽會保存在兩個地方,只要不是同時泄漏就很難被破解。
6.哈希沖突解決策略:
1)開放尋址法(Open Addressing),將所有的元素都存放在哈希表內(nèi)的數(shù)組中,不使用額外的數(shù)據(jù)結構。開放尋址法的最簡單的一種實現(xiàn)就是線性探查(Linear Probing)。
2)鏈接技術(chaining),在鏈接法中,把哈希到同一個槽中的所有元素都放到一個鏈表中。
部分引用:
https://blog.csdn.net/guidao13/article/details/84104526
https://www.cnblogs.com/gaochundong/p/hashtable_and_perfect_hashing.html