1. Python dict 底層實現(xiàn):
Python3.6 之前,直接維護一張三列的數(shù)組,第一列代表字典key的哈希值,后面的key和value,通過哈希計算得到索引。
Python3.6 及以后維護兩張表,一張索引表,在相應的位置(哈希計算得到的索引)上記錄數(shù)組實際存儲的位置(第二張表);數(shù)組實際存儲的表格按順序依次放入每次添加的字典數(shù)據(jù)。
https://zhuanlan.zhihu.com/p/73426505
2. 如何解決哈希沖突(散列沖突)?
開放尋址法:
線性探測,如果某個存儲位置被占用后,依次往后查找直到有空閑位置為止(刪除數(shù)據(jù)的時候,標記為 deleted,直到有下個元素插入)。 以及 二次探測 或者 雙重散列。
散列表的裝載因子 = 填入表中的元素個數(shù)/散列表的長度
優(yōu)點: 數(shù)據(jù)都存儲在數(shù)組中,可以有效地利用 CPU 緩存加快查詢速度,序列化簡單。
缺點:刪除麻煩,沖突的代價更高,裝載因子的上線不能太大,更浪費內(nèi)存空間。
數(shù)據(jù)量小,裝載因子小的時候,適合。
拉鏈法:
在每個桶或者槽會對應一個鏈表,依次往后放置元素。鏈表可以個使用 跳表、紅黑樹等。
優(yōu)點:
對內(nèi)存的利用率高,鏈表結(jié)點可以在需要的時候再創(chuàng)建;對裝載因子的容忍度更高,可以大于 1.
適合大對象、大數(shù)據(jù),更加靈活,支持更多的優(yōu)化策略。