【Scala】Vector內(nèi)部結(jié)構(gòu)與內(nèi)存共享原理

Scala不可變集合

Scala不可變集合的設(shè)計目標(biāo)是提供高效又安全的實現(xiàn)。這些集合中的大部分都是用高級技巧來在集合的不同版本之間“共享”內(nèi)存。其中較長使用到的是Vector和List。
在一般的編程任務(wù)中,不可變集合有很多超出可變集合的優(yōu)點。尤其重要的一點是不可變集合可以在多線程之中共享而無需加鎖。

Vector內(nèi)部結(jié)構(gòu)

Scala的Vector實現(xiàn)為一組嵌套數(shù)組,在分割和連接時非常有效率。適用于大部分通用算法,因為它有高效的下標(biāo)計算能力,以及能夠在使用像+:和++方法時共享大部分內(nèi)部結(jié)構(gòu)的能力。
Vector采用分支系數(shù)為32的樹狀數(shù)據(jù)結(jié)構(gòu),分支因子是每個父節(jié)點允許擁有的最大子節(jié)點的數(shù)目。其隨機(jī)訪問(搜索或修改)復(fù)雜度是log_32(N),使用32位整數(shù)下標(biāo)時在JVM上是個效率不錯的小常量,即使對很大的N來說都近似一個常量。
Vector是個由元素的下標(biāo)組成的前綴樹(trie),前綴樹是給定路徑上的所有子節(jié)點功用某種形式的公共鍵值。我們可以根據(jù)任何下標(biāo)的二進(jìn)制形式得到查找路徑,實現(xiàn)高效的元素查找。

Vector復(fù)制過程中的結(jié)構(gòu)共享原理

在實際應(yīng)用中,為了保持變量的不可變性,對有用的集合進(jìn)行復(fù)制通常是必要的。假設(shè)有一個包含100 000個元素的Vector,需要得到一個副本,并替換掉原Vector的第8個元素,此時如果構(gòu)造一個全新的100 000個元素的Vector將會是極其低效的。
為了兼顧高效和不可變性,可以通過共享原始Vector中的不變部分,而以某種方式表示變化部分,那么就可以高效地“創(chuàng)建”新Vector了。這種思想稱之為結(jié)構(gòu)共享。

如果其他線程中的代碼正在對原始Vector做其他不同的操作,對原始的Vector的復(fù)制不會影響該操作,因為原Vector沒有被修改。這樣,只要對舊版本有一個或多個引用,就可以創(chuàng)建一個Vector的“歷史”版本。直到對舊版本的引用消失為止,舊版本才會被垃圾回收。

下面的圖示解釋了創(chuàng)建并修改副本過程中結(jié)構(gòu)共享的原理:
使用#1來引用原樹的根節(jié)點:



現(xiàn)在假設(shè)要在2和3之間插入2.5,要創(chuàng)建一個新的副本,我們并不需要修改原來的樹結(jié)構(gòu),而是創(chuàng)建新樹。
值得注意的是,原來的樹(#1)仍然存在,但我們又創(chuàng)建了新的根(#2)和新的節(jié)點。創(chuàng)建新的樹共享重用了原來的大部分節(jié)點,這樣有助于降低修改集合的開銷。


Vector查找原理

Scala的Vector集合非常類似于一個分支系數(shù)為32的下標(biāo)前綴樹。關(guān)鍵區(qū)別在于Vector用一個數(shù)組來表示分支。這使整個結(jié)構(gòu)變成數(shù)組的數(shù)組(嵌套數(shù)組)。
下圖是分支系數(shù)為2的二進(jìn)制Vector:


其中有三個基本素組:display0、display1和display2.這些數(shù)組代表原始前綴樹的深度。每個顯示元素(display element)都是一個更深一層的的嵌套數(shù)組(display0是元素的數(shù)組,display1是數(shù)組的數(shù)組,display2是數(shù)組的數(shù)組的數(shù)組)。查找集合元素的步驟是先判斷其深度,然后用跟前綴樹一樣的方式確定元素所在的數(shù)組。比如找數(shù)字4,其深度為2,所以先選擇display2數(shù)組,4的二進(jìn)制形式100,所以外層數(shù)組是下標(biāo)為1的位置上,中層數(shù)組下標(biāo)為0,最后4就位于結(jié)果數(shù)組的下標(biāo)0的位置上。

二進(jìn)制前綴樹根據(jù)下標(biāo)隨機(jī)取值的復(fù)雜度是log_2(n),Scala的Vector的分支系數(shù)為32,那么訪問任何元素的時間復(fù)雜度是log_32(n),對32位的下標(biāo)也就大約是7,對64位大約是13.而對于較小的集合,排序的開銷也會降低,所以訪問速度會更快。所以隨機(jī)訪問的時間復(fù)雜度與前綴樹的大小成正比。

小結(jié)

Scala的Vector為32分支,這除了帶來查找時間和修改時間可以隨集合大小伸縮外,它還提供了不錯的緩存一致性,因為集合里相近的元素有很大可能位于同一個內(nèi)存數(shù)組里。其高效結(jié)合不可變所帶來的線程安全使之成為庫里最強(qiáng)大的有序集合。
Scala的序列類型中Vector和List數(shù)據(jù)結(jié)構(gòu)都是很常用的,Vector的所有操作都是O(1)(常數(shù)時間),而List對于那些需要訪問頭部以為元素的操作都需要O(n)操作,所以只在頻繁執(zhí)行頭尾分解的情況下,推薦使用List。

轉(zhuǎn)載請注明作者Jason Ding及其出處
jasonding.top
Github博客主頁(http://blog.jasonding.top/)
CSDN博客(http://blog.csdn.net/jasonding1354)
簡書主頁(http://www.itdecent.cn/users/2bd9b48f6ea8/latest_articles)
Google搜索jasonding1354進(jìn)入我的博客主頁

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • scala學(xué)習(xí)筆記 第2章 變量和數(shù)據(jù)類型 基本數(shù)據(jù) scala的核心數(shù)據(jù)為四種 :字面量、值、變量、類型 值使...
    485b1aca799e閱讀 2,240評論 0 1
  • 53.計算字符 在字符串中獲取字符值的數(shù)量, 可以使用字符串字符屬性中的計數(shù)屬性: let unusualMena...
    無灃閱讀 1,256評論 0 4
  • 在平時使用集合的時候,我們經(jīng)常會選擇 Scala 中通用的集合,例如:Seq、Map、List等等,有的時候選擇「...
    ShawRain閱讀 1,173評論 0 0
  • 1. Java基礎(chǔ)部分 基礎(chǔ)部分的順序:基本語法,類相關(guān)的語法,內(nèi)部類的語法,繼承相關(guān)的語法,異常的語法,線程的語...
    子非魚_t_閱讀 34,623評論 18 399
  • 過有序生活 孩子第二個30天目標(biāo):學(xué)會自己安排時間 媽媽第二個30天目標(biāo):吃飯細(xì)嚼慢咽 加油(潘也齊+7)踐行打卡...
    chenlan_c55e閱讀 166評論 0 0

友情鏈接更多精彩內(nèi)容