RDD特征

文檔:http://spark.apache.org/docs/latest/rdd-programming-guide.html#resilient-distributed-datasets-rdds

全稱:Resilient Distributed Datasets

which is a fault-tolerant collection of elements that can be operated on in parallel

一種編程模型的抽象,是一種具有容錯(cuò)性基于內(nèi)存的集群計(jì)算抽象方法。

每個(gè)RDD具有5個(gè)特征:

? ? 1 分區(qū)(partition):有一個(gè)數(shù)據(jù)分片列表,能夠?qū)?shù)據(jù)進(jìn)行切分,切分后的數(shù)據(jù)能夠進(jìn)行并行計(jì)算,是數(shù)據(jù)集的原子組成部分。

? ? 2 函數(shù)(compute): 計(jì)算每個(gè)分片,返回一個(gè)可遍歷的結(jié)果,用于說明在父RDD上執(zhí)行何種計(jì)算。

? ? 3 依賴(dependency): 計(jì)算每個(gè)RDD對(duì)父RDD的依賴列表,源RDD沒有依賴,通過依賴關(guān)系描述血統(tǒng)(lineage)。

? ? 4 優(yōu)先位置(可選):每個(gè)分片的優(yōu)先計(jì)算位置

? ? 5 分區(qū)策略(可選)描述分區(qū)模式和數(shù)據(jù)存儲(chǔ)位置

每個(gè)Transformation操作都會(huì)產(chǎn)生一種RDD:


最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容