文檔:http://spark.apache.org/docs/latest/rdd-programming-guide.html#resilient-distributed-datasets-rdds
全稱:Resilient Distributed Datasets
which is a fault-tolerant collection of elements that can be operated on in parallel
一種編程模型的抽象,是一種具有容錯(cuò)性基于內(nèi)存的集群計(jì)算抽象方法。
每個(gè)RDD具有5個(gè)特征:
? ? 1 分區(qū)(partition):有一個(gè)數(shù)據(jù)分片列表,能夠?qū)?shù)據(jù)進(jìn)行切分,切分后的數(shù)據(jù)能夠進(jìn)行并行計(jì)算,是數(shù)據(jù)集的原子組成部分。
? ? 2 函數(shù)(compute): 計(jì)算每個(gè)分片,返回一個(gè)可遍歷的結(jié)果,用于說明在父RDD上執(zhí)行何種計(jì)算。
? ? 3 依賴(dependency): 計(jì)算每個(gè)RDD對(duì)父RDD的依賴列表,源RDD沒有依賴,通過依賴關(guān)系描述血統(tǒng)(lineage)。
? ? 4 優(yōu)先位置(可選):每個(gè)分片的優(yōu)先計(jì)算位置
? ? 5 分區(qū)策略(可選)描述分區(qū)模式和數(shù)據(jù)存儲(chǔ)位置
每個(gè)Transformation操作都會(huì)產(chǎn)生一種RDD:
