一、RDD的概述
1.1 什么是RDD?
RDD(Resilient Distributed Dataset)叫做彈性分布式數(shù)據(jù)集,是Spark中最基本的數(shù)據(jù)抽象,它代表一個(gè)不可變、可分區(qū)、里面的元素可并行計(jì)算的集合。RDD具有數(shù)據(jù)流模型的特點(diǎn):自動(dòng)容錯(cuò)、位置感知性調(diào)度和可伸縮性。RDD允許用戶在執(zhí)行多個(gè)查詢時(shí)顯式地將工作集緩存在內(nèi)存中,后續(xù)的查詢能夠重用工作集,這極大地提升了查詢速度。
1.2 RDD的屬性
(1)一組分片(Partition),即數(shù)據(jù)集的基本組成單位。對(duì)于RDD來說,每個(gè)分片都會(huì)被一個(gè)計(jì)算任務(wù)處理,并決定并行計(jì)算的粒度。用戶可以在創(chuàng)建RDD時(shí)指定RDD的分片個(gè)數(shù),如果沒有指定,那么就會(huì)采用默認(rèn)值。默認(rèn)值就是程序所分配到的CPU Core的數(shù)目。
(3)RDD之間的依賴關(guān)系。RDD的每次轉(zhuǎn)換都會(huì)生成一個(gè)新的RDD,所以RDD之間就會(huì)形成類似于流水線一樣的前后依賴關(guān)系。在部分分區(qū)數(shù)據(jù)丟失時(shí),Spark可以通過這個(gè)依賴關(guān)系重新計(jì)算丟失的分區(qū)數(shù)據(jù),而不是對(duì)RDD的所有分區(qū)進(jìn)行重新計(jì)算。
(3)RDD之間的依賴關(guān)系。RDD的每次轉(zhuǎn)換都會(huì)生成一個(gè)新的RDD,所以RDD之間就會(huì)形成類似于流水線一樣的前后依賴關(guān)系。在部分分區(qū)數(shù)據(jù)丟失時(shí),Spark可以通過這個(gè)依賴關(guān)系重新計(jì)算丟失的分區(qū)數(shù)據(jù),而不是對(duì)RDD的所有分區(qū)進(jìn)行重新計(jì)算。
(4)一個(gè)Partitioner,即RDD的分片函數(shù)。當(dāng)前Spark中實(shí)現(xiàn)了兩種類型的分片函數(shù),一個(gè)是基于哈希的HashPartitioner,另外一個(gè)是基于范圍的RangePartitioner。只有對(duì)于于key-value的RDD,才會(huì)有Partitioner,非key-value的RDD的Parititioner的值是None。Partitioner函數(shù)不但決定了RDD本身的分片數(shù)量,也決定了parent RDD Shuffle輸出時(shí)的分片數(shù)量。
(5)一個(gè)列表,存儲(chǔ)存取每個(gè)Partition的優(yōu)先位置(preferred location)。對(duì)于一個(gè)HDFS文件來說,這個(gè)列表保存的就是每個(gè)Partition所在的塊的位置。按照“移動(dòng)數(shù)據(jù)不如移動(dòng)計(jì)算”的理念,Spark在進(jìn)行任務(wù)調(diào)度的時(shí)候,會(huì)盡可能地將計(jì)算任務(wù)分配到其所要處理數(shù)據(jù)塊的存儲(chǔ)位置。
1.3 WordCount粗圖解RDD

其中hello.txt

二、RDD的創(chuàng)建方式
2.1 通過讀取文件生成的
由外部存儲(chǔ)系統(tǒng)的數(shù)據(jù)集創(chuàng)建,包括本地的文件系統(tǒng),還有所有Hadoop支持的數(shù)據(jù)集,比如HDFS、Cassandra、HBase等
scala> val file = sc.textFile("/spark/hello.txt")

2.2 通過并行化的方式創(chuàng)建RDD
由一個(gè)已經(jīng)存在的Scala集合創(chuàng)建。
scala> val array = Array(1,2,3,4,5)
array: Array[Int] = Array(1, 2, 3, 4, 5)
scala> val rdd = sc.parallelize(array)
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[27] at parallelize at <console>:26
scala>

2.3 其他方式
讀取數(shù)據(jù)庫等等其他的操作。也可以生成RDD。
RDD可以通過其他的RDD轉(zhuǎn)換而來的。
三、RDD編程API
Spark支持兩個(gè)類型(算子)操作:Transformation和Action
3.1 Transformation
主要做的是就是將一個(gè)已有的RDD生成另外一個(gè)RDD。Transformation具有l(wèi)azy特性(延遲加載)。Transformation算子的代碼不會(huì)真正被執(zhí)行。只有當(dāng)我們的程序里面遇到一個(gè)action算子的時(shí)候,代碼才會(huì)真正的被執(zhí)行。這種設(shè)計(jì)讓Spark更加有效率地運(yùn)行。
常用的Transformation:
| 序號(hào) | 轉(zhuǎn)換 | 含義 |
|---|---|---|
| 1 | map(func) | 返回一個(gè)新的RDD,該RDD由每一個(gè)輸入元素經(jīng)過func函數(shù)轉(zhuǎn)換后組成 |
| 2 | filter(func) | 返回一個(gè)新的RDD,該RDD由經(jīng)過func函數(shù)計(jì)算后返回值為true的輸入元素組成 |
| 3 | flatMap(func) | 類似于map,但是每一個(gè)輸入元素可以被映射為0或多個(gè)輸出元素(所以func應(yīng)該返回一個(gè)序列,而不是單一元素) |
| 4 | mapPartitions(func) | 類似于map,但獨(dú)立地在RDD的每一個(gè)分片上運(yùn)行,因此在類型為T的RDD上運(yùn)行時(shí),func的函數(shù)類型必須是Iterator[T] => Iterator[U] |
| 5 | mapPartitionsWithIndex(func) | 類似于mapPartitions,但func帶有一個(gè)整數(shù)參數(shù)表示分片的索引值,因此在類型為T的RDD上運(yùn)行時(shí),func的函數(shù)類型必須是 |
| 6 | (Int, Interator[T]) => Iterator[U]sample(withReplacement, fraction, seed) | 根據(jù)fraction指定的比例對(duì)數(shù)據(jù)進(jìn)行采樣,可以選擇是否使用隨機(jī)數(shù)進(jìn)行替換,seed用于指定隨機(jī)數(shù)生成器種子 |
| 7 | union(otherDataset) | 對(duì)源RDD和參數(shù)RDD求并集后返回一個(gè)新的RDD |
| 8 | intersection(otherDataset) | 對(duì)源RDD和參數(shù)RDD求交集后返回一個(gè)新的RDD |
| 9 | distinct([numTasks])) | 對(duì)源RDD進(jìn)行去重后返回一個(gè)新的RDD |
| 10 | groupByKey([numTasks]) | 在一個(gè)(K,V)的RDD上調(diào)用,返回一個(gè)(K, Iterator[V])的RDD |
| 11 | reduceByKey(func, [numTasks]) | 在一個(gè)(K,V)的RDD上調(diào)用,返回一個(gè)(K,V)的RDD,使用指定的reduce函數(shù),將相同key的值聚合到一起,與groupByKey類似,reduce任務(wù)的個(gè)數(shù)可以通過第二個(gè)可選的參數(shù)來設(shè)置 |
| 12 | aggregateByKey(zeroValue)(seqOp, combOp, [numTasks]) | 先按分區(qū)聚合 再總的聚合 每次要跟初始值交流 例如:aggregateByKey(0)(+,+) 對(duì)k/y的RDD進(jìn)行操作 |
| 13 | sortByKey([ascending], [numTasks]) | 在一個(gè)(K,V)的RDD上調(diào)用,K必須實(shí)現(xiàn)Ordered接口,返回一個(gè)按照key進(jìn)行排序的(K,V)的RDD |
| 14 | sortBy(func,[ascending], [numTasks]) | 與sortByKey類似,但是更靈活 第一個(gè)參數(shù)是根據(jù)什么排序 第二個(gè)是怎么排序 false倒序 第三個(gè)排序后分區(qū)數(shù) 默認(rèn)與原RDD一樣 |
| 15 | join(otherDataset, [numTasks]) | 在類型為(K,V)和(K,W)的RDD上調(diào)用,返回一個(gè)相同key對(duì)應(yīng)的所有元素對(duì)在一起的(K,(V,W))的RDD 相當(dāng)于內(nèi)連接(求交集) |
| 16 | cogroup(otherDataset, [numTasks]) | 在類型為(K,V)和(K,W)的RDD上調(diào)用,返回一個(gè)(K,(Iterable<V>,Iterable<W>))類型的RDD |
| 17 | cartesian(otherDataset) | 兩個(gè)RDD的笛卡爾積 的成很多個(gè)K/V |
| 18 | pipe(command, [envVars]) | 調(diào)用外部程序 |
| 19 | coalesce(numPartitions) | 重新分區(qū) 第一個(gè)參數(shù)是要分多少區(qū),第二個(gè)參數(shù)是否shuffle 默認(rèn)false 少分區(qū)變多分區(qū) true 多分區(qū)變少分區(qū) false |
| 20 | repartition(numPartitions) | 重新分區(qū) 必須shuffle 參數(shù)是要分多少區(qū) 少變多 |
| 21 | repartitionAndSortWithinPartitions(partitioner) | 重新分區(qū)+排序 比先分區(qū)再排序效率高 對(duì)K/V的RDD進(jìn)行操作 |
| 22 | foldByKey(zeroValue)(seqOp) | 該函數(shù)用于K/V做折疊,合并處理 ,與aggregate類似 第一個(gè)括號(hào)的參數(shù)應(yīng)用于每個(gè)V值 第二括號(hào)函數(shù)是聚合例如:+ |
| 23 | combineByKey | 合并相同的key的值 rdd1.combineByKey(x => x, (a: Int, b: Int) => a + b, (m: Int, n: Int) => m + n) |
| 24 | partitionBy(partitioner) | 對(duì)RDD進(jìn)行分區(qū) partitioner是分區(qū)器 例如new HashPartition(2 |
| 25 | cache | RDD緩存,可以避免重復(fù)計(jì)算從而減少時(shí)間,區(qū)別:cache內(nèi)部調(diào)用了persist算子,cache默認(rèn)就一個(gè)緩存級(jí)別MEMORY-ONLY ,而persist則可以選擇緩存級(jí)別 |
| 26 | persist | |
| 27 | Subtract(rdd) | 返回前rdd元素不在后rdd的rdd |
| 28 | leftOuterJoin | leftOuterJoin類似于SQL中的左外關(guān)聯(lián)left outer join,返回結(jié)果以前面的RDD為主,關(guān)聯(lián)不上的記錄為空。只能用于兩個(gè)RDD之間的關(guān)聯(lián),如果要多個(gè)RDD關(guān)聯(lián),多關(guān)聯(lián)幾次即可。 |
| 29 | rightOuterJoin | rightOuterJoin類似于SQL中的有外關(guān)聯(lián)right outer join,返回結(jié)果以參數(shù)中的RDD為主,關(guān)聯(lián)不上的記錄為空。只能用于兩個(gè)RDD之間的關(guān)聯(lián),如果要多個(gè)RDD關(guān)聯(lián),多關(guān)聯(lián)幾次即可 |
| 30 | subtractByKey | substractByKey和基本轉(zhuǎn)換操作中的subtract類似只不過這里是針對(duì)K的,返回在主RDD中出現(xiàn),并且不在otherRDD中出現(xiàn)的元素 |
3.2 Action
| 序號(hào) | 動(dòng)作 | 含義 |
|---|---|---|
| 1 | reduce(func) | 通過func函數(shù)聚集RDD中的所有元素,這個(gè)功能必須是課交換且可并聯(lián)的 |
| 2 | collect() | 在驅(qū)動(dòng)程序中,以數(shù)組的形式返回?cái)?shù)據(jù)集的所有元素 |
| 3 | count() | 返回RDD的元素個(gè)數(shù) |
| 4 | first() | 返回RDD的第一個(gè)元素(類似于take(1)) |
| 5 | take(n) | 返回一個(gè)由數(shù)據(jù)集的前n個(gè)元素組成的數(shù)組 |
| 6 | takeSample(withReplacement,num, [seed]) | 返回一個(gè)數(shù)組,該數(shù)組由從數(shù)據(jù)集中隨機(jī)采樣的num個(gè)元素組成,可以選擇是否用隨機(jī)數(shù)替換不足的部分,seed用于指定隨機(jī)數(shù)生成器種子 |
| 7 | takeOrdered(n, [ordering]) | |
| 8 | saveAsTextFile(path) | 將數(shù)據(jù)集的元素以textfile的形式保存到HDFS文件系統(tǒng)或者其他支持的文件系統(tǒng),對(duì)于每個(gè)元素,Spark將會(huì)調(diào)用toString方法,將它裝換為文件中的文本 |
| 9 | saveAsSequenceFile(path) | 將數(shù)據(jù)集中的元素以Hadoop sequencefile的格式保存到指定的目錄下,可以使HDFS或者其他Hadoop支持的文件系統(tǒng)。 |
| 10 | saveAsObjectFile(path) | |
| 11 | countByKey() | 針對(duì)(K,V)類型的RDD,返回一個(gè)(K,Int)的map,表示每一個(gè)key對(duì)應(yīng)的元素個(gè)數(shù)。 |
| 12 | foreach(func) | 在數(shù)據(jù)集的每一個(gè)元素上,運(yùn)行函數(shù)func進(jìn)行更新。 |
| 13 | aggregate | 先對(duì)分區(qū)進(jìn)行操作,在總體操作 |
| 14 | reduceByKeyLocally | |
| 15 | lookup | |
| 16 | top | |
| 17 | fold | |
| 18 | foreachPartition |
觸發(fā)代碼的運(yùn)行,我們一段spark代碼里面至少需要有一個(gè)action操作。
3.3 Spark WordCount代碼編寫
使用maven進(jìn)行項(xiàng)目構(gòu)建
(1)使用scala進(jìn)行編寫
查看官方網(wǎng)站,需要導(dǎo)入2個(gè)依賴包

詳細(xì)代碼
SparkWordCountWithScala.scala
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
object SparkWordCountWithScala {
def main(args: Array[String]): Unit = {
val conf = new SparkConf()
/**
* 如果這個(gè)參數(shù)不設(shè)置,默認(rèn)認(rèn)為你運(yùn)行的是集群模式
* 如果設(shè)置成local代表運(yùn)行的是local模式
*/
conf.setMaster("local")
//設(shè)置任務(wù)名
conf.setAppName("WordCount")
//創(chuàng)建SparkCore的程序入口
val sc = new SparkContext(conf)
//讀取文件 生成RDD
val file: RDD[String] = sc.textFile("E:\\hello.txt")
//把每一行數(shù)據(jù)按照,分割
val word: RDD[String] = file.flatMap(_.split(","))
//讓每一個(gè)單詞都出現(xiàn)一次
val wordOne: RDD[(String, Int)] = word.map((_,1))
//單詞計(jì)數(shù)
val wordCount: RDD[(String, Int)] = wordOne.reduceByKey(_+_)
//按照單詞出現(xiàn)的次數(shù) 降序排序
val sortRdd: RDD[(String, Int)] = wordCount.sortBy(tuple => tuple._2,false)
//將最終的結(jié)果進(jìn)行保存
sortRdd.saveAsTextFile("E:\\result")
sc.stop()
}
運(yùn)行結(jié)果

(2)使用java jdk7進(jìn)行編寫
SparkWordCountWithJava7.java
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.FlatMapFunction;
import org.apache.spark.api.java.function.Function2;
import org.apache.spark.api.java.function.PairFunction;
import scala.Tuple2;
import java.util.Arrays;
import java.util.Iterator;
public class SparkWordCountWithJava7 {
public static void main(String[] args) {
SparkConf conf = new SparkConf();
conf.setMaster("local");
conf.setAppName("WordCount");
JavaSparkContext sc = new JavaSparkContext(conf);
JavaRDD<String> fileRdd = sc.textFile("E:\\hello.txt");
JavaRDD<String> wordRDD = fileRdd.flatMap(new FlatMapFunction<String, String>() {
@Override
public Iterator<String> call(String line) throws Exception {
return Arrays.asList(line.split(",")).iterator();
}
});
JavaPairRDD<String, Integer> wordOneRDD = wordRDD.mapToPair(new PairFunction<String, String, Integer>() {
@Override
public Tuple2<String, Integer> call(String word) throws Exception {
return new Tuple2<>(word, 1);
}
});
JavaPairRDD<String, Integer> wordCountRDD = wordOneRDD.reduceByKey(new Function2<Integer, Integer, Integer>() {
@Override
public Integer call(Integer i1, Integer i2) throws Exception {
return i1 + i2;
}
});
JavaPairRDD<Integer, String> count2WordRDD = wordCountRDD.mapToPair(new PairFunction<Tuple2<String, Integer>, Integer, String>() {
@Override
public Tuple2<Integer, String> call(Tuple2<String, Integer> tuple) throws Exception {
return new Tuple2<>(tuple._2, tuple._1);
}
});
JavaPairRDD<Integer, String> sortRDD = count2WordRDD.sortByKey(false);
JavaPairRDD<String, Integer> resultRDD = sortRDD.mapToPair(new PairFunction<Tuple2<Integer, String>, String, Integer>() {
@Override
public Tuple2<String, Integer> call(Tuple2<Integer, String> tuple) throws Exception {
return new Tuple2<>(tuple._2, tuple._1);
}
});
resultRDD.saveAsTextFile("E:\\result7");
}
}
(3)使用java jdk8進(jìn)行編寫
lambda表達(dá)式
SparkWordCountWithJava8.java
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import scala.Tuple2;
import java.util.Arrays;
public class SparkWordCountWithJava8 {
public static void main(String[] args) {
SparkConf conf = new SparkConf();
conf.setAppName("WortCount");
conf.setMaster("local");
JavaSparkContext sc = new JavaSparkContext(conf);
JavaRDD<String> fileRDD = sc.textFile("E:\\hello.txt");
JavaRDD<String> wordRdd = fileRDD.flatMap(line -> Arrays.asList(line.split(",")).iterator());
JavaPairRDD<String, Integer> wordOneRDD = wordRdd.mapToPair(word -> new Tuple2<>(word, 1));
JavaPairRDD<String, Integer> wordCountRDD = wordOneRDD.reduceByKey((x, y) -> x + y);
JavaPairRDD<Integer, String> count2WordRDD = wordCountRDD.mapToPair(tuple -> new Tuple2<>(tuple._2, tuple._1));
JavaPairRDD<Integer, String> sortRDD = count2WordRDD.sortByKey(false);
JavaPairRDD<String, Integer> resultRDD = sortRDD.mapToPair(tuple -> new Tuple2<>(tuple._2, tuple._1));
resultRDD.saveAsTextFile("E:\\result8");
}
3.4 WordCount執(zhí)行過程圖

四、RDD的寬依賴和窄依賴
4.1 RDD依賴關(guān)系的本質(zhì)內(nèi)幕
由于RDD是粗粒度的操作數(shù)據(jù)集,每個(gè)Transformation操作都會(huì)生成一個(gè)新的RDD,所以RDD之間就會(huì)形成類似流水線的前后依賴關(guān)系;RDD和它依賴的父RDD(s)的關(guān)系有兩種不同的類型,即窄依賴(narrow dependency)和寬依賴(wide dependency)。如圖所示顯示了RDD之間的依賴關(guān)系。

從圖中可知:
窄依賴:是指每個(gè)父RDD的一個(gè)Partition最多被子RDD的一個(gè)Partition所使用,例如map、filter、union等操作都會(huì)產(chǎn)生窄依賴;(獨(dú)生子女)
寬依賴:是指一個(gè)父RDD的Partition會(huì)被多個(gè)子RDD的Partition所使用,例如groupByKey、reduceByKey、sortByKey等操作都會(huì)產(chǎn)生寬依賴;(超生)
需要特別說明的是對(duì)join操作有兩種情況:
(1)圖中左半部分join:如果兩個(gè)RDD在進(jìn)行join操作時(shí),一個(gè)RDD的partition僅僅和另一個(gè)RDD中已知個(gè)數(shù)的Partition進(jìn)行join,那么這種類型的join操作就是窄依賴,例如圖1中左半部分的join操作(join with inputs co-partitioned);
(2)圖中右半部分join:其它情況的join操作就是寬依賴,例如圖1中右半部分的join操作(join with inputs not co-partitioned),由于是需要父RDD的所有partition進(jìn)行join的轉(zhuǎn)換,這就涉及到了shuffle,因此這種類型的join操作也是寬依賴。
總結(jié):
在這里我們是從父RDD的partition被使用的個(gè)數(shù)來定義窄依賴和寬依賴,因此可以用一句話概括下:如果父RDD的一個(gè)Partition被子RDD的一個(gè)Partition所使用就是窄依賴,否則的話就是寬依賴。因?yàn)槭谴_定的partition數(shù)量的依賴關(guān)系,所以RDD之間的依賴關(guān)系就是窄依賴;由此我們可以得出一個(gè)推論:即窄依賴不僅包含一對(duì)一的窄依賴,還包含一對(duì)固定個(gè)數(shù)的窄依賴。
一對(duì)固定個(gè)數(shù)的窄依賴的理解:即子RDD的partition對(duì)父RDD依賴的Partition的數(shù)量不會(huì)隨著RDD數(shù)據(jù)規(guī)模的改變而改變;換句話說,無論是有100T的數(shù)據(jù)量還是1P的數(shù)據(jù)量,在窄依賴中,子RDD所依賴的父RDD的partition的個(gè)數(shù)是確定的,而寬依賴是shuffle級(jí)別的,數(shù)據(jù)量越大,那么子RDD所依賴的父RDD的個(gè)數(shù)就越多,從而子RDD所依賴的父RDD的partition的個(gè)數(shù)也會(huì)變得越來越多。
4.2 依賴關(guān)系下的數(shù)據(jù)流視圖

在spark中,會(huì)根據(jù)RDD之間的依賴關(guān)系將DAG圖(有向無環(huán)圖)劃分為不同的階段,對(duì)于窄依賴,由于partition依賴關(guān)系的確定性,partition的轉(zhuǎn)換處理就可以在同一個(gè)線程里完成,窄依賴就被spark劃分到同一個(gè)stage中,而對(duì)于寬依賴,只能等父RDD shuffle處理完成后,下一個(gè)stage才能開始接下來的計(jì)算。
因此spark劃分stage的整體思路是:從后往前推,遇到寬依賴就斷開,劃分為一個(gè)stage;遇到窄依賴就將這個(gè)RDD加入該stage中。因此在圖2中RDD C,RDD D,RDD E,RDDF被構(gòu)建在一個(gè)stage中,RDD A被構(gòu)建在一個(gè)單獨(dú)的Stage中,而RDD B和RDD G又被構(gòu)建在同一個(gè)stage中。
在spark中,Task的類型分為2種:ShuffleMapTask和ResultTask;
簡(jiǎn)單來說,DAG的最后一個(gè)階段會(huì)為每個(gè)結(jié)果的partition生成一個(gè)ResultTask,即每個(gè)Stage里面的Task的數(shù)量是由該Stage中最后一個(gè)RDD的Partition的數(shù)量所決定的!而其余所有階段都會(huì)生成ShuffleMapTask;之所以稱之為ShuffleMapTask是因?yàn)樗枰獙⒆约旱挠?jì)算結(jié)果通過shuffle到下一個(gè)stage中;也就是說上圖中的stage1和stage2相當(dāng)于mapreduce中的Mapper,而ResultTask所代表的stage3就相當(dāng)于mapreduce中的reducer。
在之前動(dòng)手操作了一個(gè)wordcount程序,因此可知,Hadoop中MapReduce操作中的Mapper和Reducer在spark中的基本等量算子是map和reduceByKey;不過區(qū)別在于:Hadoop中的MapReduce天生就是排序的;而reduceByKey只是根據(jù)Key進(jìn)行reduce,但spark除了這兩個(gè)算子還有其他的算子;因此從這個(gè)意義上來說,Spark比Hadoop的計(jì)算算子更為豐富。
原博客:https://www.cnblogs.com/qingyunzong/p/8899715.html#_label0_0