1. 前言 本文主要講述一下我對spark任務(wù)調(diào)度過程的理解,必要的地方會配合源碼。 2 . Spark任務(wù)調(diào)度 2.1 基本概念 Job用戶提...
1. 前言 有時候需要按照key去做reduce操作時,一般情況下調(diào)用reduceByKey就可以完成按照key reduce的任務(wù),redu...
1. 前言 spark sql中使用DataFrame/DataSet來抽象表示結(jié)構(gòu)化數(shù)據(jù)(關(guān)系數(shù)據(jù)庫中的table),DataSet上支持和R...
1. 存儲總體結(jié)構(gòu) Spark存儲結(jié)構(gòu)分為兩層:內(nèi)存存儲和磁盤存儲,其中內(nèi)存主要用作緩存以及任務(wù)計(jì)算時期數(shù)據(jù)存儲,磁盤用在內(nèi)存存儲不足時使用。E...
1. tranformation mapmap實(shí)現(xiàn)如下: map接收一個函數(shù)f為參數(shù),該函數(shù)接收參數(shù)類型T,然后返回類型U。當(dāng)前RDD數(shù)據(jù)類型T...
1. 從word count程序開始 代碼如下: 1.1 創(chuàng)建SparkConf SparkConf持有spark的運(yùn)行時的配置信息,不給Spa...
本文基于spark2.11 1. 前言 1.1 基本概念 RDD關(guān)于RDD已經(jīng)有很多文章了,可以參考一下理解Spark的核心RDD 依賴依賴分為...
本文基于spark 2.11 1. 前言 在spark shuffle write 和read一文中3.1.1 節(jié)創(chuàng)建ShuffleBlockF...
本文基于spark源碼2.11 1. 前言 shuffle是spark job中一個重要的階段,發(fā)生在map和reduce之間,涉及到map到r...