rdd的計(jì)算都是以partiotion為單元的,這些分區(qū)的轉(zhuǎn)換函數(shù)(見(jiàn)后面的章節(jié))不會(huì)直接返回結(jié)果。當(dāng)出現(xiàn)collect,count,toList,print才會(huì)真正執(zhí)行。
分區(qū)函數(shù)
分區(qū)函數(shù)確定了 寬窄依賴(lài),如果父RDD的key只映射到子RDD中的一個(gè)key,則是窄依賴(lài)。反之為寬依賴(lài)。
spark默認(rèn)的兩種分區(qū)函數(shù),hash分區(qū)和range分區(qū)。分區(qū)函數(shù)只能適用于<K,V>類(lèi)型的RDD,非<K,V>類(lèi)型的分區(qū)函數(shù)為None
val partitions = sc.textFile("/home/.../.../test/log",2);
partitions.partitioner
res0: None
val new_partitions = partitions.map(x,x).groupByKey(new HashPartitioner(3))

Paste_Image.png
回顧前面的知識(shí),RDD的分區(qū)如何被找到呢?
在一個(gè)DAG執(zhí)行過(guò)程中,一般從HDFS文件作為出發(fā)點(diǎn),集合函數(shù)在dadanode上執(zhí)行,如果執(zhí)行完生成新的RDD分區(qū)還在本機(jī),則下一個(gè)集合函數(shù)繼續(xù)在本機(jī)上執(zhí)行,如果生成的RDD分區(qū)部分(或全部)不再本機(jī)上了,集合函數(shù)將在其他機(jī)器上執(zhí)行,是如何做到跟蹤的呢?
val location = rdd.preferredLocations(rdd.dependecies(0))
首選位置函數(shù)顯示的知道了rdd的分區(qū)位置,底層具體怎么實(shí)現(xiàn),便不知了。。