broadcast 官方文檔描述: 函數(shù)原型: 廣播變量允許程序員將一個只讀的變量緩存在每臺機器上,而不用在任務(wù)之間傳遞變量。廣播變量可被用于有...
saveAsTextFile 官方文檔描述: 函數(shù)原型: saveAsTextFile用于將RDD以文本文件的格式存儲到文件系統(tǒng)中。 源碼分析:...
treeAggregate 官方文檔描述: 函數(shù)原型: **可理解為更復(fù)雜的多階aggregate。** 源碼分析: **從源碼中可以看出,tr...
sortBy 官方文檔描述: 函數(shù)原型: **sortBy根據(jù)給定的f函數(shù)將RDD中的元素進行排序。** 源碼分析: **從源碼中可以看出,so...
foreach 官方文檔描述: 函數(shù)原型: **foreach用于遍歷RDD,將函數(shù)f應(yīng)用于每一個元素。** 源碼分析: 實例: foreach...
fold 官方文檔描述: 函數(shù)原型: **fold是aggregate的簡化,將aggregate中的seqOp和combOp使用同一個函數(shù)op...
reduce 官方文檔描述: 函數(shù)原型: 根據(jù)映射函數(shù)f,對RDD中的元素進行二元計算(滿足交換律和結(jié)合律),返回計算結(jié)果。 源碼分析: 從源碼...
最近在項目中遇到二次排序的需求,和平常開發(fā)spark的application一樣,開始查看API,編碼,調(diào)試,驗證結(jié)果。由于之前對spark的A...
zipWithIndex 官方文檔描述: 函數(shù)原型: 該函數(shù)將RDD中的元素和這個元素在RDD中的indices組合起來,形成鍵/值對的RDD。...