Spark中RDD的高效與DAG圖有著莫大的關(guān)系,在DAG調(diào)度中需要對計算過程劃分stage,而劃分依據(jù)就是RDD之間的依賴關(guān)系
窄依賴:一個父RDD的一個分區(qū)只會對應(yīng)于一個子RDD的一個分區(qū)。
? ? ? ? ? ? ? ? ? 下圖: 父對子是一對一的算子
? ? ? ? ? ? ? ? ? ? 1> Map/Filter ;
? ? ? ? ? ? ? ? ? ? 2>對輸入進(jìn)行協(xié)同劃分的join
寬依賴:一個父RDD的一個分區(qū)對應(yīng)于一個子RDD的多個分區(qū)
? ? ? ? ? ? ? ? ? 下圖:父對子是一對多的算子
? ? ? ? ? ? ? ? ? ? 1> groupByKey;
? ? ? ? ? ? ? ? ? ? 2>未經(jīng)過協(xié)同劃分的 join
