** WHAT**
YARN:集群資源管理系統(tǒng)
Structure:
- ResourceManager:整個集群只有一個,負責集群資源的統(tǒng)一管理和調(diào)度
- 處理客戶端請求
- 啟動/監(jiān)控ApplicationMaster
- 監(jiān)控NodeManager
- 資源分配與調(diào)度
- NodeManager:整個集群有多個,負責單節(jié)點資源管理和使用
- 單個節(jié)點上的資源管理和任務(wù)調(diào)度
- 處理來自ResourceManager的命令
- 處理來自ApplicationMaster的命令
- ApplicationMaster:每個應(yīng)用有一個,負責應(yīng)用程序的管理
- 數(shù)據(jù)切分
- 為應(yīng)用程序申請資源,并進一步分配給內(nèi)部任務(wù)
- 任務(wù)監(jiān)控與容錯
- Container:
- 對任務(wù)運行環(huán)境的抽象
- 描述一系列信息
- 任務(wù)運行資源(節(jié)點、內(nèi)存、CPU)
- 任務(wù)啟動命令
- 任務(wù)運行環(huán)境
YARN架構(gòu)(物理上):

YARN架構(gòu)
YARN運行過程:

YARN運行過程
WHY
-
運維成本:
如果采用“一個框架一個集群”的模式,則可能需要多個管理員管理這些集群,進而增加運維成本,而共享模式通常需要少數(shù)管理員即可完成多個框架的統(tǒng)一管理。 -
數(shù)據(jù)共享:
隨著數(shù)據(jù)量的暴增,跨集群間的數(shù)據(jù)移動不僅需花費更長的時間,且硬件成本也會大大增加,而共享集群模式可讓多種框架共享數(shù)據(jù)和硬件資源,將大大減小數(shù)據(jù)移動帶來的成本。
WHERE
工作流中的位置:

工作流中的位置