零、序言

角色：分布式的框架(比如hdfs、yarn、zookeeper等)大多都會(huì)設(shè)計(jì)成不同的幾套程序扮演不同的角色協(xié)同工作，比如最簡(jiǎn)單的master、slaver兩種角色。

一、 spark on yarn

1.1 yarn

yarn 是分布式資源管理框架，相當(dāng)于分布式的操作系統(tǒng)，會(huì)有程序運(yùn)行在上面。
涉及到以下幾個(gè)角色：
1. RM：resource manager 資源管理者。全局只有一個(gè)，統(tǒng)一管理集群資源。
2. NM：node mananger 節(jié)點(diǎn)管理者。分布在每一個(gè)節(jié)點(diǎn)，向RM匯報(bào)節(jié)點(diǎn)的信息。

yarn分配資源都是以container作為資源的分配單位，yarn的應(yīng)用程序都會(huì)被裝到container中去運(yùn)行。每個(gè)節(jié)點(diǎn)可能有很多個(gè)大小不一的container都有NM控制并向RM匯報(bào)。

Yarn 上運(yùn)行的程序涉及到的角色（每個(gè)yarn程序都需要有的）：
1. AC: application client 。負(fù)責(zé)提交任務(wù)到y(tǒng)arn，監(jiān)控程序運(yùn)行狀態(tài)?？梢栽诓粚儆趛arn管理的集群中的機(jī)器上運(yùn)行。
2. AW: application worker。分布在yarn各個(gè)container中去執(zhí)行具體的工作。
3. AM: application master 應(yīng)用程序管理者。負(fù)責(zé)和NM交付申請(qǐng)container分配任務(wù)，收集結(jié)果。

1.2 spark on yarn

1.2.1 spark的結(jié)構(gòu)

spark官網(wǎng)的部署圖

Driver : 用戶編寫的程序的main函數(shù)就運(yùn)行在driver上面，用戶調(diào)用spark的api驅(qū)動(dòng)driver進(jìn)行工作，比如計(jì)劃任務(wù)(schedule)、分發(fā)任務(wù)、收集結(jié)果等。
Cluster Manager ：只yarn、Mesos等集群管理者。
Executor ：實(shí)際執(zhí)行任務(wù)的進(jìn)程，運(yùn)行在集群中的節(jié)點(diǎn)上。

上圖是spark的結(jié)構(gòu)，那spark on yarn 如何把spark的這一套東西運(yùn)行在yarn上的呢。它有兩種部署模式，client模式和cluster模式。

1.2.2 yarn client模式

yarn client

Spark Yarn Client向YARN的ResourceManager申請(qǐng)啟動(dòng)Application Master。同時(shí)在SparkContent初始化中將創(chuàng)建DAGScheduler和TASKScheduler等，由于我們選擇的是Yarn-Client模式，程序會(huì)選擇YarnClientClusterScheduler和YarnClientSchedulerBackend；
ResourceManager收到請(qǐng)求后，在集群中選擇一個(gè)NodeManager，為該應(yīng)用程序分配第一個(gè)Container，要求它在這個(gè)Container中啟動(dòng)應(yīng)用程序的ApplicationMaster，與YARN-Cluster區(qū)別的是在該ApplicationMaster不運(yùn)行SparkContext，只與SparkContext進(jìn)行聯(lián)系進(jìn)行資源的分派；
Client中的SparkContext初始化完畢后，與ApplicationMaster建立通訊，向ResourceManager注冊(cè)，根據(jù)任務(wù)信息向ResourceManager申請(qǐng)資源（Container）；
一旦ApplicationMaster申請(qǐng)到資源（也就是Container）后，便與對(duì)應(yīng)的NodeManager通信，要求它在獲得的Container中啟動(dòng)啟動(dòng)CoarseGrainedExecutorBackend，CoarseGrainedExecutorBackend啟動(dòng)后會(huì)向Client中的SparkContext注冊(cè)并申請(qǐng)Task；
Client中的SparkContext分配Task給CoarseGrainedExecutorBackend執(zhí)行，CoarseGrainedExecutorBackend運(yùn)行Task并向Driver匯報(bào)運(yùn)行的狀態(tài)和進(jìn)度，以讓Client隨時(shí)掌握各個(gè)任務(wù)的運(yùn)行狀態(tài)，從而可以在任務(wù)失敗時(shí)重新啟動(dòng)任務(wù)；
應(yīng)用程序運(yùn)行完成后，Client的SparkContext向ResourceManager申請(qǐng)注銷并關(guān)閉自己。

1.2.3 yarn cluster模式

yarn cluster

Spark Yarn Client向YARN中提交應(yīng)用程序，包括ApplicationMaster程序、啟動(dòng)ApplicationMaster的命令、需要在Executor中運(yùn)行的程序等；
ResourceManager收到請(qǐng)求后，在集群中選擇一個(gè)NodeManager，為該應(yīng)用程序分配第一個(gè)Container，要求它在這個(gè)Container中啟動(dòng)應(yīng)用程序的ApplicationMaster，其中ApplicationMaster進(jìn)行SparkContext等的初始化；
ApplicationMaster向ResourceManager注冊(cè)，這樣用戶可以直接通過ResourceManage查看應(yīng)用程序的運(yùn)行狀態(tài)，然后它將采用輪詢的方式通過RPC協(xié)議為各個(gè)任務(wù)申請(qǐng)資源，并監(jiān)控它們的運(yùn)行狀態(tài)直到運(yùn)行結(jié)束；
一旦ApplicationMaster申請(qǐng)到資源（也就是Container）后，便與對(duì)應(yīng)的NodeManager通信，要求它在獲得的Container中啟動(dòng)啟動(dòng)CoarseGrainedExecutorBackend，CoarseGrainedExecutorBackend啟動(dòng)后會(huì)向ApplicationMaster中的SparkContext注冊(cè)并申請(qǐng)Task。這一點(diǎn)和Standalone模式一樣，只不過SparkContext在Spark Application中初始化時(shí)，使用CoarseGrainedSchedulerBackend配合YarnClusterScheduler進(jìn)行任務(wù)的調(diào)度，其中YarnClusterScheduler只是對(duì)TaskSchedulerImpl的一個(gè)簡(jiǎn)單包裝，增加了對(duì)Executor的等待邏輯等；
ApplicationMaster中的SparkContext分配Task給CoarseGrainedExecutorBackend執(zhí)行，CoarseGrainedExecutorBackend運(yùn)行Task并向ApplicationMaster匯報(bào)運(yùn)行的狀態(tài)和進(jìn)度，以讓ApplicationMaster隨時(shí)掌握各個(gè)任務(wù)的運(yùn)行狀態(tài)，從而可以在任務(wù)失敗時(shí)重新啟動(dòng)任務(wù)；
應(yīng)用程序運(yùn)行完成后，ApplicationMaster向ResourceManager申請(qǐng)注銷并關(guān)閉自己。

pyspark

spark 是如何和python結(jié)合的呢

image.png

參考文獻(xiàn)

http://www.it610.com/article/4021749.htm

加我信微 Zeal-Zeng 費(fèi)免拉你進(jìn) 知識(shí)星球、大數(shù)據(jù)社群、眾公號(hào)（曾二爺）和優(yōu)秀的人一起學(xué)習(xí)

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

5分鐘了解spark on yarn

5分鐘了解spark on yarn

零、序言

一、 spark on yarn

1.1 yarn

1.2 spark on yarn

1.2.1 spark的結(jié)構(gòu)

1.2.2 yarn client模式

1.2.3 yarn cluster模式

pyspark

參考文獻(xiàn)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

5分鐘了解spark on yarn

零、序言

一、 spark on yarn

1.1 yarn

1.2 spark on yarn

1.2.1 spark的結(jié)構(gòu)

1.2.2 yarn client模式

1.2.3 yarn cluster模式

pyspark

參考文獻(xiàn)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

零、序言

一、 spark on yarn