yarn默認(rèn)只管理內(nèi)存資源,雖然也可以申請(qǐng)cpu資源,但是在沒有cpu資源隔離的情況下效果并不是太好.在集群規(guī)模大,任務(wù)多時(shí)資源競(jìng)爭(zhēng)的問題尤為嚴(yán)重.
還好yarn提供的LinuxContainerExecutor可以通過cgroup來隔離cpu資源
cgroup
cgroup是系統(tǒng)提供的資源隔離功能,可以隔離系統(tǒng)的多種類型的資源,yarn只用來隔離cpu資源
安裝cgroup
默認(rèn)系統(tǒng)已經(jīng)安裝了cgroup了,如果沒有安裝可以通過命令安裝
CentOS 6
yum install -y libcgroup
CentOS 7
yum install -y libcgroup-tools
然后通過命令啟動(dòng)
CentOS 6
/etc/init.d/cgconfig start
CentOS 7
systemctl start cgconfig.service
查看/cgroup目錄,可以看到里面已經(jīng)創(chuàng)建了一些目錄,這些目錄就是可以隔離的資源
drwxr-xr-x 2 root root 0 3月 19 20:56 blkio
drwxr-xr-x 3 root root 0 3月 19 20:56 cpu
drwxr-xr-x 2 root root 0 3月 19 20:56 cpuacct
drwxr-xr-x 2 root root 0 3月 19 20:56 cpuset
drwxr-xr-x 2 root root 0 3月 19 20:56 devices
drwxr-xr-x 2 root root 0 3月 19 20:56 freezer
drwxr-xr-x 2 root root 0 3月 19 20:56 memory
drwxr-xr-x 2 root root 0 3月 19 20:56 net_cls
如果目錄沒有創(chuàng)建可以執(zhí)行
cd /
mkdir cgroup
mount -t tmpfs cgroup_root ./cgroup
mkdir cgroup/cpuset
mount -t cgroup -ocpuset cpuset ./cgroup/cpuset/
mkdir cgroup/cpu
mount -t cgroup -ocpu cpu ./cgroup/cpu/
mkdir cgroup/memory
mount -t cgroup -omemory memory ./cgroup/memory/
通過cgroup隔離cpu資源的步驟為
- 在cpu目錄創(chuàng)建分組
cgroup以組為單位隔離資源,同一個(gè)組可以使用的資源相同
一個(gè)組在cgroup里面體現(xiàn)為一個(gè)文件夾,創(chuàng)建分組直接使用mkdir命令即可.
組下面還可以創(chuàng)建下級(jí)組.最終可以形成一個(gè)樹形結(jié)構(gòu)來完成復(fù)雜的資源隔離方案.
每當(dāng)創(chuàng)建了一個(gè)組,系統(tǒng)會(huì)自動(dòng)在目錄立即創(chuàng)建一些文件,資源控制主要就是通過配置這些文件來完成
--w--w--w- 1 root root 0 3月 19 21:09 cgroup.event_control
-rw-r--r-- 1 root root 0 3月 19 21:09 cgroup.procs
-rw-r--r-- 1 root root 0 3月 19 21:09 cpu.cfs_period_us
-rw-r--r-- 1 root root 0 3月 19 21:09 cpu.cfs_quota_us
-rw-r--r-- 1 root root 0 3月 19 21:09 cpu.rt_period_us
-rw-r--r-- 1 root root 0 3月 19 21:09 cpu.rt_runtime_us
-rw-r--r-- 1 root root 0 3月 19 21:09 cpu.shares
-r--r--r-- 1 root root 0 3月 19 21:09 cpu.stat
-rw-r--r-- 1 root root 0 3月 19 21:09 notify_on_release
-rw-r--r-- 1 root root 0 3月 19 21:09 tasks
yarn默認(rèn)使用hadoop-yarn組作為最上層,任務(wù)運(yùn)行時(shí)yarn會(huì)為每個(gè)container在hadoop-yarn里面創(chuàng)建一個(gè)組
yarn主要使用cpu.cfs_quota_us cpu.cfs_period_us cpu.shares3個(gè)文件
yarn使用cgroup的兩種方式來控制cpu資源分配
- 嚴(yán)格按核數(shù)隔離資源
可使用核數(shù) = cpu.cfs_quota_us/cpu.cfs_period_us
在yarn中cpu.cfs_quota_us被直接設(shè)置為1000000(這個(gè)參數(shù)可以設(shè)置的最大值)
然后根據(jù)任務(wù)申請(qǐng)的core來計(jì)算出cpu.cfs_period_us - 按比例隔離資源
按每個(gè)分組里面cpu.shares的比率來分配cpu
比如A B C三個(gè)分組,cpu.shares分別設(shè)置為1024 1024 2048,那么他們可以使用的cpu比率為1:1:2 - 將進(jìn)程id添加到指定組的tasks文件
創(chuàng)建完分組后只需要將要限制的進(jìn)程的id寫入tasks文件即可,如果需要解除限制,在tasks文件刪除即可
yarn配置
啟動(dòng)cgroup需要配置幾個(gè)配置文件
etc/hadoop/yarn-site.xml配置
可以參考http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/NodeManagerCgroups.html 配置
這些配置大部分都是固定配置
<property>
<name>yarn.nodemanager.container-executor.class</name>
<value>org.apache.hadoop.yarn.server.nodemanager.LinuxContainerExecutor</value>
</property>
<property>
<name>yarn.nodemanager.linux-container-executor.resources-handler.class</name>
<value>org.apache.hadoop.yarn.server.nodemanager.util.CgroupsLCEResourcesHandler</value>
</property>
<property>
<description>yarn使用的cgroup組,默認(rèn)為/hadoop-yarn</description>
<name>yarn.nodemanager.linux-container-executor.cgroups.hierarchy</name>
<value>/hadoop-yarn</value>
</property>
<property>
<description>是否自動(dòng)掛載cgroup</description>
<name>yarn.nodemanager.linux-container-executor.cgroups.mount</name>
<value>true</value>
</property>
<property>
<description>cgroup掛載目錄, /sys/fs/cgroup 或者是 /cgroup,目錄和系統(tǒng)有關(guān)</description>
<name>yarn.nodemanager.linux-container-executor.cgroups.mount-path</name>
<value>/cgroup</value>
</property>
<property>
<name>yarn.nodemanager.linux-container-executor.group</name>
<value>hadoop</value>
</property>
<property>
<description>配置nodemanager使用多少物理cpu資源,比如24核服務(wù)器配置90的話,最近使用21.6核</description>
<name>yarn.nodemanager.resource.percentage-physical-cpu-limit</name>
<value>90</value>
</property>
<property>
<description>是控制是否嚴(yán)格限制cpu,即按任務(wù)申請(qǐng)的core限制,還是非嚴(yán)格限制,即按core的比率限制</description>
<name>yarn.nodemanager.linux-container-executor.cgroups.strict-resource-usage</name>
<value>true</value>
</property>
<property>
<description>非安全模式將會(huì)以這里設(shè)置的用戶運(yùn)行container,比如配置hadoop用戶則以hadoop運(yùn)行container</description>
<name>yarn.nodemanager.linux-container-executor.nonsecure-mode.local-user</name>
<value>hadoop</value>
</property>
etc/hadoop/container-executor.cfg配置
這個(gè)配置文件每項(xiàng)都需要填,要不然會(huì)報(bào)錯(cuò)
yarn.nodemanager.linux-container-executor.group=hadoop
banned.users=root
min.user.id=1000
allowed.system.users=hadoop
權(quán)限設(shè)置
在配置中文件的權(quán)限有特殊要求
chown root:hadoop bin/container-executor
chmod 6050 bin/container-executor
系統(tǒng)還要求etc/hadoop/container-executor.cfg 的所有父目錄(一直到/ 目錄) owner 都為 root
這個(gè)路徑是默認(rèn)${HADOOP_HOME}/etc/hadoop/container-executor.cfg,如果不方便修改所有父級(jí)目錄為root權(quán)限,可以重新編譯代碼到其他目錄,比如/etc/hadoop/目錄
mvn clean package -Dcontainer-executor.conf.dir=/etc/hadoop/ -DskipTests -Pnative
配置好以后檢測(cè)是否配置成功
./bin/container-executor --checksetup
如果沒有任何輸出表示配置成功
如果一切順利就可以啟動(dòng)集群了
測(cè)試cgroup
可以運(yùn)行測(cè)試腳本測(cè)試系統(tǒng)
./bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn-cluster \
--deploy-mode cluster \
--num-executors 5 \
--executor-cores 3 \
--executor-memory 4G \
--driver-memory 4G \
--driver-cores 2 \
lib/spark-examples-1.6.0-hadoop2.6.0.jar 10000```
查看系統(tǒng)是否生效只能登錄到服務(wù)器查看
通過`top`查看信息

查看是否創(chuàng)建了cgroup分組,`ll /cgroup/hadoop-yarn/`
--w--w--w- 1 root root 0 3月 17 15:44 cgroup.event_control
-rw-r--r-- 1 root root 0 3月 17 15:44 cgroup.procs
drwxr-xr-x 2 root root 0 3月 17 16:06 container_1489736876249_0003_01_000011
drwxr-xr-x 2 root root 0 3月 17 16:06 container_1489736876249_0003_01_000026
drwxr-xr-x 2 root root 0 3月 17 16:06 container_1489736876249_0003_01_000051
drwxr-xr-x 2 root root 0 3月 17 16:06 container_1489736876249_0003_01_000076
drwxr-xr-x 2 root root 0 3月 17 16:06 container_1489736876249_0003_01_000101
drwxr-xr-x 2 root root 0 3月 17 16:06 container_1489736876249_0003_01_000123
drwxr-xr-x 2 root root 0 3月 17 16:06 container_1489736876249_0003_01_000136
drwxr-xr-x 2 root root 0 3月 17 16:06 container_1489736876249_0003_01_000155
drwxr-xr-x 2 root root 0 3月 17 16:30 container_1489736876249_0004_01_000008
-rw-r--r-- 1 root root 0 3月 17 15:47 cpu.cfs_period_us
-rw-r--r-- 1 root root 0 3月 17 15:47 cpu.cfs_quota_us
-rw-r--r-- 1 root root 0 3月 17 15:44 cpu.rt_period_us
-rw-r--r-- 1 root root 0 3月 17 15:44 cpu.rt_runtime_us
-rw-r--r-- 1 root root 0 3月 17 15:44 cpu.shares
-r--r--r-- 1 root root 0 3月 17 15:44 cpu.stat
-rw-r--r-- 1 root root 0 3月 17 15:44 notify_on_release
-rw-r--r-- 1 root root 0 3月 17 15:44 tasks
查看`container_*`目錄下 `cpu.cfs_period_us`,計(jì)算` cpu.cfs_quota_us/cpu.cfs_period_us`即可知道分配的核數(shù)
[root@- ~]# cat /cgroup/cpu/hadoop-yarn/container*/cpu.cfs_period_us
462962
462962
462962
462962
462962
462962
462962
462962
308641
## 問題處理
配置的過程中免不了會(huì)碰上一些問題,以下是我碰到的問題
### spark任務(wù)申請(qǐng)了core,`node manager`分配不正確,都是分配1個(gè)核
這個(gè)是由于目前使用的`capacity scheduler`的資源計(jì)算方式只考慮了內(nèi)存,沒有考慮CPU
這種方式會(huì)導(dǎo)致資源使用情況統(tǒng)計(jì)不準(zhǔn)確,比如一個(gè)saprk程序啟動(dòng)命令資源參數(shù)如下
--num-executors 1 --executor-cores 3 --executor-memory 4G --driver-memory 4G --driver-cores 1
DefaultResourceCalculator 統(tǒng)計(jì)占2核
DominantResourceCalculator 統(tǒng)計(jì)占4核
修改配置文件即可解決
<property>
<name>yarn.scheduler.capacity.resource-calculator</name>
<value>org.apache.hadoop.yarn.util.resource.DominantResourceCalculator</value>
<description>
The ResourceCalculator implementation to be used to compare
Resources in the scheduler.
The default i.e. DefaultResourceCalculator only uses Memory while
DominantResourceCalculator uses dominant-resource to compare
multi-dimensional resources such as Memory, CPU etc.
</description>
</property>
### container-executor運(yùn)行時(shí)報(bào)缺少GLIBC_2.14庫
container-executor: /lib64/libc.so.6: version `GLIBC_2.14' not found (required by bin/container-executor)
這個(gè)和系統(tǒng)版本有關(guān),只能通過重新編譯`container-executor`來解決
mvn clean package -Dcontainer-executor.conf.dir=/etc/hadoop/ -DskipTests -Pnative
### centos 7系統(tǒng)container啟動(dòng)報(bào)錯(cuò),不能寫入/cgroup/cpu
這個(gè)是yarn在centos 7下的一個(gè)bug,hadoop 2.8以后的版本才會(huì)解決
這個(gè)bug主要是因?yàn)閏entos 7下cgroup的目錄和centos 6不一致導(dǎo)致,centos 7 cpu目錄合并成`cpu,cpuacct`, 這個(gè)`,`導(dǎo)致的錯(cuò)誤,需要打補(bǔ)丁后編譯 https://issues.apache.org/jira/browse/YARN-2194
private String findControllerInMtab(String controller,
Map<String, List<String>> entries) {
for (Entry<String, List<String>> e : entries.entrySet()) {
// if (e.getValue().contains(controller))
// return e.getKey();
if (e.getValue().contains(controller)) {
String controllerKey = e.getKey();
// In Redhat7, the controller is called "/sys/fs/cgroup/cpu,cpuacct"
controllerKey = controllerKey.replace("cpu,cpuacct", "cpu");
if (new File(controllerKey).exists()) {
return controllerKey;
}
}
}
return null;
}
## 升級(jí)的風(fēng)險(xiǎn)
由于改變了資源的隔離方式,升級(jí)可能有幾個(gè)方面的影響
### 任務(wù)資源分配問題
升級(jí)cgroup后單個(gè)任務(wù)如果以前資源分配不合理可能會(huì)出現(xiàn)計(jì)算延時(shí)情況,出現(xiàn)資源問題時(shí)需要調(diào)整任務(wù)資源
在集群規(guī)模小的時(shí)候可能沒有資源可以調(diào)整,那么可以修改為非嚴(yán)格模式,非嚴(yán)格模式不能按配置限制資源,只能保證資源不被少數(shù)進(jìn)程全部占用
<property>
<name>yarn.nodemanager.linux-container-executor.cgroups.strict-resource-usage</name>
<value>false</value>
</property
### spark driver資源問題
spark任務(wù)的driver在集群模式`deploy-mode cluster `時(shí),如果沒有配置`driver-cores`的話默認(rèn)分配1核,1核在任務(wù)規(guī)模大時(shí)有可能資源會(huì)緊張.采用`deploy-mode client `模式的不受cgroup限制