CDH集群第三個(gè)DataNode節(jié)點(diǎn)故障,顯示此角色的主機(jī)的運(yùn)行狀態(tài)為不良。圖標(biāo)上有小嘆號(hào)。
發(fā)現(xiàn)節(jié)點(diǎn)3的ntpd已經(jīng)失效。
1. 查看ntp服務(wù)命令:
[root@node1 ~]# systemctl status ntpd
* ntpd.service - Network Time Service? Loaded: loaded (/usr/lib/systemd/system/ntpd.service; disabled; vendor preset: disabled)? Active: inactive (dead)
可以看到狀態(tài)為:inactive,也就是沒(méi)有啟動(dòng)ntp服務(wù)
2. 啟動(dòng)ntp服務(wù)命令:
[root@node1 ~]# systemctl start ntpd
確認(rèn)是否啟動(dòng):
[root@node1 ~]# systemctl status ntpd
● ntpd.service - Network Time Service
? Loaded: loaded (/usr/lib/systemd/system/ntpd.service; enabled; vendor preset: disabled)
? Active: active (running) since Mon 2019-08-05 18:36:36 CST; 1 day 14h ago
? Process: 179737 ExecStart=/usr/sbin/ntpd -u ntp:ntp $OPTIONS (code=exited, status=0/SUCCESS)
Main PID: 179739 (ntpd)
? CGroup: /system.slice/ntpd.service
? ? ? ? ? └─179739 /usr/sbin/ntpd -u ntp:ntp -g
Aug 05 18:36:36 uf30-1 ntpd[179739]: Listen normally on 2 lo 127.0.0.1 UDP 123
Aug 05 18:36:36 uf30-1 ntpd[179739]: Listen normally on 3 eno4 xxx.xxx.xxx.xxx UDP 123
Aug 05 18:36:36 uf30-1 ntpd[179739]: Listen normally on 4 virbr0 xxx.xxx.xxx.xxx UDP 123
Aug 05 18:36:36 uf30-1 ntpd[179739]: Listen normally on 5 lo ::1 UDP 123
Aug 05 18:36:36 uf30-1 ntpd[179739]: Listen normally on 6 eno4 fe80::6e92:bfff:fec9:51ed UDP 123
Aug 05 18:36:36 uf30-1 ntpd[179739]: Listen normally on 7 eno4 fca1:571:0:71:6e92:bfff:fec9:51ed UDP 123
Aug 05 18:36:36 uf30-1 ntpd[179739]: Listening on routing socket on fd #24 for interface updates
Aug 05 18:36:36 uf30-1 ntpd[179739]: 0.0.0.0 c016 06 restart
Aug 05 18:36:36 uf30-1 ntpd[179739]: 0.0.0.0 c012 02 freq_set kernel -1.475 PPM
Aug 05 18:36:37 uf30-1 ntpd[179739]: 0.0.0.0 c515 05 clock_sync
可以看到此時(shí)ntp狀態(tài)為active,也就是成功啟動(dòng)了ntp服務(wù)
3. 設(shè)置開(kāi)啟自啟動(dòng)ntp服務(wù):
[root@node1 ~]# systemctl enable ntpd
4、手工同步節(jié)點(diǎn)1和節(jié)點(diǎn)3的時(shí)鐘。
ntpdate -u xxx.xxx.xxx.xxx
xxx.xxx.xxx.xxx為節(jié)點(diǎn)1的ip。
然后重啟Cloudera Management Service。

這時(shí)Cloudera Manage節(jié)點(diǎn)上主機(jī)3顯示正常,但是過(guò)了一會(huì)同樣的錯(cuò)誤又發(fā)生。
這時(shí)檢查 /etc/hosts;發(fā)現(xiàn)/etc/hosts的每個(gè)節(jié)點(diǎn)后面又加上了別的別名,果斷改回來(lái),重啟Cloudera Management Service。
然后Cloudera Manage節(jié)點(diǎn)上主機(jī)3顯示正常,但是過(guò)了一會(huì)同樣的錯(cuò)誤又發(fā)生。
很郁悶。最后網(wǎng)上查到一篇文章說(shuō)重啟hive后就好了。然后試著重啟了下hive,竟然真的好了。。。。。。
總結(jié):為什么重啟hive就好了,不太清楚。但是問(wèn)題的根本原因還是節(jié)點(diǎn)之間心跳連接失敗。因?yàn)樾略龅膆osts的別名不識(shí)別。
查看日志 cat /var/log/cloudera-scm-server/cloudera-scm-server.log
