CDH故障排錯(cuò):此角色的主機(jī)的運(yùn)行狀況為不良。 以下運(yùn)行狀況測(cè)試不良: 代理狀態(tài)。 該主機(jī)未與 Host Monitor 建立聯(lián)系。

CDH集群第三個(gè)DataNode節(jié)點(diǎn)故障,顯示此角色的主機(jī)的運(yùn)行狀態(tài)為不良。圖標(biāo)上有小嘆號(hào)。

發(fā)現(xiàn)節(jié)點(diǎn)3的ntpd已經(jīng)失效。

1. 查看ntp服務(wù)命令:

[root@node1 ~]# systemctl status ntpd

* ntpd.service - Network Time Service? Loaded: loaded (/usr/lib/systemd/system/ntpd.service; disabled; vendor preset: disabled)? Active: inactive (dead)

可以看到狀態(tài)為:inactive,也就是沒(méi)有啟動(dòng)ntp服務(wù)

2. 啟動(dòng)ntp服務(wù)命令:

[root@node1 ~]# systemctl start ntpd

確認(rèn)是否啟動(dòng):

[root@node1 ~]# systemctl status ntpd

● ntpd.service - Network Time Service

? Loaded: loaded (/usr/lib/systemd/system/ntpd.service; enabled; vendor preset: disabled)

? Active: active (running) since Mon 2019-08-05 18:36:36 CST; 1 day 14h ago

? Process: 179737 ExecStart=/usr/sbin/ntpd -u ntp:ntp $OPTIONS (code=exited, status=0/SUCCESS)

Main PID: 179739 (ntpd)

? CGroup: /system.slice/ntpd.service

? ? ? ? ? └─179739 /usr/sbin/ntpd -u ntp:ntp -g

Aug 05 18:36:36 uf30-1 ntpd[179739]: Listen normally on 2 lo 127.0.0.1 UDP 123

Aug 05 18:36:36 uf30-1 ntpd[179739]: Listen normally on 3 eno4 xxx.xxx.xxx.xxx UDP 123

Aug 05 18:36:36 uf30-1 ntpd[179739]: Listen normally on 4 virbr0 xxx.xxx.xxx.xxx UDP 123

Aug 05 18:36:36 uf30-1 ntpd[179739]: Listen normally on 5 lo ::1 UDP 123

Aug 05 18:36:36 uf30-1 ntpd[179739]: Listen normally on 6 eno4 fe80::6e92:bfff:fec9:51ed UDP 123

Aug 05 18:36:36 uf30-1 ntpd[179739]: Listen normally on 7 eno4 fca1:571:0:71:6e92:bfff:fec9:51ed UDP 123

Aug 05 18:36:36 uf30-1 ntpd[179739]: Listening on routing socket on fd #24 for interface updates

Aug 05 18:36:36 uf30-1 ntpd[179739]: 0.0.0.0 c016 06 restart

Aug 05 18:36:36 uf30-1 ntpd[179739]: 0.0.0.0 c012 02 freq_set kernel -1.475 PPM

Aug 05 18:36:37 uf30-1 ntpd[179739]: 0.0.0.0 c515 05 clock_sync

可以看到此時(shí)ntp狀態(tài)為active,也就是成功啟動(dòng)了ntp服務(wù)

3. 設(shè)置開(kāi)啟自啟動(dòng)ntp服務(wù):

[root@node1 ~]# systemctl enable ntpd

4、手工同步節(jié)點(diǎn)1和節(jié)點(diǎn)3的時(shí)鐘。

ntpdate -u xxx.xxx.xxx.xxx

xxx.xxx.xxx.xxx為節(jié)點(diǎn)1的ip。

然后重啟Cloudera Management Service。

這時(shí)Cloudera Manage節(jié)點(diǎn)上主機(jī)3顯示正常,但是過(guò)了一會(huì)同樣的錯(cuò)誤又發(fā)生。

這時(shí)檢查 /etc/hosts;發(fā)現(xiàn)/etc/hosts的每個(gè)節(jié)點(diǎn)后面又加上了別的別名,果斷改回來(lái),重啟Cloudera Management Service。

然后Cloudera Manage節(jié)點(diǎn)上主機(jī)3顯示正常,但是過(guò)了一會(huì)同樣的錯(cuò)誤又發(fā)生。

很郁悶。最后網(wǎng)上查到一篇文章說(shuō)重啟hive后就好了。然后試著重啟了下hive,竟然真的好了。。。。。。

總結(jié):為什么重啟hive就好了,不太清楚。但是問(wèn)題的根本原因還是節(jié)點(diǎn)之間心跳連接失敗。因?yàn)樾略龅膆osts的別名不識(shí)別。

查看日志 cat /var/log/cloudera-scm-server/cloudera-scm-server.log


?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容