CDH nameNode 文件檢查點(diǎn)狀態(tài)異常解決


最近,看了幾部女主戲,覺得里面的男綠葉眼神里總是飽含著憂傷,總是不快樂。其實(shí)女主戲里的男主,更加真實(shí),因?yàn)樗麄儽池?fù)著女主給他們的壓力和不快樂。比如,最近HDFS集群不時(shí)會有以下異常:

每次出現(xiàn)該異常,重啟HDFS集群,就可以恢復(fù)正常。但生產(chǎn)環(huán)境肯定不能三天兩頭重啟集群。于是嘗試HA機(jī)制下滾動重啟。

系統(tǒng)的NameNode已經(jīng)開啟了HA模式,即主備模式。


最開始,由于異常發(fā)生在NameNode主節(jié)點(diǎn),認(rèn)為是主節(jié)點(diǎn)checkpoint發(fā)生異常,故重啟主節(jié)點(diǎn),預(yù)期會產(chǎn)生主備切換,但重啟之后,并未發(fā)生主備切換,主節(jié)點(diǎn)依然不良。

并且在活動節(jié)點(diǎn)重啟時(shí),發(fā)生了以下告警:


意味著并未發(fā)生主備切換,而是集群直接不良,也就是說,其實(shí)出問題的是備用節(jié)點(diǎn)。

那就直接重啟備用節(jié)點(diǎn)好了,依然出現(xiàn)開始的問題。

也就是說,備用節(jié)點(diǎn)上的checkpoint出現(xiàn)了問題,可能和主節(jié)點(diǎn)不同步。

嘗試停止備用節(jié)點(diǎn),刪除備用節(jié)點(diǎn)上的/dfs/nn1目錄,并把主節(jié)點(diǎn)的/dfs/nn1目錄scp到備用節(jié)點(diǎn)上。再啟動,問題解決。

結(jié)論:備用節(jié)點(diǎn)因?yàn)槲粗蚴チ撕蚃ournalNodes的通信,導(dǎo)致落后,但備用節(jié)點(diǎn)在重啟之后并不會追趕主節(jié)點(diǎn)的事務(wù)變化。可能和JournalNodes的設(shè)計(jì)是輕量級,并未保存失去通信和重啟這一段時(shí)間所有的事務(wù)。因此必須通過手動同步實(shí)現(xiàn)主備節(jié)點(diǎn)的edit log一致。以上僅是個(gè)人推測,還望運(yùn)維店長斧正。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容