運維真是一件苦差事,在沒有做到自動化之前,你時刻都得提心吊膽著。
千臺機器共舞
我們的服務(wù)跑在ECS上,得益于阿里的生態(tài),我們根本不需要搭建zabbix之類的監(jiān)控工具,三五個同學(xué)建個內(nèi)部群,然后在群內(nèi)接入個釘釘機器人,監(jiān)控目標(biāo)機器的各項資源。縱然千臺節(jié)點,依舊不亦樂乎。
今天發(fā)生了什么
即使這樣,也只是做到了監(jiān)控,如果發(fā)生了問題,還是要白屏或黑屏去處理的。就在今天早上6:50,應(yīng)該是好夢的時節(jié),卻發(fā)生了磁盤報警,使用率直逼100%。
接了個組內(nèi)其他同學(xué)的電話,就趕緊爬起來開電腦。排查原因,尋找對策,著手解決。等一切忙完一時間,已經(jīng)7:40了。
去了趟衛(wèi)生間,路過陽臺看到朝陽已經(jīng)爬上了護欄,在遠處32層寫字樓頂部,紅光四射,就像一顆腌了許久而流出紅油的鴨蛋黃。嗯?這才意識到已經(jīng)快到端午節(jié)了。
時刻準(zhǔn)備著
運維線上服務(wù)的特點就是,你永遠不知道下一秒會發(fā)生什么,所以只能7×24h保持聯(lián)系狀態(tài),時刻準(zhǔn)備著登錄機器、解決問題??赡苁侵苣┩砩夏阏诔誀T光晚餐時,也可能是凌晨兩點你的春宵美夢中。
在其位謀其政,既然選擇了DevOps,當(dāng)然要負責(zé)到底,也只有這樣,對運維才有深刻的認識吧。
只是在此之前,沒事多燒幾柱香,祈禱不要夜夜爆肝吧。