這里并不是想說關(guān)于這次會(huì)議得到的結(jié)論是什么的,問題是如何解決的,而是從更高一個(gè)層次來看待這次會(huì)議。
一開始看這個(gè)會(huì)議,各方的訴求其實(shí)是明確的:客戶想要對(duì)問題的答復(fù),以向領(lǐng)導(dǎo)、子公司領(lǐng)導(dǎo)一個(gè)交代,有交代就行;運(yùn)維、開發(fā)想要在給出交代的同時(shí),把責(zé)任給撇清楚;數(shù)據(jù)庫維護(hù)事不關(guān)己高高掛起。
客戶的這種對(duì)事態(tài)度,說到底還是對(duì)領(lǐng)導(dǎo)負(fù)責(zé),而不是對(duì)事情負(fù)責(zé)。但是他的應(yīng)對(duì)方法卻幾乎無可挑剔,值得學(xué)習(xí)。
6月13日客戶端無法登錄的問題,整個(gè)事故的原因是因?yàn)镸Q內(nèi)存爆滿,導(dǎo)致客戶端登錄時(shí)無法從MQ獲取消息,導(dǎo)致客戶端無法響應(yīng)。運(yùn)維一開始是說客戶端無法登錄是程序問題,絕口不提MQ內(nèi)存爆掉的事實(shí),否認(rèn)MQ爆掉與客戶端無法登錄之間的聯(lián)系。在開發(fā)揭露出MQ與客戶端無法登錄之間的聯(lián)系之后,嘗試通過兩個(gè)可能的理由想要將責(zé)任推卸到開發(fā)的身上,但是又被開發(fā)以事實(shí)反駁。90萬數(shù)據(jù)才占區(qū)區(qū)2.3G內(nèi)存,28萬數(shù)據(jù)怎么可能消耗完畢64G內(nèi)存?
這些事實(shí)反應(yīng)了運(yùn)維:
1、對(duì)服務(wù)器知識(shí)不足,邏輯思維能力不強(qiáng),幾乎沒有排查故障的能力,無法完成故障排查任務(wù)和服務(wù)器維穩(wěn)任務(wù)。
2、對(duì)于對(duì)自己不利的真相,不會(huì)主動(dòng)透露,不會(huì)去反饋,反而盡量去掩蓋。
3、善于推卸責(zé)任,在真相被揭露的情況下,想要通過各種辦法將責(zé)任推到他人身上;即使無法完全推到他人身上,也至少想要拉他人下水。
4、把別人的功勞當(dāng)做自己的,例如解決故障時(shí)提到“我們”,不了解情況的人咋一聽好像是運(yùn)維解決的。
以上是運(yùn)維的固有特征,在實(shí)際工作中需要提防這一點(diǎn)。
客戶認(rèn)為,1、開發(fā)需要優(yōu)化程序;2、運(yùn)維在一個(gè)小時(shí)之后才發(fā)現(xiàn)真相,反映了運(yùn)維的故障排查能力問題和應(yīng)急反應(yīng)能力問題;3、運(yùn)維至今無法排查出為何內(nèi)存會(huì)爆掉,反映了運(yùn)維的故障排查能力問題。這三點(diǎn),雖然認(rèn)定責(zé)任大部分存在于運(yùn)維,但是對(duì)運(yùn)維本質(zhì)上的推卸責(zé)任、隱瞞真相的本質(zhì)仍然未點(diǎn)破。并不清楚客戶是否認(rèn)識(shí)到運(yùn)維的本質(zhì)。所以,如果不加以任何應(yīng)對(duì)措施,這類事故仍然會(huì)持續(xù)發(fā)生到開發(fā)頭上。
這類事故也提示了我:
1、一個(gè)事故,并非全部是一個(gè)因素、一個(gè)部門所造成的,而是可能由多個(gè)因素、多個(gè)部門共同所造成的。因而追查事故時(shí),必須理清相關(guān)來龍去脈,對(duì)事故發(fā)生的整個(gè)過程進(jìn)行正確、客觀梳理,過程的每個(gè)環(huán)節(jié)的決定性因素在何處,每個(gè)環(huán)節(jié)的責(zé)任人是否有應(yīng)對(duì),是否及時(shí)應(yīng)對(duì),是否玩忽職守;當(dāng)事故發(fā)生時(shí)是否有緊急預(yù)案可以啟動(dòng)。
2、看清楚合作部門、合作伙伴的對(duì)事態(tài)度,根據(jù)其地位、態(tài)度決定方針,如果合作伙伴的地位與自身一致,且對(duì)事態(tài)度較為懈怠,發(fā)生事故時(shí)應(yīng)毫不留情地指出事實(shí),以維護(hù)自身利益,絕不姑息。
6月16日程序包被刪的問題,也反映了運(yùn)維同樣的問題,暫且不表。