從九寨溝地震 看那些年數(shù)據(jù)中心受到的傷害

昨日晚間,中國(guó)地震臺(tái)網(wǎng)正式測(cè)定,四川阿壩州九寨溝縣發(fā)生7級(jí)地震,中國(guó)地震局啟動(dòng)I級(jí)應(yīng)急響應(yīng),派出現(xiàn)場(chǎng)工作隊(duì)趕赴震區(qū)開展應(yīng)急處置工作,武警部隊(duì)、應(yīng)急人員和醫(yī)療隊(duì)也已經(jīng)在第一時(shí)間投入搶險(xiǎn)救援。

讓我們一起為九寨溝地震遇難人員祈?!?/p>

說(shuō)到地震,又想起了不久前蘋果公司在貴州建立數(shù)據(jù)中心的事件。我們都知道,云廠商對(duì)于數(shù)據(jù)中心的選址考察,主要有六個(gè)方面,其中處于首要地位的便是其地理位置。

誠(chéng)然其他的因素比如說(shuō)自然環(huán)境、社會(huì)資源、能源條件等等都不容忽視,但是不怕一萬(wàn)就怕萬(wàn)一,地震、臺(tái)風(fēng)、洪水等自然災(zāi)害對(duì)于數(shù)據(jù)中心的影響往往是毀滅性的。

地震可以給數(shù)據(jù)中心帶來(lái)斷電、機(jī)房、機(jī)柜坍塌、線纜損壞、數(shù)據(jù)丟失等諸多問題,其中設(shè)備損壞等有形的損失可以彌補(bǔ),而寶貴的數(shù)據(jù)丟失造成的損失則是無(wú)法計(jì)算的。

我們來(lái)細(xì)數(shù)一下這些年數(shù)據(jù)中心可能受到的傷害:

洪災(zāi)

2009年9月9日,土耳其伊斯坦布爾遭遇暴雨并引發(fā)了洪水。瘋狂肆虐的洪水淹沒了該市Ikitelli區(qū)的大部分地段,也淹沒位于該區(qū)的Vodafone數(shù)據(jù)中心。

還有2010年澳大利亞的Datacom網(wǎng)絡(luò)中心,當(dāng)時(shí)的大暴雨將Datacom主機(jī)代管中心的天花板沖毀,使得服務(wù)器、存儲(chǔ)和網(wǎng)絡(luò)設(shè)備都遭損壞。

2008年Hunt Valley數(shù)據(jù)中心也曾遭遇了“有驚無(wú)險(xiǎn)”的侵襲。當(dāng)時(shí)洗手間的一根管道爆裂并涌出大量的水。好在該中心的服務(wù)器機(jī)柜設(shè)計(jì)較為合理,離地間距為4英寸(1英寸=0.0254米),而且管理人員在午休回來(lái)后及時(shí)發(fā)現(xiàn)并處理了該險(xiǎn)情。

從中我們不難發(fā)現(xiàn),為了避免洪災(zāi)對(duì)數(shù)據(jù)中心帶來(lái)的潛在危害,我們應(yīng)該對(duì)數(shù)據(jù)中心的選址、海拔、機(jī)柜離地間距甚至是整個(gè)數(shù)據(jù)中心建筑物的設(shè)計(jì),都需要有一個(gè)充分的科學(xué)論證,以防后患。

火災(zāi)

俗話說(shuō)“大火無(wú)情”,一旦出現(xiàn)火災(zāi)事故,后果不堪設(shè)想。也正是如此,數(shù)據(jù)中心往往都備有消防裝備。

2008年3月19日,美國(guó)威斯康辛數(shù)據(jù)中心被火燒得一塌糊涂,該數(shù)據(jù)中心耗時(shí)十天才得以完全恢復(fù)過(guò)來(lái),足以說(shuō)明該數(shù)據(jù)中心在當(dāng)時(shí)并沒有完備的備份計(jì)劃。

同樣還遭遇火災(zāi)影響的數(shù)據(jù)中心,有來(lái)自莫斯科的ISP服務(wù)器機(jī)房。該數(shù)據(jù)中心起火原因是墻壁上的電閘開關(guān)短路而導(dǎo)致的,然而值得稱贊的是,盡管如此,該機(jī)房并沒有中斷電力。因?yàn)樗麄儾渴鹆薝PS系統(tǒng),這一點(diǎn)對(duì)于其他數(shù)據(jù)中心的設(shè)計(jì)和建筑來(lái)說(shuō)都極具參考意義。

2009年7月,位于西雅圖的Fisher Plaza數(shù)據(jù)中心的變壓器起火引發(fā)火災(zāi)。此次火災(zāi)影響甚大,造成了包括微軟Bing Travel、Authorize.net、Redfin、Big Fish Games、Survey Analytics等網(wǎng)站服務(wù)器的中斷運(yùn)行,這次事故在同一時(shí)間段引發(fā)了很多其他數(shù)據(jù)中心的宕機(jī)。

從此次災(zāi)難中,我們應(yīng)該學(xué)會(huì)在選擇數(shù)據(jù)中心服務(wù)商的時(shí)候,應(yīng)該了解事故發(fā)生后網(wǎng)站需要多長(zhǎng)時(shí)間從宕機(jī)中恢復(fù)過(guò)來(lái)。如果答案在幾天甚至幾周,那么可以考慮選擇其他更值得信賴的服務(wù)商。

另外,我們也特別需要有完整災(zāi)備計(jì)劃的事后措施,在數(shù)據(jù)中心場(chǎng)地和周邊,務(wù)必有科學(xué)合理的消防設(shè)備和設(shè)計(jì)方案,數(shù)據(jù)中心的各個(gè)角落應(yīng)該有盡可能多的消防器材。(在不影響通行和通風(fēng)散熱的情況下。)

網(wǎng)絡(luò)/電力中斷

光纖網(wǎng)絡(luò)在很多偏遠(yuǎn)地區(qū)并不常見,如果路由器、交換機(jī)出現(xiàn)宕機(jī)或者人為誤操作(誤配置)導(dǎo)致網(wǎng)絡(luò)中斷,后果同樣不堪設(shè)想。沒有網(wǎng)絡(luò)的數(shù)據(jù)中心宛如一座孤島——對(duì)于提供 網(wǎng)絡(luò)或者云服務(wù)的數(shù)據(jù)中心來(lái)尤其如此。

相比網(wǎng)絡(luò)中斷,電力中斷帶來(lái)的麻煩更大,沒有電力的數(shù)據(jù)中心就如同一堆廢鐵。

地震

說(shuō)到地震,就不能不提到日本。日本處于地震多發(fā)地帶,往往還有臺(tái)風(fēng)和海嘯。

2011年3月11日,日本遭受了9級(jí)大地震,在此次地震中,日本東京的IBM數(shù)據(jù)中心受損嚴(yán)重。包括很多大型機(jī)和傳統(tǒng)服務(wù)器受損,服務(wù)器機(jī)柜東倒西歪,金屬外框也出現(xiàn)了變形,甚至有些大型機(jī)的線纜都暴露在外。

不過(guò),由于IBM數(shù)據(jù)中心線纜長(zhǎng)度和松緊度的合理設(shè)計(jì),而且,作為自動(dòng)觸發(fā)進(jìn)行錯(cuò)誤檢查的一項(xiàng)預(yù)防措施,IBM存儲(chǔ)單元也同樣保持正常運(yùn)行。在此次地震中的IBM服務(wù)器還能正常運(yùn)行。

由此可見,身處地震帶或者地震頻發(fā)周邊的數(shù)據(jù)中心尤其要注意在防震方面的設(shè)計(jì)和構(gòu)建。

除了以上災(zāi)害,另外,數(shù)據(jù)泄露、系統(tǒng)崩潰、網(wǎng)絡(luò)攻擊、人為失誤和冗余出錯(cuò),都會(huì)給數(shù)據(jù)中心的正常運(yùn)營(yíng)帶來(lái)巨大危害。

數(shù)據(jù)中心災(zāi)備計(jì)劃

誠(chéng)然,我們?cè)趯?duì)數(shù)據(jù)中心進(jìn)行選址的時(shí)候,會(huì)考慮到很多因素,數(shù)據(jù)中心也往往不會(huì)建立在地震多發(fā)地帶,但是,我們不能因?yàn)榈卣鸢l(fā)生的概率低,那么就忽視這種風(fēng)險(xiǎn)的存在,必須要部署一些應(yīng)對(duì)之策。

這樣,即使發(fā)生諸如地震、水災(zāi)、雷擊、火災(zāi)、機(jī)器故障這些偶然事件,也必須具備很高的安全可靠性以保證業(yè)務(wù)不會(huì)停止。為了提高數(shù)據(jù)中心的安全可靠性,有必要建立完善的數(shù)據(jù)中心災(zāi)備計(jì)劃。

我國(guó)內(nèi)陸大部分地區(qū)位于地震烈度6度以上區(qū)域(見圖1),50%的國(guó)土面積位于7度以上的地震高烈度區(qū)域,包括23個(gè)省會(huì)城市和2/3的百萬(wàn)人口以上的大城市。防震減災(zāi)是國(guó)家公共安全的重要組成部分。

即使選擇在平原地區(qū),歷史上從未發(fā)生過(guò)大型地震的地方,也不能保證未來(lái)就一定不會(huì)發(fā)生大地震,防震的相應(yīng)工作也要展開。

防震的資金投入無(wú)疑會(huì)增加數(shù)據(jù)中心的運(yùn)營(yíng)成本,對(duì)數(shù)據(jù)中心來(lái)說(shuō)不是一件好事。所以數(shù)據(jù)中心的防震工作要做到什么程度,和數(shù)據(jù)中心的業(yè)務(wù)重要性,數(shù)據(jù)中心的資金實(shí)力,數(shù)據(jù)中心技術(shù)等都有很大關(guān)系,這是一個(gè)矛與盾的選擇過(guò)程。

很多時(shí)候,數(shù)據(jù)中心在防震方面投入了很多,卻一直也沒有遇到地震。也有的數(shù)據(jù)中心基本沒有投入,卻又遇到了地震,有時(shí)真的要靠點(diǎn)運(yùn)氣才行。在數(shù)據(jù)中心防震方面,投不投,投入多少也一直是數(shù)據(jù)中心內(nèi)部爭(zhēng)議的話題,這已經(jīng)成為了數(shù)據(jù)中心最為頭疼的話題之一。

災(zāi)備計(jì)劃其實(shí)應(yīng)該包括軟硬件層面。軟件層面包括人為的風(fēng)險(xiǎn)評(píng)估、定期審查、軟件系統(tǒng)的相互依存和備份。硬件層面包括硬件冗余、UPS、數(shù)據(jù)備份、異地災(zāi)備等等。

地震的破壞力主要表現(xiàn)就是對(duì)建筑物進(jìn)行左右、前后的晃動(dòng)?,F(xiàn)在的建筑物都要求能夠抗8級(jí)地震,數(shù)據(jù)中心的建筑也不例外。為了避免數(shù)據(jù)中心內(nèi)部的設(shè)備被晃到了地上,從機(jī)架跌落,往往會(huì)將設(shè)備固定在機(jī)架上,然后再將機(jī)架固定在機(jī)房地板上。設(shè)備隨著機(jī)房的地板而晃動(dòng),即使設(shè)備不發(fā)生跌落,也會(huì)由于頻繁的震蕩而導(dǎo)致設(shè)備損壞。

數(shù)據(jù)中心也有很多的減震技術(shù),主要有:升降防震地臺(tái)、地震滑行器、內(nèi)地板防震支架,還有防爆墻及安全緩沖區(qū)、防震機(jī)柜等等。

為了預(yù)防地震,數(shù)據(jù)中心不是部署了各種防震工具就可以高枕無(wú)憂了,理論上依然存在發(fā)生地震對(duì)設(shè)備造成損傷的可能性。最好的方式就是建設(shè)雙活數(shù)據(jù)中心,或者部署多活數(shù)據(jù)中心,這些雙活的數(shù)據(jù)中心需要建在不同的地理位置上,一旦一個(gè)地方發(fā)生故障,業(yè)務(wù)可以及時(shí)切換到正常的數(shù)據(jù)中心上。

當(dāng)然,建設(shè)多個(gè)數(shù)據(jù)中心,將大大增加了數(shù)據(jù)中心的運(yùn)營(yíng)成本,但只有這種方式可以完全避免地震給數(shù)據(jù)中心從設(shè)備到數(shù)據(jù)的全面?zhèn)Α>烤故遣捎秒p活/多活,還是選擇部署防震器,都是希望用最小的代價(jià)換來(lái)數(shù)據(jù)中心的長(zhǎng)治久安,一個(gè)數(shù)據(jù)中心究竟應(yīng)該在防震上投入多少,要結(jié)合自己的資金實(shí)力,業(yè)務(wù)重要性和機(jī)房實(shí)際防震情況,綜合評(píng)估出結(jié)果。

結(jié)束語(yǔ)

地震給或是其他自然災(zāi)害我們帶來(lái)的災(zāi)害是無(wú)法避免的,所以我們更加應(yīng)該反思如何才能采取更多更有效的措施來(lái)防止或者說(shuō)減小它們帶來(lái)的損失。

無(wú)論是政府還是數(shù)據(jù)中心的管理者都應(yīng)該及時(shí)做好工程的防震設(shè)防、加強(qiáng)地震的知識(shí)培訓(xùn)以及提出更多、更有效的機(jī)房設(shè)備防震解決方案,只有這樣才能更好的保護(hù)數(shù)據(jù)中心設(shè)備的安全,以及減少災(zāi)難給企業(yè)造成的無(wú)法估計(jì)的損失。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容