數(shù)據(jù)中心火災(zāi)頻發(fā)的深度反思—有感于對OVH火災(zāi)事后報(bào)道的思考
數(shù)據(jù)中心對火災(zāi)的管理,也應(yīng)隨著國家戰(zhàn)略的落地,、數(shù)據(jù)中心在國民經(jīng)濟(jì)中發(fā)揮越來越重要的關(guān)鍵作用,而進(jìn)行更加全面的有效管理,將目前以風(fēng)險(xiǎn)管控和應(yīng)急預(yù)案為主的防火防災(zāi)管理,改變?yōu)橹塾跒楦餍袠I(yè),特別是對數(shù)據(jù)中心高度依賴的行業(yè),提供連續(xù)穩(wěn)定的支撐服務(wù)為目標(biāo)的火災(zāi)場景下的服務(wù)連續(xù)性管理,,數(shù)據(jù)中心應(yīng)制定詳盡的火災(zāi)場景下的服務(wù)連續(xù)性計(jì)劃。
1,、火災(zāi)情況
總部位于法國魯貝的法國獨(dú)角獸公司OVHCloud(前身為OVH),在全球擁有27個(gè)數(shù)據(jù)中心,OVH是歐洲最大的托管服務(wù)提供商,也是世界第三大托管服務(wù)提供商,其位于法國斯特拉斯堡的數(shù)據(jù)中心園區(qū),共包括SBG1,、SBG2、SBG3和SBG4四棟數(shù)據(jù)中心建筑,。2021年當(dāng)?shù)貢r(shí)間3月10日凌晨,一場大火燒毀了法國斯特拉斯堡OVHCloud的鋼結(jié)構(gòu)SBG2數(shù)據(jù)中心,導(dǎo)致其托管的許多網(wǎng)站中某些數(shù)據(jù)永久丟失,。
根據(jù)該公司網(wǎng)站上的事件報(bào)告稱,大火在當(dāng)?shù)貢r(shí)間凌晨1點(diǎn)在SBG2內(nèi)的一間房內(nèi)發(fā)生。到凌晨4點(diǎn)左右,大火完全摧毀了OVH的SBG2數(shù)據(jù)中心,并波及摧毀了SBG1八個(gè)服務(wù)器機(jī)房中的四個(gè)房間,。OVH創(chuàng)始人和董事長奧克塔夫·克拉巴(OctaveKlaba)在推特更新中表示,SBG3中的所有服務(wù)器均完好無損,SBG4不受大火影響,。但這些數(shù)據(jù)中心均由于這次事件停止服務(wù),處于離線狀態(tài)。
據(jù)了解,OVH的上一次重大停機(jī)危機(jī)也發(fā)生在斯特拉斯堡園區(qū),。2017年曾導(dǎo)致整個(gè)園區(qū)停電約40min,。Klaba表示,該事件與停電無關(guān),是由于網(wǎng)絡(luò)設(shè)備中的一個(gè)無關(guān)軟件漏洞,導(dǎo)致其位于魯拜克斯(RoubaiX)的園區(qū)失去了與其網(wǎng)絡(luò)上六個(gè)關(guān)鍵點(diǎn)的所有連接。
至于本次火災(zāi)原因,目前還沒有正式的官方公告,但多種事實(shí)指向了UPS設(shè)備導(dǎo)致的一系列故障,。在火災(zāi)發(fā)生的前一天,供應(yīng)商對UPS7進(jìn)行了維護(hù),Klaba稱供應(yīng)商在UPS7內(nèi)部更換了某些部件,并在下午重新啟動了它,。
雖然直流電匯聚成高壓時(shí),的確會有失火的風(fēng)險(xiǎn),Klaba并沒有說UPS就是此次失火事件的起因。他說:“我們今天并沒有得到所有的答案,。”OVHcloud的工作人員在周二晚上11點(diǎn)42分響應(yīng)火災(zāi)警報(bào),但數(shù)據(jù)中心受影響的部分已經(jīng)煙霧彌漫:“兩分鐘后,他們決定離開,因?yàn)樘kU(xiǎn)了,。”
2、相關(guān)組織和媒體的災(zāi)后報(bào)道與反思
事發(fā)后,國內(nèi)很多組織開始結(jié)合這次火災(zāi)的事實(shí),并且不局限于本次火災(zāi)擴(kuò)展開來,分析火災(zāi)風(fēng)險(xiǎn),、成因以及對策,希望能夠?yàn)閿?shù)據(jù)中心行業(yè)減少火災(zāi)發(fā)生,做出一點(diǎn)貢獻(xiàn),。
仔細(xì)研讀后,我發(fā)現(xiàn)這些分析文章的觀點(diǎn)都集中在起火原因分析,并且大多只分析技術(shù)上的起火原因,比如短路、過載,、接觸不良,、漏電、線路老化或散熱等,所給出的對策也多集中在針對這些起火原因,減少起火概率和早發(fā)現(xiàn)等方面,例如使用極早期煙霧探測技術(shù),、增加火災(zāi)高風(fēng)險(xiǎn)設(shè)施的監(jiān)控,、加強(qiáng)巡檢、定期更換老化的元器件,、完工驗(yàn)收與檢測等等,。
然而,僅僅如此分析顯然不夠。從本次火災(zāi)的現(xiàn)有記錄來看,在凌晨1點(diǎn)確認(rèn)SBG2的一間房內(nèi)發(fā)生大火的1個(gè)多小時(shí)之前,就已觸發(fā)火警,不可謂發(fā)現(xiàn)不及時(shí),然而這么長時(shí)間,為什么沒有有效處置?直到凌晨4點(diǎn)在外部消防力量介入下才控制火勢,防火分區(qū)為什么沒有發(fā)揮足夠的作用?為什么數(shù)據(jù)中心自身的滅火系統(tǒng)沒有發(fā)揮有效作用?為什么沒有受到火災(zāi)影響的部分也無法提供服務(wù)?說好的多路由呢?這次火災(zāi)從故障發(fā)煙到起火,從小災(zāi)到大災(zāi)再到影響眾多下游企業(yè)和政府部門業(yè)務(wù)的系統(tǒng)性大災(zāi)難,這個(gè)演變過程,,豈是上面那些原因可以覆蓋的?
3,、有必要全面地反思火災(zāi)成因
火災(zāi)一詞是由兩個(gè)字構(gòu)成的,因火成災(zāi)才能被稱作火災(zāi)。所以我們分析火災(zāi)原因的時(shí)候,不僅要分析起火原因,還要分析致災(zāi)原因,。大家都知道,火災(zāi)重在預(yù)防,但是防什么?不僅僅要防火,還要防災(zāi)!
關(guān)于起火原因以及對策,如前所述,其他組織和各種媒體多有反思,不再贅述,。
雖然這次火災(zāi)的原因尚無正式結(jié)論,該數(shù)據(jù)中心的關(guān)鍵數(shù)據(jù)也未披露,所以致災(zāi)原因也無法準(zhǔn)確判斷,但是這也不妨礙我們就常見的致災(zāi)原因進(jìn)行舉例說明。
首先是防火防災(zāi)意識淡漠,這是數(shù)據(jù)中心火災(zāi)頻發(fā)的最根本原因。例如某四大行總行數(shù)據(jù)中心的總經(jīng)理就曾經(jīng)指責(zé)手下分管副總經(jīng)理部署火災(zāi)防范工作是做無用功,他的觀點(diǎn)非常有代表性,這位總經(jīng)理說我們數(shù)據(jù)中心用的都是難燃阻燃的材料,怎么可能著火?持這種觀點(diǎn)的人不在少數(shù),。甚至在出了這次OVH火災(zāi)后,又有媒體說,把數(shù)據(jù)中心放到海底去,就不會發(fā)生火災(zāi)了,。如果真的是這樣,為什么各國海軍常有潛艇火災(zāi)的報(bào)道?以為海底數(shù)據(jù)倉不存在氧氣就不會有火災(zāi),但是你知道不僅只有氧氣才可以助燃嗎?在極高能量密度的封閉空間,有誰能保證不會起火、甚至爆炸?一旦有了這種意識,自然就不會在防火防災(zāi)上下功夫,。
其次,數(shù)據(jù)中心設(shè)計(jì)上存在缺陷,。數(shù)據(jù)中心的設(shè)計(jì)應(yīng)確保數(shù)據(jù)中心在具備足夠高的可用性水平的基礎(chǔ)上,還要有足夠的韌性,確保數(shù)據(jù)中心在局部受損的情況下還能夠具備可接受的有限服務(wù)能力。數(shù)據(jù)中心的設(shè)計(jì)師缺乏防火防災(zāi)意識,就會體現(xiàn)到數(shù)據(jù)中心設(shè)計(jì)上,。例如他們以為GB50174數(shù)據(jù)中心設(shè)計(jì)規(guī)范中對A級數(shù)據(jù)中心不存在單點(diǎn)故障的原則要求與火災(zāi)場景無關(guān),防火的問題僅需要遵循防火規(guī)范的要求而不需要為數(shù)據(jù)中心進(jìn)行專門的考慮,。例如我在即將進(jìn)入土建施工階段的一個(gè)業(yè)主要求建成全球一流數(shù)據(jù)中心的大型A級數(shù)據(jù)中心的設(shè)計(jì)圖紙上看到,雙路供電的兩路本該完全隔離的配電系統(tǒng)、UPS系統(tǒng)被設(shè)計(jì)進(jìn)了同一個(gè)防火分區(qū),于是只要其中一臺設(shè)備起火,就會導(dǎo)致整個(gè)數(shù)據(jù)中心完全斷電,成為單點(diǎn)故障,。
再次,建造瑕疵,。例如我已經(jīng)在不止一個(gè)數(shù)據(jù)中心看到,現(xiàn)場與圖紙防火分區(qū)不對應(yīng)、消防點(diǎn)位不對應(yīng),、防火分區(qū)與滅火鋼瓶不對應(yīng),甚至發(fā)現(xiàn)有的氣滅分區(qū)根本不存在氣體管路,。
這些給后期運(yùn)維團(tuán)隊(duì)有效處置火險(xiǎn)帶來了極大的不確定因素,并且通常不易發(fā)現(xiàn)不易驗(yàn)證,核對費(fèi)時(shí)費(fèi)力。前面那位總經(jīng)理又有經(jīng)典言論:實(shí)際與圖紙不符是工程部門的責(zé)任,,我們數(shù)據(jù)中心只需按圖操作,,沒必要去核實(shí)。
最后,到了運(yùn)維和使用階段,往往也因?yàn)橐庾R淡漠,不重視消防工作,導(dǎo)致防不了火,防不了災(zāi),小火成災(zāi),。比如前面提到的不去做核實(shí)工作,不能識別和控制風(fēng)險(xiǎn);對動火作業(yè)的管理缺失,留下起火成災(zāi)的隱患;放任包裝紙箱等易燃品進(jìn)入關(guān)鍵區(qū)域并處于無人看管狀態(tài),留下了火勢擴(kuò)大的隱患;為了維護(hù)作業(yè)方便,不及時(shí)關(guān)閉防火門,布線作業(yè)破壞防火封堵后不及時(shí)修復(fù)等導(dǎo)致防火分區(qū)失效;滅火器配備不足,、滅火器送檢期間未補(bǔ)充替代滅火器,不會使用二氧化碳滅火器等,導(dǎo)致初起火險(xiǎn)無法撲滅;過渡依賴聯(lián)動滅火,不會手動操作;組織演練時(shí)只演不練,做表面文章,人員不熟悉預(yù)案,未驗(yàn)證預(yù)案在夜間及節(jié)假日只有值班人員時(shí)的有效性,系統(tǒng)運(yùn)行方式調(diào)整卻不及時(shí)更新預(yù)案等,導(dǎo)致預(yù)案在需要的時(shí)候不能使用……
更近一步,我們還應(yīng)當(dāng)引導(dǎo)客戶合理使用數(shù)據(jù)中心,引導(dǎo)客戶采取措施,減少因數(shù)據(jù)中心服務(wù)中斷給客戶帶來更大的損失。例如對于業(yè)務(wù)連續(xù)性要求高,難以接受業(yè)務(wù)中斷的客戶,我們應(yīng)當(dāng)引導(dǎo)客戶采用災(zāi)備,、多活等高可用方案,將其系統(tǒng)分布部署到有一定距離的不同地點(diǎn)的兩個(gè)或者更多的數(shù)據(jù)中心中;對于業(yè)務(wù)連續(xù)性要求不高,尚可接受一定程度的業(yè)務(wù)中斷,但業(yè)務(wù)數(shù)據(jù)價(jià)值高的客戶,應(yīng)引導(dǎo)客戶進(jìn)行數(shù)據(jù)備份并異地保存等,。再例如數(shù)據(jù)中心場地資源分配使用時(shí),可引導(dǎo)客戶按照業(yè)務(wù)系統(tǒng)重要性和業(yè)務(wù)連續(xù)性要求的不同合理分區(qū)部署,確保當(dāng)數(shù)據(jù)中心部分受損,服務(wù)能力不足時(shí),有條件優(yōu)先保障業(yè)務(wù)連續(xù)性要求高的重要業(yè)務(wù)系統(tǒng)的正常運(yùn)行,。而現(xiàn)實(shí)中,,數(shù)據(jù)中心為了獲客,往往宣傳一個(gè)看似合理的虛高的可用性,,使得客戶對單體數(shù)據(jù)中心抱有不切實(shí)際的奢望,使數(shù)據(jù)中心火災(zāi)變成了一個(gè)牽扯眾多的系統(tǒng)性災(zāi)難,,對給客戶造成的損失和聲譽(yù)影響甩鍋給客戶:誰讓你不做好災(zāi)備呢,,數(shù)據(jù)丟了你賴誰!
凡此種種,都可能導(dǎo)致小火成災(zāi),,小災(zāi)變大難,。這還僅僅枚舉了一部分,遠(yuǎn)非火災(zāi)原因的全部,。
4,、新基建背景下,數(shù)據(jù)中心火災(zāi)管理的新要求
當(dāng)前隨著中國制造2025、網(wǎng)絡(luò)強(qiáng)國戰(zhàn)略、國家大數(shù)據(jù)戰(zhàn)略,、數(shù)字化轉(zhuǎn)型,、兩化融合、互聯(lián)網(wǎng)+,、一帶一路,、云計(jì)算、大數(shù)據(jù),、CPS(信息物理網(wǎng)絡(luò))等新的一批國家戰(zhàn)略制定和新技術(shù)如火如荼的發(fā)展,數(shù)據(jù)中心成為支撐這些國家戰(zhàn)略落地的關(guān)鍵基礎(chǔ)設(shè)施,特別是2020年3月4日中共中央政治局常務(wù)委員會召開會議,會議強(qiáng)調(diào)“要加大公共衛(wèi)生服務(wù),應(yīng)急物資保障領(lǐng)域投入,加快5G網(wǎng)絡(luò),、數(shù)據(jù)中心等新型基礎(chǔ)設(shè)施建設(shè)進(jìn)度。要注重調(diào)動民間投資積極性,。”不僅將使數(shù)據(jù)中心建設(shè)進(jìn)入了一個(gè)高潮期,同時(shí),各行各業(yè)也將對數(shù)據(jù)中心越來越依賴,在銀行業(yè)后,將誕生更多對數(shù)據(jù)中心高度依賴的行業(yè),。包括火災(zāi)在內(nèi)的數(shù)據(jù)中心服務(wù)的中斷不再是數(shù)據(jù)中心自己的事,將會成為一個(gè)系統(tǒng)性的社會風(fēng)險(xiǎn),必須引起數(shù)據(jù)中心從業(yè)人員的高度的重視(參見圖2)。
數(shù)據(jù)中心對火災(zāi)的管理,也應(yīng)隨著國家戰(zhàn)略的落地,、數(shù)據(jù)中心在國民經(jīng)濟(jì)中發(fā)揮越來越重要的關(guān)鍵作用,而進(jìn)行更加全面的有效管理,將目前以風(fēng)險(xiǎn)管控和應(yīng)急預(yù)案為主的防火防災(zāi)管理,改變?yōu)橹塾跒楦餍袠I(yè),特別是對數(shù)據(jù)中心高度依賴的行業(yè),提供連續(xù)穩(wěn)定的支撐服務(wù)為目標(biāo)的火災(zāi)場景下的服務(wù)連續(xù)性管理(參見圖3),數(shù)據(jù)中心應(yīng)制定詳盡的火災(zāi)場景下的服務(wù)連續(xù)性計(jì)劃,。做好以Reduce(減小)為目標(biāo),追求零火險(xiǎn)、零災(zāi)難和零中斷的風(fēng)險(xiǎn)管理與日常運(yùn)營計(jì)劃;做好滿足快速滅火,、減少傷亡,、減少損失、業(yè)務(wù)連續(xù),、信息安全,、環(huán)境影響等多方面目標(biāo)要求的應(yīng)急響應(yīng)(Respond)和業(yè)務(wù)恢復(fù)計(jì)劃,確保數(shù)據(jù)中心設(shè)施資源能夠快速的恢復(fù)(Recover)到最低可接受的可用性水平,重續(xù)(Resume)數(shù)據(jù)中心服務(wù);還要事先做好災(zāi)后重建(Restore)計(jì)劃,確保數(shù)據(jù)中心有可用資源用于重建,盡快將數(shù)據(jù)中心服務(wù)水平返回(Return)到災(zāi)前水平。

- 上一篇
十四五浪潮下如何構(gòu)建城市數(shù)據(jù)中心網(wǎng)絡(luò),?
數(shù)據(jù)是數(shù)字時(shí)代最重要的生產(chǎn)要素,數(shù)據(jù)中心是承載數(shù)據(jù)存儲,、分析,、計(jì)算的唯一載體,是城市數(shù)字化轉(zhuǎn)型的重要新型基礎(chǔ)設(shè)施,。從無處不在的云計(jì)算,,到金融數(shù)字貨幣區(qū)塊鏈,城市經(jīng)濟(jì)生活
- 下一篇
鋰電系統(tǒng)"上位"—數(shù)據(jù)中心更高效率運(yùn)營
鋰電系統(tǒng)"上位"—數(shù)據(jù)中心更高效率運(yùn)營,。由于其重量與尺寸的緣故,,數(shù)據(jù)中心需具備強(qiáng)化的承載結(jié)構(gòu),鉛酸電池性能已不堪重負(fù),,急需更換替代的產(chǎn)品?,F(xiàn)在所有的主要數(shù)據(jù)中心機(jī)
資訊推薦
- 鋰電系統(tǒng)"上位"—數(shù)據(jù)中心更高效率運(yùn)營
- 一體化大數(shù)據(jù)中心,需“超融合”數(shù)據(jù)中心網(wǎng)絡(luò)構(gòu)筑集約、
- 打好數(shù)字經(jīng)濟(jì)“底座”,大數(shù)據(jù)中心為何很重要,?
- 中國移動哈爾濱數(shù)據(jù)中心二期今年10月投入運(yùn)營
- 廣西:力爭成為大數(shù)據(jù)中心國家樞紐節(jié)點(diǎn)
- 三維可視化數(shù)據(jù)中心機(jī)房監(jiān)控管理系統(tǒng)
- 被快充帶火的GaN或大規(guī)模應(yīng)用于數(shù)據(jù)中心、電動汽車
- 數(shù)據(jù)中心未來將向“四高”演進(jìn)
- 江西省規(guī)模最大數(shù)據(jù)中心集群呼之欲出
- 數(shù)據(jù)中心存儲TCO模型