數(shù)據(jù)中心基礎(chǔ)設(shè)施高可用提升研究與實(shí)踐
伴隨國家對金融安全的關(guān)注度不斷提高,數(shù)據(jù)中心基礎(chǔ)設(shè)施作為業(yè)務(wù)安全的關(guān)鍵節(jié)點(diǎn),,其高可用能力成為實(shí)現(xiàn)銀行業(yè)務(wù)連續(xù)性目標(biāo)的核心關(guān)鍵因素,。本文以數(shù)據(jù)中心基礎(chǔ)設(shè)施的網(wǎng)絡(luò)系統(tǒng)為例,結(jié)合網(wǎng)絡(luò)架構(gòu)和網(wǎng)絡(luò)運(yùn)維能力的現(xiàn)狀,,從技術(shù)架構(gòu),、運(yùn)營能力兩個(gè)方面開展案例分析,總結(jié)提出系統(tǒng)分層級的高可用提升方法,,并圍繞高可用技術(shù),、運(yùn)營能力轉(zhuǎn)型實(shí)踐展開了分析說明。
近年來,,隨著國家對金融安全的關(guān)注度不斷提高,,以及銀行業(yè)數(shù)字化轉(zhuǎn)型的持續(xù)深入,金融科技領(lǐng)域的業(yè)務(wù)連續(xù)性水平成為衡量銀行服務(wù)品牌競爭力與行業(yè)聲譽(yù)的一項(xiàng)重要指標(biāo),。與此同時(shí),,數(shù)據(jù)中心基礎(chǔ)設(shè)施的高可用能力作為確保生產(chǎn)業(yè)務(wù)安全穩(wěn)定的重要支柱,不僅是商業(yè)銀行達(dá)成監(jiān)管要求的必備條件之一,,而且對保障社會(huì)穩(wěn)定,、控制金融風(fēng)險(xiǎn)也有著極為重要的現(xiàn)實(shí)意義。
一,、商業(yè)銀行數(shù)據(jù)中心可用性分析
在信息科技領(lǐng)域,,可用性主要指基于各類計(jì)算機(jī)設(shè)備的連接組合,使構(gòu)建的企業(yè)信息系統(tǒng)可以穩(wěn)定支撐業(yè)務(wù)連續(xù)運(yùn)作,,并在系統(tǒng)級的生命周期內(nèi)不發(fā)生影響業(yè)務(wù)辦理的故障,。對于商業(yè)銀行而言,數(shù)據(jù)中心基礎(chǔ)設(shè)施本身是一套極為復(fù)雜的技術(shù)體系,,綜合部署包括設(shè)備,、網(wǎng)絡(luò)、服務(wù)器等在內(nèi)的各類資源,,其可用性能力主要由各類基礎(chǔ)設(shè)施的系統(tǒng)可用性決定,,并同時(shí)受到設(shè)備產(chǎn)品、架構(gòu)設(shè)計(jì),、運(yùn)營能力等多種因素的影響,。在量化評估方面,系統(tǒng)可用率的指標(biāo)評價(jià)通常遵從業(yè)界常用的衡量方法,,即從99%到99.999%俗稱“幾個(gè)9”的量化指標(biāo)體系,,數(shù)據(jù)中心可用性示例見表1。
表1 數(shù)據(jù)中心可用性示例
當(dāng)前,隨著商業(yè)銀行數(shù)字化轉(zhuǎn)型的不斷深入,,各種新技術(shù),、新架構(gòu)持續(xù)迭代更新,并對轉(zhuǎn)型過程中的系統(tǒng)高可用能力帶來了極大挑戰(zhàn),。對此,,商業(yè)銀行在進(jìn)行高可用設(shè)計(jì)時(shí)不僅要對產(chǎn)品、技術(shù),、架構(gòu)等進(jìn)行可用性評估,,加強(qiáng)對新技術(shù)、新架構(gòu)的風(fēng)險(xiǎn)控制,,還需要引入高效的自動(dòng)化工具提供自主可控的運(yùn)營服務(wù),,特別是強(qiáng)化出現(xiàn)生產(chǎn)故障時(shí)的應(yīng)急處置能力,減少和消除意外出現(xiàn)的生產(chǎn)故障中斷時(shí)間,。尤其在運(yùn)營能力方面,,首先要打造一支思想統(tǒng)一、技能齊備的技術(shù)團(tuán)隊(duì),,既能夠遵從安全第一的工作要求,,具備嚴(yán)謹(jǐn)、審慎的合規(guī)意識,,同時(shí)還需掌握專業(yè)技術(shù),、具備創(chuàng)新意識,能夠通過DevOps,、SRE的方法打造適合自身使用的特色化工具,。此外,運(yùn)營能力建設(shè)離不開配套的自動(dòng)化工具支持,,以更好地滿足數(shù)據(jù)中心云化后的大規(guī)模運(yùn)維需求以及數(shù)據(jù)中心高可用要求,。
二、數(shù)據(jù)中心基礎(chǔ)設(shè)施高可用提升方法及案例說明
本文以數(shù)據(jù)中心基礎(chǔ)設(shè)施中的網(wǎng)絡(luò)系統(tǒng)為例,,結(jié)合網(wǎng)絡(luò)架構(gòu)和網(wǎng)絡(luò)運(yùn)維能力的現(xiàn)狀,,從技術(shù)架構(gòu)、運(yùn)營能力兩方面開展案例分析,,總結(jié)提出系統(tǒng)分層級的高可用提升方法,,并圍繞高可用技術(shù)、運(yùn)營能力轉(zhuǎn)型實(shí)踐等展開了分析說明,。
1.基礎(chǔ)設(shè)施可用性提升
網(wǎng)絡(luò)系統(tǒng)作為數(shù)據(jù)中心基礎(chǔ)設(shè)施的核心組件之一,,其系統(tǒng)可用性內(nèi)容大致可劃分為設(shè)備級可用指標(biāo)、功能級可用指標(biāo),、區(qū)域級可用指標(biāo),、園區(qū)級可用指標(biāo)等四個(gè)層級,,并依次自下而上構(gòu)成了數(shù)據(jù)中心的高可用能力之一(如圖1所示)。其中,,網(wǎng)絡(luò)架構(gòu)高可用設(shè)計(jì)以增加網(wǎng)元,、線路、節(jié)點(diǎn),、區(qū)域等結(jié)構(gòu)冗余度為核心思路,,旨在使每一層均能夠充分應(yīng)用技術(shù)路線的可擴(kuò)展能力,進(jìn)而基于各層級的高可用能力建設(shè),,最終順利到達(dá)并具備業(yè)務(wù)可用層能力。在這一階段,,業(yè)務(wù)連續(xù)性指標(biāo)可達(dá)到99.999%的可用率,,并作為核心能力之一,支持向用戶提供高價(jià)值的數(shù)字化產(chǎn)品和服務(wù),。
數(shù)據(jù)中心系統(tǒng)可用性分級
設(shè)備級可用重點(diǎn)強(qiáng)調(diào)單臺(tái)網(wǎng)絡(luò)設(shè)備的產(chǎn)品級可用率及支持網(wǎng)絡(luò)單元(NU)的可用性,。單設(shè)備可用性即網(wǎng)元層級可用性指標(biāo),起步按99.99%可用指標(biāo)要求部署網(wǎng)元,,落實(shí)產(chǎn)品技術(shù)和部件冗余的技術(shù)要求,。同時(shí),該層級可用能力還需關(guān)注設(shè)備的運(yùn)行時(shí)長因素,,設(shè)備可用性指標(biāo)在超過5年以上時(shí)會(huì)逐年下降,,需及時(shí)更新置換對應(yīng)節(jié)點(diǎn)的設(shè)備。舉例來說,,核心環(huán)節(jié)交換機(jī),、路由器設(shè)備基于自身雙電源、多端口,、雙引擎等硬件技術(shù)冗余,,應(yīng)支持設(shè)備連續(xù)運(yùn)行保持在年度99.999%及以上的可用率。
功能級可用重點(diǎn)強(qiáng)調(diào)一個(gè)網(wǎng)絡(luò)區(qū)域內(nèi)多臺(tái)同等功能的網(wǎng)絡(luò)單元對外服務(wù)的可用率,。功能節(jié)點(diǎn)可用性即核心節(jié)點(diǎn)層級的可用性指標(biāo),,按照網(wǎng)絡(luò)技術(shù)發(fā)展的支持情況,擴(kuò)展核心功能節(jié)點(diǎn)的網(wǎng)元設(shè)備群組可支持的冗余數(shù)量,,如目前已有功能節(jié)點(diǎn)在技術(shù)上支持部署2臺(tái)以上設(shè)備,,包括交換核心、互聯(lián)網(wǎng)接入,、數(shù)據(jù)中心互聯(lián)等環(huán)境,。舉例來說,基于技術(shù)產(chǎn)品的發(fā)展成熟度,,生產(chǎn)網(wǎng)絡(luò)中的區(qū)域核心交換機(jī)按照雙機(jī)雙活搭建,,交換核心,、路由器等設(shè)備可按照2~4臺(tái)的數(shù)量搭建,互聯(lián)網(wǎng)接入渠道功能節(jié)點(diǎn)按照單園區(qū)6臺(tái)搭建,,而上述措施均為通過架構(gòu)設(shè)計(jì)的冗余,,旨在賦予設(shè)備在故障情況下的網(wǎng)絡(luò)功能節(jié)點(diǎn)高可用能力。
區(qū)域級可用重點(diǎn)強(qiáng)調(diào)多臺(tái)網(wǎng)絡(luò)設(shè)備通過特定方式互接提供網(wǎng)絡(luò)連通服務(wù)的區(qū)域可用率,。網(wǎng)絡(luò)區(qū)域可用性即單個(gè)網(wǎng)絡(luò)區(qū)的可用性指標(biāo),,網(wǎng)絡(luò)區(qū)主要由不同網(wǎng)絡(luò)單元的功能節(jié)點(diǎn)互相連接而成,泛指提供服務(wù)器接入,、訪問控制,、路由轉(zhuǎn)發(fā)、負(fù)載均衡,、存儲(chǔ)連接等多種網(wǎng)絡(luò)服務(wù)的網(wǎng)絡(luò)系統(tǒng),。從冗余設(shè)計(jì)的角度來看,“雞蛋不要放在一個(gè)籃子里”,,因此需要對網(wǎng)絡(luò)區(qū)的部署規(guī)模進(jìn)行控制,,如數(shù)據(jù)中心可按照多個(gè)網(wǎng)絡(luò)區(qū)冗余進(jìn)行架構(gòu)設(shè)計(jì),以及將應(yīng)用分布到多個(gè)區(qū)域運(yùn)行,,以避免因單個(gè)網(wǎng)絡(luò)區(qū)異常產(chǎn)生全局影響,。舉例來說,在數(shù)據(jù)中心規(guī)模持續(xù)增長的情況下,,提供計(jì)算資源接入服務(wù)的網(wǎng)絡(luò)區(qū)域建設(shè)按照冗余架構(gòu)的設(shè)計(jì)考慮,,可搭建2個(gè)以上的邏輯隔離區(qū)域,以支撐應(yīng)用單元化部署和計(jì)算資源的分布式部署,,同時(shí)應(yīng)將云資源域規(guī)模限制在1000臺(tái)左右,,并搭建2個(gè)以上的基礎(chǔ)服務(wù)功能相同的資源域。
園區(qū)級可用重點(diǎn)強(qiáng)調(diào)數(shù)據(jù)中心不同網(wǎng)絡(luò)區(qū)組合支持大規(guī)模計(jì)算資源正常運(yùn)轉(zhuǎn)服務(wù)的可用率,。園區(qū)可用性即數(shù)據(jù)中心單個(gè)園區(qū)網(wǎng)絡(luò)的可用性指標(biāo),,在該層級中,網(wǎng)絡(luò)的可用性能力取決于網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)的耦合程度,,以及區(qū)域間出現(xiàn)異常后的隔離能力,。在園區(qū)級的網(wǎng)絡(luò)中,如果下一個(gè)層級出現(xiàn)的異常事件與多個(gè)網(wǎng)絡(luò)區(qū)存在耦合,,則往往不能及時(shí)隔離影響,,進(jìn)而導(dǎo)致產(chǎn)生園區(qū)級的網(wǎng)絡(luò)可用性問題。舉例來說,,網(wǎng)絡(luò)架構(gòu)可在多個(gè)園區(qū)間復(fù)制搭建,,用以支撐數(shù)據(jù)中心多個(gè)園區(qū)的同等網(wǎng)絡(luò)服務(wù)支撐能力,并按松耦合結(jié)構(gòu)進(jìn)行設(shè)計(jì),,保持多個(gè)園區(qū)間的互聯(lián)互通,,以實(shí)現(xiàn)園區(qū)級網(wǎng)絡(luò)在異常情況下的高可用切換,。
2.運(yùn)營能力提升路徑
運(yùn)營能力提升涉及ITIL流程中的變更、應(yīng)急等各個(gè)方面,,其中針對變更實(shí)施,、應(yīng)急實(shí)施的自動(dòng)化工具是保持可用率的核心關(guān)鍵,而不同生產(chǎn)運(yùn)維能力上限對應(yīng)的可用率指標(biāo)大致可分為人工級,、自動(dòng)級,、智能級等三個(gè)層級。
人工級是指通過預(yù)設(shè)操作命令,,手工實(shí)施部署,。該層級可用率在資源充分投入的情況下,一般可以支持3個(gè)9到4個(gè)9的專業(yè)系統(tǒng)可用率,。例如,,在運(yùn)維操作全生命周期的管理和技術(shù)流程中,大量生產(chǎn)維護(hù)工作均由人工處理,,當(dāng)出現(xiàn)影響業(yè)務(wù)的重大故障時(shí),問題的定位效率較低,,應(yīng)急處置時(shí)間多數(shù)超過30分鐘,,且部分情況下或?qū)㈤L達(dá)1~2個(gè)小時(shí)。
自動(dòng)級是指通過工具實(shí)現(xiàn)自動(dòng)化操作,、人工按鍵式處理或告警觸發(fā)式處理,。該層級可用率在資源充分投入的情況下,可以支持4個(gè)9以上的專業(yè)線系統(tǒng)可用率,。例如,,生產(chǎn)運(yùn)營中的標(biāo)準(zhǔn)運(yùn)維操作大多通過自動(dòng)化工具完成,包括管理流程,、技術(shù)操作,、日常運(yùn)維等內(nèi)容,當(dāng)出現(xiàn)影響業(yè)務(wù)故障時(shí),,即可通過一鍵式應(yīng)急自動(dòng)化工具進(jìn)行隔離,、切換等應(yīng)急操作,從而將業(yè)務(wù)影響時(shí)間控制在30分鐘之內(nèi),。
智能級是指通過引入AI弱智能技術(shù),,預(yù)防式發(fā)現(xiàn)隱患,并在發(fā)生故障時(shí)工具自主開展全鏈條自愈恢復(fù),。該層級可用率在資源充分投入和技術(shù)發(fā)展成熟后,,可以支持5個(gè)9以上的專業(yè)系統(tǒng)可用率。例如,,在生產(chǎn)運(yùn)營的運(yùn)維工作中,,在標(biāo)準(zhǔn)操作被自動(dòng)化完成后,,針對非標(biāo)準(zhǔn)運(yùn)維操作,則可以基于智能化工具開展預(yù)防性監(jiān)測,,進(jìn)而在故障隱患影響到業(yè)務(wù)前,,執(zhí)行有效預(yù)判并開展計(jì)劃性維護(hù),提前解決影響業(yè)務(wù)運(yùn)行的問題,。
三,、未來展望
綜上,數(shù)據(jù)中心可用率在以一年為周期統(tǒng)計(jì)的高可用模式下,,其可用率指標(biāo)應(yīng)保持在99.99%以上,,而最終目標(biāo)是提升至99.999%的世界一流水平,全年網(wǎng)絡(luò)宕機(jī)時(shí)間控制在5.4分鐘以內(nèi),。然而,,上述指標(biāo)對當(dāng)前信息系統(tǒng)的可用性要求可謂非常之高,而在前述網(wǎng)絡(luò)系統(tǒng)案例中,,通過對可用性進(jìn)行分層設(shè)計(jì),,并結(jié)合架構(gòu)設(shè)計(jì)和運(yùn)營團(tuán)隊(duì)建設(shè),將可有效支持?jǐn)?shù)據(jù)中心的高可用提升,。未來,,隨著運(yùn)維智能化等IT技術(shù)的持續(xù)演進(jìn),數(shù)據(jù)中心的高可用提升路徑也將愈加豐富,,通過“技術(shù)+運(yùn)營”兩方面創(chuàng)新,,將不斷驅(qū)動(dòng)數(shù)據(jù)中心基礎(chǔ)設(shè)施的高可用水平提升,進(jìn)而更好地保障國家網(wǎng)絡(luò)安全和社會(huì)金融穩(wěn)定,。

- 上一篇
數(shù)據(jù)中心浸沒式液冷技術(shù)淺析
浸沒式液冷技術(shù)作為一種新型制冷方案,相較于空氣冷卻和冷板式間接液冷存在著顯著優(yōu)勢。本文從部署原理,、相變機(jī)制,、冷卻液類型等維度對當(dāng)下主流的浸沒式液冷技術(shù)展開了詳細(xì)
- 下一篇
國網(wǎng)天津市電力:“騰訊IDC數(shù)據(jù)中心”送電成功
日前,國網(wǎng)天津市電力公司完成騰訊天津高新云數(shù)據(jù)中心(簡稱“騰訊IDC數(shù)據(jù)中心”)二期工程2萬千伏安送電項(xiàng)目,。“對于數(shù)據(jù)中心來說,,安全、可靠的供電至關(guān)重要,。項(xiàng)