數(shù)據(jù)中心服務(wù)器技術(shù)發(fā)展趨勢與應(yīng)用
當(dāng)前,,為推進IT支撐系統(tǒng)集約化建設(shè)和運營,進一步發(fā)揮集中化能力優(yōu)勢,,IT云成為運營商IT支撐系統(tǒng)建設(shè)的基礎(chǔ)架構(gòu),。但在IT云資源池部署過程中,服務(wù)器技術(shù)面臨多個新挑戰(zhàn),,主要體現(xiàn)在以下3個方面,。
在性能方面,人工智能(AI)應(yīng)用快速擴張,,要求IT云采用高性能GPU服務(wù)器,。AI已在電信業(yè)網(wǎng)絡(luò)覆蓋優(yōu)化、批量投訴定界,、異常檢測/診斷,、業(yè)務(wù)識別、用戶定位等場景規(guī)?;瘧?yīng)用,。AI應(yīng)用需求的大量出現(xiàn),要求數(shù)據(jù)中心部署的服務(wù)器具有更好的計算效能,、吞吐能力和延遲性能,,以傳統(tǒng)通用x86服務(wù)器為核心的計算平臺顯得力不從心,,GPU服務(wù)器因此登上運營商IT建設(shè)的歷史舞臺。
在效率成本方面,,IT云部署通用服務(wù)器存在弊端,,催生定制化整機柜服務(wù)器應(yīng)用需求。在IT云建設(shè)過程中,,由于業(yè)務(wù)需求增長快速,,IT云資源池擴容壓力較大,云資源池中的服務(wù)器數(shù)量快速遞增,,上線效率亟需提高,。同時,傳統(tǒng)通用服務(wù)器部署模式周期長,、部署密度低的劣勢,,給數(shù)據(jù)中心空間、電力,、建設(shè)成本和高效維護管理都帶來了較大的挑戰(zhàn),。整機柜服務(wù)器成為IT云建設(shè)的另一可選方案。
在節(jié)能方面,,AI等高密度應(yīng)用場景的快速發(fā)展,,驅(qū)動液冷服務(wù)器成為熱點。隨著AI高密度業(yè)務(wù)應(yīng)用的發(fā)展,,未來數(shù)據(jù)中心服務(wù)器功率將從3kW~5kW向20kW甚至100kW以上規(guī)模發(fā)展,,傳統(tǒng)的風(fēng)冷式服務(wù)器制冷系統(tǒng)解決方案已經(jīng)無法滿足制冷需求,液冷服務(wù)器成為AI應(yīng)用場景下的有效解決方案,。
GPU服務(wù)器技術(shù)發(fā)展態(tài)勢及在電信業(yè)的應(yīng)用
GPU服務(wù)器技術(shù)發(fā)展態(tài)勢
GPU服務(wù)器是單指令,、多數(shù)據(jù)處理架構(gòu),通過與CPU協(xié)同進行工作,。從CPU和GPU之間的互聯(lián)架構(gòu)進行劃分,,GPU服務(wù)器又可分為基于傳統(tǒng)PCIe架構(gòu)的GPU服務(wù)器和基于NVLink架構(gòu)的GPU服務(wù)器兩類。GPU服務(wù)器具有通用性強,、生態(tài)系統(tǒng)完善的顯著優(yōu)勢,,因此牢牢占據(jù)了AI基礎(chǔ)架構(gòu)市場的主導(dǎo)地位,國內(nèi)外主流廠商均推出不同規(guī)格的GPU服務(wù)器,。國外主流廠商有英偉達,、英特爾、戴爾等,,國內(nèi)主流廠商包括華為、浪潮,、新華三,、聯(lián)想,、曙光等。從GPU服務(wù)器性能來看,,國內(nèi)外廠商基本處在同一水準(zhǔn),。
GPU服務(wù)器在運營商IT云建設(shè)中的應(yīng)用
當(dāng)前,電信業(yè)開始推動GPU服務(wù)器在IT云資源池中的應(yīng)用,,省公司現(xiàn)網(wǎng)中已經(jīng)部署了部分GPU服務(wù)器,。同時,考慮到GPU成本較高,,集團公司層面通過建設(shè)統(tǒng)一AI平臺,,集中化部署一批GPU服務(wù)器,形成AI資源優(yōu)化配置,。從技術(shù)選型來看,,目前運營商IT云資源池采用英偉達、英特爾等廠商相關(guān)產(chǎn)品居多,。
GPU服務(wù)器在IT云應(yīng)用中取得了良好的效果,。在現(xiàn)網(wǎng)部署的GPU服務(wù)器中,與訓(xùn)練和推理相關(guān)的深度學(xué)習(xí)應(yīng)用占主要部分,,占比超過70%,,支撐的業(yè)務(wù)包括網(wǎng)絡(luò)覆蓋智能優(yōu)化、用戶智能定位,、智能營銷,、智能稽核等,這些智能應(yīng)用減少了人工投入成本,,提升了工作效率,。以智能稽核為例,以往無紙化業(yè)務(wù)單據(jù)的人工稽核平均耗時約48秒/單,,而AI稽核平均耗時僅約5秒/單,,稽核效率提升達 90%。同時,,無紙化業(yè)務(wù)單據(jù)人工稽核成本約1.5元/單,,采用GPU進行AI稽核成本約0.048元/單,稽核成本降低達96.8%,。
整機柜服務(wù)器發(fā)展態(tài)勢及在電信業(yè)的應(yīng)用
整機柜服務(wù)器技術(shù)發(fā)展態(tài)勢
整機柜服務(wù)器是按照模塊化設(shè)計思路打造的服務(wù)器解決方案,,系統(tǒng)架構(gòu)由機柜、網(wǎng)絡(luò),、供電,、服務(wù)器節(jié)點、集中散熱,、集中管理6個子系統(tǒng)組成,,是對數(shù)據(jù)中心服務(wù)器設(shè)計技術(shù)的一次根本性變革,。整機柜服務(wù)器將供電單元、散熱單元池化,,通過節(jié)約空間來提高部署密度,,其部署密度通常可以翻倍,。集中供電和散熱的設(shè)計,,使整機柜服務(wù)器僅需配置傳統(tǒng)機柜式服務(wù)器10%的電源數(shù)量就可滿足供電需要,電源效率可以提升10%以上,,且單臺服務(wù)器的能耗可降低5%,。
整機柜服務(wù)器在運營商IT云建設(shè)中的應(yīng)用
國內(nèi)運營商在IT云建設(shè)中已經(jīng)推進了整機柜服務(wù)器部署,經(jīng)過實際應(yīng)用檢驗,,在如下方面優(yōu)勢明顯,。
一是工廠預(yù)制,交付工時大幅縮短,。傳統(tǒng)服務(wù)器交付效率低,,采用整機柜服務(wù)器將原來在數(shù)據(jù)中心現(xiàn)場進行的服務(wù)器拆包、上架,、布線等工作轉(zhuǎn)移到工廠完成,,部署的顆粒度從1臺上升到幾十臺,交付效率大大提升,。以一次性交付1500臺服務(wù)器為例,,交付工作量可減少170~210人天,按每天配10人計算,,現(xiàn)場交付時間可節(jié)省約17~21天,。
二是資源池化帶來部件數(shù)量降低,故障率大幅下降,。整機柜服務(wù)器通過將供電,、制冷等部件資源池化,大幅減少了部件數(shù)量,,帶來故障率的大幅降低,。圖1比較了32節(jié)點整機柜服務(wù)器與傳統(tǒng)1U、2U服務(wù)器機型各自的電源部件數(shù)量及在一年內(nèi)的月度故障率情況,。由于32節(jié)點整機柜服務(wù)器含10個電源部件,,而32臺1U通用服務(wù)器的電源部件為64個,相較而言,,整機柜電源部件數(shù)減少84.4%,。由于電源部件數(shù)量的降低,32節(jié)點整機柜服務(wù)器相對于32臺1U通用服務(wù)器的月度故障率也大幅縮減,。
圖1 整機柜服務(wù)器與傳統(tǒng)機型服務(wù)器月度故障率對比
三是運維效率提升60%以上,。整機柜服務(wù)器在工廠預(yù)制機柜布線,,網(wǎng)絡(luò)線纜在工廠經(jīng)過預(yù)處理,,線纜長度精確匹配,,理線簡潔,接線方式統(tǒng)一規(guī)范,,配合運維標(biāo)簽,,在運維中可以更方便簡潔地對節(jié)點實施維護操作,有效降低運維誤操作,,提升運維效率60%以上,,并大幅減少發(fā)生故障后的故障恢復(fù)時間。
液冷服務(wù)器技術(shù)發(fā)展態(tài)勢及在電信業(yè)的應(yīng)用
液冷服務(wù)器技術(shù)發(fā)展態(tài)勢
液冷服務(wù)器技術(shù)也稱為服務(wù)器芯片液體冷卻技術(shù),,采用特種或經(jīng)特殊處理的液體,,直接或近距離間接換熱冷卻芯片或者IT整體設(shè)備,具體包括冷板式冷卻,、浸沒式冷卻和噴淋式冷卻3種形態(tài),。液冷服務(wù)器可以針對CPU熱島精確定點冷卻,精確控制制冷分配,,能真正將高密度部署帶到前所未有的更高層級(例如20kW~100kW高密度數(shù)據(jù)中心),,是數(shù)據(jù)中心節(jié)能技術(shù)的發(fā)展方向之一,3種液冷技術(shù)對比如表1所示,。
表1 3種液冷技術(shù)對比
液冷服務(wù)器在運營商IT建設(shè)中的應(yīng)用
液冷服務(wù)器技術(shù)目前在我國仍處于應(yīng)用初期,,產(chǎn)業(yè)鏈尚不完備、設(shè)備采購成本偏高,、采購渠道少,、電子元器件的兼容性低、液冷服務(wù)器專用冷卻液成本高等問題是液冷服務(wù)器尚未大規(guī)模推廣的重要原因,。從液冷服務(wù)器在運營商數(shù)據(jù)中心領(lǐng)域的具體應(yīng)用案例來看,,運營商在IT云資源池規(guī)劃和建設(shè)過程中,通常會對液冷服務(wù)器的發(fā)展現(xiàn)狀,、技術(shù)成熟度等進行分析論證,。
考慮到目前液冷服務(wù)器規(guī)模化應(yīng)用尚處于起步階段,,需要3~5年的引入期,,因此暫時未在IT云資源池建設(shè)中進行大規(guī)模落地部署,但在部分地區(qū)有小規(guī)模應(yīng)用,,如中國移動南方基地數(shù)據(jù)中心已經(jīng)開展液冷服務(wù)器試點應(yīng)用,,中國聯(lián)通研究院也在開展邊緣數(shù)據(jù)中心服務(wù)器噴淋式液冷系統(tǒng)的開發(fā)。未來,,隨著IT云建設(shè)規(guī)模,、建設(shè)密度的繼續(xù)攀升,,以及液冷產(chǎn)業(yè)生態(tài)體系的逐步成熟,液冷服務(wù)器在IT云建設(shè)中將有更大的應(yīng)用空間,。
總體來看,,運營商IT云資源池建設(shè)對服務(wù)器計算性能、延遲,、吞吐,、制冷、定制化,、分布式部署等方面都提出了更高要求,。未來,GPU服務(wù)器,、定制化整機柜服務(wù)器,、液冷服務(wù)器等新興服務(wù)器技術(shù)將快速迭代,為運營商數(shù)據(jù)中心服務(wù)器技術(shù)的發(fā)展和演進帶來新的思路和路徑,。

- 上一篇
海水與湖水降溫成為數(shù)據(jù)中心降低能耗重點發(fā)展方向
坐落海南的全球首個商用海底數(shù)據(jù)中心示范項目,預(yù)計將在五年內(nèi)完工,,總規(guī)劃為100個數(shù)據(jù)艙,。目前數(shù)據(jù)中心降溫是一個熱門的研究領(lǐng)域。網(wǎng)上可以看到一些零星報道,,其中有2017年報道
- 下一篇
航拍騰訊貴州七星數(shù)據(jù)中心 全國第一個特高等級數(shù)據(jù)中心
2021年5月9日,,貴州貴陽,據(jù)介紹,,騰訊貴安七星數(shù)據(jù)中心隱于群山中,,建成之后外景無明顯標(biāo)識;所有核心設(shè)備均位于洞內(nèi),,日常運行無人值守,,實現(xiàn)了無人跡可追蹤;該中心參照我國高等級人防標(biāo)
資訊推薦
- 航拍騰訊貴州七星數(shù)據(jù)中心 全國第一個特高等級數(shù)據(jù)中
- 將物聯(lián)網(wǎng)分析從數(shù)據(jù)中心擴展到霧服務(wù)器到網(wǎng)絡(luò)邊緣
- 梅林政務(wù)數(shù)據(jù)中心擴建,,裝機容量將擴充一倍
- 更省更快更安全 ——探訪襄陽華為云數(shù)據(jù)中心
- 遼寧移動聚焦新基建:沈陽,、大連兩大國家級數(shù)據(jù)中心保障
- 高能效碳中和數(shù)據(jù)中心怎么建?
- 數(shù)據(jù)中心需要更多的機器學(xué)習(xí)來提高效率
- 數(shù)據(jù)中心架構(gòu)有哪些組件,?
- 暴雨降臨,,數(shù)據(jù)中心如何做好防汛防洪措施,?
- 自動化可顯著提高數(shù)據(jù)中心運營效率