中國信通院王少鵬等:數(shù)據(jù)中心無損網(wǎng)絡關鍵技術(shù)研究
各種應用程序、數(shù)據(jù)的指數(shù)級增長,以及云服務的快速普及等因素,導致由孤立的單體系統(tǒng)構(gòu)成的傳統(tǒng)基礎架構(gòu)變得過時。基礎架構(gòu)的融合成為數(shù)據(jù)中心的根本轉(zhuǎn)變,融合或超融合基礎架構(gòu)應運而生,其將計算、存儲、網(wǎng)絡和虛擬化組合構(gòu)建成一個統(tǒng)一架構(gòu),以便簡捷高效地配置和橫向擴展。在網(wǎng)絡方面,以太網(wǎng)成為現(xiàn)代數(shù)據(jù)中心實際采用的互聯(lián)方式。基于以太網(wǎng)的統(tǒng)一網(wǎng)絡架構(gòu)用于傳輸各種類型的通信流,為這種融合奠定了基礎。雖然這種統(tǒng)一和融合式網(wǎng)絡有著諸多好處,但也帶來了新的挑戰(zhàn)。
由于傳統(tǒng)數(shù)據(jù)中心網(wǎng)絡在數(shù)據(jù)傳輸中采取“盡力而為”的方法,以太網(wǎng)絡是“有損”的。當以太網(wǎng)絡發(fā)生擁塞時,數(shù)據(jù)包會被丟棄,然后由上層(如TCP中的重新傳輸)保障數(shù)據(jù)的完整性。在重新傳輸?shù)那闆r下,這些數(shù)據(jù)包通常不按順序抵達目的地,進而需要重新排序。隨著數(shù)據(jù)流匯聚到以太網(wǎng)絡上,這種重新傳輸和重新排序?qū)е聭贸绦虻男阅車乐叵陆礫1]。考慮到融合性質(zhì),這種情形還可能會導致網(wǎng)絡上的其他數(shù)據(jù)流的應用性能下降。因此,需要一套措施來確保流量在以太網(wǎng)網(wǎng)絡上實現(xiàn)無損傳輸。
1 傳統(tǒng)網(wǎng)絡問題分析
無論是構(gòu)建公有云,還是用作企業(yè)云服務的私有數(shù)據(jù)中心,都需要解決一組常見的問題:如何為快速變化的環(huán)境構(gòu)建一個高度靈活的組網(wǎng),以承載多種類型的流量,從而使網(wǎng)絡可以最小化,甚至消除丟包損失;在提供高吞吐量的同時,保持低延遲。數(shù)據(jù)中心流行的CLOS網(wǎng)絡架構(gòu)通過等價多路徑實現(xiàn)無阻塞性能,并擁有彈性,交換機之間的連接方式使其具有可擴展、簡單、標準和易于理解等優(yōu)點[2]。在CLOS網(wǎng)絡中,機架頂部的交換機被稱作葉交換機,它們連接在被當作核心的脊交換機上。葉交換機之間互不相連,而脊交換機只與葉交換機連接。目前,數(shù)據(jù)中心已經(jīng)采用了很多技術(shù),試圖解決擁塞控制問題。盡管擁塞控制有所改善,但仍不能為今后的使用場景提供無損的網(wǎng)絡,以下問題仍然存在。
1.1 等價多路徑?jīng)_突
通過散列流標識符來選擇路徑,這樣的做法很簡便,但缺乏考慮路徑本身是否擁塞。如圖1所示,很容易發(fā)生多個流被散列到相同的路徑上的情況,從而導致鏈路過載。此外,流量的大小通常呈雙模態(tài)分布:大多數(shù)的流是老鼠流,而大部分傳輸字節(jié)則來自大象流。ECMP選擇路徑時不會考慮流量的大小,而對ECMP的改善應該涉及選擇路徑時的擁塞感知和細粒度的流量負載均衡。
1.2 顯性擁塞通知的控制環(huán)路延時
大型的網(wǎng)絡擁有更多的跳數(shù),因此ECN控制回路的往返時間(Round-Trip Time,RTT)會更長。大型的網(wǎng)絡也會支撐更多的數(shù)據(jù)傳輸,在ECN生效前很難處理突發(fā)流量。通過增加交換機緩存去處理突發(fā)流量是不可取的,因為這樣不僅會增加成本,也會增加那些正常流的排隊時間。端到端的擁塞控制對有序的網(wǎng)絡至關重要,但為確保網(wǎng)絡可以有效地避免丟包損失,額外的幫助也同樣重要。
1.3 基于優(yōu)先級的流控引起的隊頭阻塞
PFC是一種避免丟包的技術(shù),但這一技術(shù)應該作為最后的手段使用。當交換機的某一個出口發(fā)生擁塞時,數(shù)據(jù)被緩存到備份里,并同時調(diào)用PFC。由于PFC會阻止特定等級的所有流量,所以流向其他端口的流量也有可能會被阻隔,這種現(xiàn)象被稱為隊頭阻塞。為了避免隊頭阻塞,很有必要去盡早識別引起擁塞的流,并提供針對流特征(一般引起擁塞的流通常是大象流)的擁塞緩解技術(shù)。
隊頭阻塞可能會引起上游的額外阻塞。由于PFC隔離了所有流,包括那些發(fā)往沒有擁塞路徑的流。這使得所有流必須在上游交換機處排隊,產(chǎn)生的隊列延時反過來又會引起上一個上游交換機的擁塞。如果上游交換機的緩存被填滿,一個新的PFC信息會被調(diào)用并發(fā)送到網(wǎng)絡,循環(huán)往復,造成更多的隊頭阻塞和擁塞現(xiàn)象,這被稱為擁塞擴散。
1.4 多打一場景下的擁塞
CLOS架構(gòu)在未來數(shù)據(jù)中心新場景下存在丟包、時延、吞吐等多方面的挑戰(zhàn),這些挑戰(zhàn)主要來自many-to-one流量模型和all-to-all流量模型。流量模型many-to-one有時候也被稱為Incast流量模型。在高度并行的云應用中,Incast是一個很自然發(fā)生的現(xiàn)象,它被證明是數(shù)據(jù)中心大部分丟包產(chǎn)生的原因。
圖2是many-to-one流量模型示例。在這個示例中,leaf1、leaf2、leaf3 和 spine1、spine2、spine3形成一個無阻塞的Tier-2 CLOS網(wǎng)絡。流量從server1到server5、從server7到server5、從server9到server5,形成一個many-to-one,這里是3打1,整網(wǎng)無阻塞,只有l(wèi)eaf2向server5的方向出端口方向buffer是瓶頸。
2 數(shù)據(jù)中心無損網(wǎng)絡應用場景分析
數(shù)據(jù)中心里的應用和存儲架構(gòu)需要不斷地進化,以滿足日益增長的對實時和交互的數(shù)字技術(shù)的要求,業(yè)界主流熱門的應用場景均對數(shù)據(jù)中心提出了越來越高的要求。
2.1 在線數(shù)據(jù)密集型服務
在線數(shù)據(jù)密集型服務和線下的通信(如MapReduce計算)之間最根本的區(qū)別在于,在線數(shù)據(jù)密集型服務需要對高速率涌進的請求做出立即回答。對此,延遲是一個關鍵問題,終端的用戶體驗高度依賴于系統(tǒng)的響應,即使是一個少于1 s的適度延時也會對個人查詢以及相關的廣告收入帶來可觀的影響。而且使用云作為決策源和信息源的系統(tǒng)先天性地擁有一大部分不可避免的延時,這給數(shù)據(jù)中心的內(nèi)部響應時間帶來更大的壓力。為了處理延遲問題,在線數(shù)據(jù)密集型服務將單個請求同時分配部署在幾千個服務器上,并把這些服務器的響應進行協(xié)調(diào)和疊加以形成最優(yōu)的推薦和答案。
2.2 深度學習
深度學習是機器學習的一個分支,人類日常生活中的語音識別和圖像識別由大型神經(jīng)網(wǎng)絡掌控,通過對百萬級,甚至十億級參數(shù)的訓練形成模型,并集成到在線服務中。一旦模型建立,一些復雜的任務例(如社交網(wǎng)絡過濾、欺詐和異常識別等)都可以毫不費力地被執(zhí)行。深度學習網(wǎng)絡也可以被抽象成一個有百萬量級神經(jīng)元互聯(lián)的大腦,網(wǎng)絡的規(guī)模越大、模型參數(shù)越多,網(wǎng)絡的工作表現(xiàn)通常會越好。現(xiàn)如今的深度學習網(wǎng)絡可以擁有數(shù)十億級的參數(shù)和百萬級的互聯(lián)。
深度學習模型不斷地被訓練和優(yōu)化,伴隨著這一持續(xù)過程的一個挑戰(zhàn)是高昂的通信成本。大量的數(shù)據(jù)不斷地被共享,如果發(fā)生同步延時,計算過程就會被拖延,而網(wǎng)絡通常被認為是引起延時的原因。在訓練過程中,網(wǎng)絡里使用的訓練服務器先天地存在Incast問題,因為集群幾乎是在同一時間返回結(jié)果,Incast場景會導致在連接參數(shù)服務器的交換機處產(chǎn)生擁塞,從而帶來丟包損失和同步延時。由于更多的節(jié)點需要更多的通信請求,所以更多的并行處理可能會增加延時,增加網(wǎng)絡擁塞。在網(wǎng)絡有損情況下,數(shù)據(jù)拷貝會引入延遲抖動、擁塞丟包等性能損失,造成處理器空閑等待數(shù)據(jù),并拖累整體并行計算性能,導致無法通過簡單增加處理器數(shù)量來提升整體計算性能。
2.3 NVMe over Fabrics
Non-Volatile Memory Express(NVMe)是一種存儲通信接口和規(guī)范,它基于固態(tài)硬盤(Solid-State Driver,SSD)提供了一套低延遲、內(nèi)部并發(fā)化的接口規(guī)范。NVMe快速可靠的特點十分適用于未來云數(shù)據(jù)中心的高并行環(huán)境。全閃存陣列(All-Flash-Arrays,AFA)需要NVMe訪問網(wǎng)絡,因而需要極低的延遲,以形成競爭優(yōu)勢。
在融合基礎架構(gòu)數(shù)據(jù)中心中,NVMe over Fabrics被指定基于UDP運行在RoCEv2上,或者基于TCP運行在iWARP上。當網(wǎng)絡檢測到擁塞時,ECN指示符會被標記在數(shù)據(jù)包上,接收端收到后就會通知發(fā)送端降低發(fā)送速率,以避免丟包損失。如果信息的往返時間太長,丟包損失仍然不可避免,而丟包則需要重新傳輸,這將嚴重降低NVMe存儲的訪問速度。基于有損網(wǎng)絡的存儲云化,因為網(wǎng)絡存在擁塞丟包、延遲抖動、故障倒換而嚴重影響NVMe存儲云化的效果。
2.4 分布式并行系統(tǒng)
為了使大規(guī)模云服務能滿足實時交互的延遲要求,應用和存儲必須分而治之。目前,有太多的數(shù)據(jù)需要處理,而數(shù)據(jù)的真正價值在于能否快速地被提煉出有用的信息。高性能分布式并行計算,本質(zhì)上是網(wǎng)絡性能要向內(nèi)存訪問看齊(見圖3)。在有損網(wǎng)絡下,數(shù)據(jù)拷貝會引入延遲抖動、擁塞丟包等性能損失,造成處理器空閑等待數(shù)據(jù),并拖累整體并行計算性能,導致無法通過簡單增加處理器數(shù)量來提升總體計算性能。分布式系統(tǒng)里的并行性取決于同步信息和參數(shù)分布,信息傳遞時,由于Incast和混亂流,網(wǎng)絡流量模型會先天性地引起擁塞,如果不加以管控,擁塞就會導致網(wǎng)絡的全面損失:丟包損失、延遲損失和吞吐?lián)p失。
高性能傳輸技術(shù)的產(chǎn)生,40 G/100 G/400 G以太網(wǎng)和RDMA等高性能的網(wǎng)絡技術(shù)的快速發(fā)展,可以很好地替代原先昂貴的專屬存儲網(wǎng)絡。如何利用網(wǎng)絡將計算資源和存儲資源結(jié)合起來,并進行統(tǒng)一的管理和協(xié)同操作,提供具有低時延和高帶寬的互聯(lián)網(wǎng)絡,對于提升資源利用效率和滿足應用程序的性能需求具有重要的實際意義。
2.5 Server SAN
在過去的很長一段時間內(nèi),CPU的發(fā)展速度是普通機械硬盤的幾十萬倍,對于低速的存儲介質(zhì)磁盤來說,存儲網(wǎng)絡帶來的影響相對不明顯。因此,在低速存儲盛行時期,集中式的存儲部署架構(gòu)被廣大企業(yè)所接受,并保持很長時期的主要地位。近年來,“軟件定義”概念的興起,閃存技術(shù)的應用,正在改變這一趨勢。Server SAN可以用標準的x86服務器和高速通用網(wǎng)絡來搭建實現(xiàn)一個更高性價比的系統(tǒng)。
Server SAN的網(wǎng)絡相比于傳統(tǒng)存儲網(wǎng)絡具有更高的要求,如在時延和帶寬上要能夠配合存儲的需求,減小處理器到存儲的時間。利用現(xiàn)有的技術(shù),通過組建各種子網(wǎng)的方式,如高性能子網(wǎng)、大數(shù)據(jù)子網(wǎng)和元數(shù)據(jù)子網(wǎng)等,可以很好地滿足不同業(yè)務的需求。Server SAN的需求也推動了網(wǎng)絡技術(shù)的快速發(fā)展,從低延時、高帶寬的傳輸網(wǎng)絡,到智能網(wǎng)卡的出現(xiàn)以及融合網(wǎng)絡技術(shù)的發(fā)展。但是,大型的網(wǎng)絡企業(yè)更多地希望能夠利用現(xiàn)有的低成本的網(wǎng)絡技術(shù)來解決網(wǎng)絡傳輸過程中遇到的性能瓶頸問題。
3 數(shù)據(jù)中心無損網(wǎng)絡的關鍵技術(shù)
3.1 流控機制
現(xiàn)在市面上有很多不同架構(gòu)的交換機,如果這些交換機的入口端和出口端缺少協(xié)調(diào),那么將很難用這些交換機去搭建一個無損的網(wǎng)絡環(huán)境。通常路由器會在入口隊列采用PFC機制,也就是當入口端的緩存區(qū)存滿時,PFC會被激發(fā)并反饋到上游鄰近交換機[3]。然而,在Incast場景中,由于缺少入口端和出口端之間的協(xié)調(diào),在入口端的各個隊列達到閾值之前,出口端的隊列就已經(jīng)溢出。
虛擬輸入隊列(Virtual Input Queuing,VIQ)是一種協(xié)調(diào)出口端可用資源和入口端需求資源以用來傳輸數(shù)據(jù)的方法。利用VIQ,出口端將可用緩存告知入口端,以避免交換機內(nèi)部帶來的丟包損失,數(shù)據(jù)包可以自然地備份在入口端處,如果需要,PFC也可以適當?shù)乇徊捎谩IQ可以被抽象成一種模型,也就是在入口端有一個協(xié)調(diào)所有入口端的專有隊列,用于公平地、有計劃地去共享利用離開交換機的流量。VIQ具有避免交換機內(nèi)部由于擁塞所引起的丟包損失的優(yōu)點。此外,VIQ建模可以使流量公平有序地離開交換機,是實現(xiàn)無損的基礎之一。
3.2 擁塞控制
網(wǎng)絡擁塞會引起數(shù)據(jù)包在網(wǎng)絡設備中排隊甚至導致隊列溢出而丟棄,是導致網(wǎng)絡高動態(tài)時延的主要原因。網(wǎng)絡擁塞從根源上可以分為兩類,一類是由于流量調(diào)度不均引起的擁塞,另一類是對網(wǎng)絡或接收端處理能力過度訂閱(或稱“超賣”)。前面所說的ECMP沖突屬于前者,Incast擁塞屬于后者。擁塞控制技術(shù)根據(jù)其應對擁塞的時機不同,可以分為被動擁塞控制和主動擁塞控制兩類。
被動擁塞控制包括傳統(tǒng)TCP擁塞控制技術(shù),如CUBIC[4],數(shù)據(jù)中心中改進的TCP擁塞控制技術(shù)如DCTCP[5-6],應用于RDMA協(xié)議的擁塞控制技術(shù)如DCQCN、Timely[7],交換機進行擁塞反饋的擁塞控制技術(shù)如 QCN[8]等。盡管它們擁塞反饋的方式不同,有些是基于丟包,有些是基于ECN,有些是基于時延,但一個共同的特點是發(fā)送端根據(jù)網(wǎng)絡的擁塞反饋信號,對發(fā)送速率進行調(diào)節(jié)。這類技術(shù)由于實現(xiàn)簡單、易于部署被廣泛使用,但通常被認為存在擁塞反應滯后、控制回環(huán)時間長、容易引起吞吐率振蕩、速率收斂慢、誤傷老鼠流等問題,因此有很大的優(yōu)化空間。
主動擁塞控制是相對比較新的擁塞控制技術(shù),成熟的應用還比較少。主要技術(shù)是網(wǎng)絡設備或接受端直接建議或指導發(fā)送端發(fā)送速率的方式,比如RCP(Rate Control Protocol)[9],接收端驅(qū)動的基于信譽的速率控制技術(shù)等。主動擁塞控制能有效解決被動擁塞控制擁塞反應滯后和速率收斂慢等問題,同時也給解決Incast擁塞等網(wǎng)絡頑疾帶來了曙光。主動擁塞控制技術(shù)展現(xiàn)了解決擁塞問題的新思路,是有前景的新型擁塞控制技術(shù),但也存在準確建議速率確定困難,實現(xiàn)機制相對復雜,引入額外的信令開銷等問題。
值得注意的是,被動擁塞控制和主動擁塞控制并不是兩類互斥的技術(shù),它們存在優(yōu)勢互補,可以結(jié)合使用。數(shù)據(jù)中心無損網(wǎng)絡對這兩類技術(shù)各自的優(yōu)化研究和它們之間的組合研究提出了需求。動態(tài)虛擬通道(Dynamic Virtual Lanes,DVL)是擁塞隔離的一個工具,擁塞隔離可以消除因過度使用PFC所造成的隊頭阻塞。DVL識別出引起擁塞的流,并把它們隔離到單獨的流量類別,然后向上游鄰居發(fā)送信號讓它執(zhí)行相同操作。相比于端到端的控制環(huán)路需要一定時間才能生效,DVL可以有效地將擁塞暫時移開。
圖4描述了DVL的實施過程。當流量在交換機的出口端發(fā)生沖突時,該方法會檢測到?jīng)_突并識別違規(guī)流,來自違規(guī)流的后續(xù)數(shù)據(jù)包將被引向一個擁塞流的專有隊列(即被有效地移出),一旦擁塞流隊列到達閾值,DVL將會向上游鄰近交換機發(fā)送擁塞隔離包(Congestion Isolation Packet,CIP)。CIP包含足夠的信息可以讓上游交換機識別出該擁塞流,上游交換機同樣也會隔離該擁塞流,并監(jiān)控擁塞流隊列的深度。來自擁塞流的數(shù)據(jù)包被傳輸?shù)膬?yōu)先級要低于非擁塞流隊列,如果擁塞一直持續(xù),擁塞流隊列就會被填滿,在這種情況下,采用DVL的交換機會利用VIQ去協(xié)調(diào)擁塞流隊列和入口端。同時,當擁塞流隊列填滿時,入口端也會發(fā)出PFC以避免丟包。流量控制只會阻塞擁塞流隊列,而其他未擁塞的流量則可以由非擁塞流隊列自由通過。
3.3 負載均
在以Clos架構(gòu)為代表的網(wǎng)絡架構(gòu)中,由于源節(jié)點和目的節(jié)點間有多條路徑,因此存在兩節(jié)點間的流量如何在多條路徑上分發(fā)的問題,即負載均衡問題。如前所述,流量調(diào)度不均是引起網(wǎng)絡擁塞的一大重要根源,因此負載均衡技術(shù)一直是業(yè)界關注的重點技術(shù)[9]。
負載均衡技術(shù)存在豐富的設計空間,主要可以從三個維度去考慮:第一個維度,集中式還是分布式。前者易于實現(xiàn)并容易獲得全局信息,但存在擴展性和控制回環(huán)時延大的問題;后者實現(xiàn)相對復雜,但可擴展性好。第二個維度,網(wǎng)絡狀態(tài)無關還是網(wǎng)絡狀態(tài)感知(擁塞感知)。前者實現(xiàn)簡單,但難以適應網(wǎng)絡狀況的變化;后者能及時感知網(wǎng)絡擁塞的變化,做到自適應的負載均衡,但實現(xiàn)復雜度高且存在擁塞測量困難和滯后的問題。第三個維度,流量調(diào)度的粒度。從大到小,存在流、Flowlet、Flowcell、包等不同的流量調(diào)度粒度,在封閉系統(tǒng)中甚至還有更小的以Cell為單位的流量調(diào)度。流量調(diào)度粒度越小,流量分發(fā)越均勻,但小粒度的流量調(diào)度容易帶來數(shù)據(jù)包亂序的問題,從而對要求保證順序的傳輸協(xié)議的性能產(chǎn)生影響。
對上述維度的不同選擇和組合,產(chǎn)生了一系列的負載均衡技術(shù)方案,比如ECMP、Hedera、CONGA等。但隨著網(wǎng)絡速率的提高,時延的降低,流量動態(tài)性的增強,大象流沖突、控制回環(huán)時間太長等問題越來越突出,越來越需要更細粒度、反應更快、能適應網(wǎng)絡負載動態(tài)變化的負載均衡技術(shù)。本文提出負載感知逐包負載均衡技術(shù)(Load-Aware Packet Spraying,LPS),它是一種分布式、以包為調(diào)度粒度、擁塞感知的負載均衡技術(shù),可以實現(xiàn)細粒度負載均衡,且不引入包亂序。通過LPS,兩個ToR(Top of Rack)交換機之間的流量會根據(jù)測量到的各路徑擁塞程度,以包為粒度均勻地分發(fā)在多條路徑上,并在到達目的ToR時進行重排序。
與傳統(tǒng)的ECMP技術(shù)相比,LPS有三大優(yōu)勢:一是流量分發(fā)更均勻。LPS以包為粒度進行細粒度的流量分發(fā),有效避免了大象流沖突,從而能夠大幅度地提高流量的吞吐率和網(wǎng)絡的利用率。二是自適應。LPS能根據(jù)網(wǎng)絡路徑擁塞狀況,快速調(diào)整流量分發(fā)路徑,從而適應網(wǎng)絡負載變化。三是低網(wǎng)絡排隊時延。LPS均勻分發(fā)和自適應網(wǎng)絡負載變化的能力,可有效降低網(wǎng)絡擁塞,減少網(wǎng)絡排隊,從而有效地減小端到端傳輸時延。
4 結(jié)束語
以數(shù)據(jù)傳輸服務為核心,無損網(wǎng)絡或?qū)⒃龠M一步提高數(shù)據(jù)中心數(shù)據(jù)傳輸速率。遠程直接數(shù)據(jù)存取(Remote Direct Memory Access,RDMA)技術(shù)通過應用程序直接讀取或?qū)懭脒h程內(nèi)存,避免操作系統(tǒng)、協(xié)議棧的介入,從而實現(xiàn)數(shù)據(jù)更加直接、簡單、高效的傳輸,大幅減少數(shù)據(jù)傳輸過程中所需的時間。而該技術(shù)在數(shù)據(jù)傳輸過程中,需要盡可能地保證網(wǎng)絡是無損的。未來無損網(wǎng)絡可與RDMA技術(shù)集合,促進數(shù)據(jù)在不同設備間的高效傳輸,在實現(xiàn)數(shù)據(jù)中心網(wǎng)絡無損的前提下,更進一步提高數(shù)據(jù)中心網(wǎng)絡的數(shù)據(jù)傳輸速率。
網(wǎng)絡虛擬化與無損網(wǎng)絡結(jié)合,保證虛擬化場景下應用對網(wǎng)絡性能的需求。近年來,軟件定義網(wǎng)絡作為網(wǎng)絡虛擬化的重要實現(xiàn)方式之一,同樣備受業(yè)界關注。然而,虛擬網(wǎng)絡并不是無損網(wǎng)絡,仍有可能存在丟包的問題,從而不能很好地支撐現(xiàn)有數(shù)據(jù)中心的典型應用與場景需求。未來,無損網(wǎng)絡可能與網(wǎng)絡虛擬化相結(jié)合,使得數(shù)據(jù)中心網(wǎng)絡同時兼具虛擬化與無損的優(yōu)點。
提升數(shù)據(jù)中心網(wǎng)絡性能,讓網(wǎng)絡更好地應用于數(shù)據(jù)中心,支撐數(shù)據(jù)中心業(yè)務發(fā)展是行業(yè)共同的目標與使命。目前,IEEE、CCSA和ODCC等國內(nèi)外團體在數(shù)據(jù)中心無損網(wǎng)絡方面已經(jīng)開展了很多標準化工作,IEEE發(fā)布了技術(shù)白皮書《The Lossless Network for Data Centers》、CCSA發(fā)布了通信行業(yè)標準YD/T 3902《數(shù)據(jù)中心無損網(wǎng)絡典型場景技術(shù)要求和測試方法》、ODCC發(fā)布了《無損網(wǎng)絡技術(shù)與應用白皮書》《無損網(wǎng)絡測試規(guī)范》等成果,同時華為、Mellanox(已被Nvidia收購)和思科等廠商均推出了相關的產(chǎn)品。后續(xù)需要繼續(xù)匯聚行業(yè)力量,加快無損網(wǎng)絡產(chǎn)業(yè)化進程,讓無損網(wǎng)絡更好地服務于數(shù)據(jù)中心的發(fā)展。

- 上一篇
西南地區(qū)最大的人工智能計算中心——成都智算中心正式上線
5月10日,“東數(shù)西算” 國家一體化大數(shù)據(jù)中心成渝樞紐節(jié)點的樣板工程、西南地區(qū)最大的人工智能計算中心——成都智算中心正式上線。成都智算中心正式上線
- 下一篇
我國已創(chuàng)建三批共計153家國家綠色數(shù)據(jù)中心——數(shù)據(jù)中心“變綠” 能源消耗“瘦身”
數(shù)據(jù)中心是新型基礎設施節(jié)能降耗的關鍵環(huán)節(jié),也是促進全社會降碳增效的有力抓手。近年來,我國數(shù)據(jù)中心規(guī)模不斷壯大,推進數(shù)據(jù)中心綠色化轉(zhuǎn)型升級勢在必行。通過優(yōu)化供電架構(gòu)、提