91亚洲国产成人久久精品网站精品国产乱码久久夜夜嗨|中文字幕精品一区二区年下载91麻豆自拍视频|国产成人久久一区二区不卡精品久久久久久人妻蜜桃|欧美国产精品久久久久久免费色综合久久久综合|果冻传媒一二三产区|麻豆果冻传媒|夜噜噜久久国产欧美日韩精品|欧美日韩在线精品一区二区|91亚洲精品中文字幕|国产精品亚洲片在线观看不卡,粉嫩高清一区二区三区精品视频av中文字幕亚洲最新 ,色老板中文字幕,欧美午夜精品人妻久久久久久

網(wǎng)站首頁(yè)

您現(xiàn)在的位置是:首頁(yè) > 服務(wù)支持 > 公司新聞

公司新聞

中國(guó)信通院王少鵬等:數(shù)據(jù)中心無(wú)損網(wǎng)絡(luò)關(guān)鍵技術(shù)研究

一舟線(xiàn)纜2023-02-28公司新聞
各種應(yīng)用程序,、數(shù)據(jù)的指數(shù)級(jí)增長(zhǎng),,以及云服務(wù)的快速普及等因素,導(dǎo)致由孤立的單體系統(tǒng)構(gòu)成的傳統(tǒng)基礎(chǔ)架構(gòu)變得過(guò)時(shí),?;A(chǔ)架構(gòu)的融合成為數(shù)據(jù)中心的根本轉(zhuǎn)變,融合或超融合基礎(chǔ)架構(gòu)

各種應(yīng)用程序,、數(shù)據(jù)的指數(shù)級(jí)增長(zhǎng),,以及云服務(wù)的快速普及等因素,,導(dǎo)致由孤立的單體系統(tǒng)構(gòu)成的傳統(tǒng)基礎(chǔ)架構(gòu)變得過(guò)時(shí),。基礎(chǔ)架構(gòu)的融合成為數(shù)據(jù)中心的根本轉(zhuǎn)變,,融合或超融合基礎(chǔ)架構(gòu)應(yīng)運(yùn)而生,,其將計(jì)算、存儲(chǔ),、網(wǎng)絡(luò)和虛擬化組合構(gòu)建成一個(gè)統(tǒng)一架構(gòu),,以便簡(jiǎn)捷高效地配置和橫向擴(kuò)展。在網(wǎng)絡(luò)方面,,以太網(wǎng)成為現(xiàn)代數(shù)據(jù)中心實(shí)際采用的互聯(lián)方式,。基于以太網(wǎng)的統(tǒng)一網(wǎng)絡(luò)架構(gòu)用于傳輸各種類(lèi)型的通信流,,為這種融合奠定了基礎(chǔ),。雖然這種統(tǒng)一和融合式網(wǎng)絡(luò)有著諸多好處,但也帶來(lái)了新的挑戰(zhàn),。

由于傳統(tǒng)數(shù)據(jù)中心網(wǎng)絡(luò)在數(shù)據(jù)傳輸中采取“盡力而為”的方法,,以太網(wǎng)絡(luò)是“有損”的,。當(dāng)以太網(wǎng)絡(luò)發(fā)生擁塞時(shí),數(shù)據(jù)包會(huì)被丟棄,,然后由上層(如TCP中的重新傳輸)保障數(shù)據(jù)的完整性,。在重新傳輸?shù)那闆r下,這些數(shù)據(jù)包通常不按順序抵達(dá)目的地,,進(jìn)而需要重新排序,。隨著數(shù)據(jù)流匯聚到以太網(wǎng)絡(luò)上,這種重新傳輸和重新排序?qū)?dǎo)致應(yīng)用程序的性能?chē)?yán)重下降[1],??紤]到融合性質(zhì),這種情形還可能會(huì)導(dǎo)致網(wǎng)絡(luò)上的其他數(shù)據(jù)流的應(yīng)用性能下降,。因此,,需要一套措施來(lái)確保流量在以太網(wǎng)網(wǎng)絡(luò)上實(shí)現(xiàn)無(wú)損傳輸。

1  傳統(tǒng)網(wǎng)絡(luò)問(wèn)題分析

無(wú)論是構(gòu)建公有云,,還是用作企業(yè)云服務(wù)的私有數(shù)據(jù)中心,,都需要解決一組常見(jiàn)的問(wèn)題:如何為快速變化的環(huán)境構(gòu)建一個(gè)高度靈活的組網(wǎng),以承載多種類(lèi)型的流量,,從而使網(wǎng)絡(luò)可以最小化,,甚至消除丟包損失;在提供高吞吐量的同時(shí),,保持低延遲,。數(shù)據(jù)中心流行的CLOS網(wǎng)絡(luò)架構(gòu)通過(guò)等價(jià)多路徑實(shí)現(xiàn)無(wú)阻塞性能,并擁有彈性,,交換機(jī)之間的連接方式使其具有可擴(kuò)展,、簡(jiǎn)單、標(biāo)準(zhǔn)和易于理解等優(yōu)點(diǎn)[2],。在CLOS網(wǎng)絡(luò)中,,機(jī)架頂部的交換機(jī)被稱(chēng)作葉交換機(jī),它們連接在被當(dāng)作核心的脊交換機(jī)上,。葉交換機(jī)之間互不相連,,而脊交換機(jī)只與葉交換機(jī)連接。目前,,數(shù)據(jù)中心已經(jīng)采用了很多技術(shù),,試圖解決擁塞控制問(wèn)題。盡管擁塞控制有所改善,,但仍不能為今后的使用場(chǎng)景提供無(wú)損的網(wǎng)絡(luò),,以下問(wèn)題仍然存在。

1.1  等價(jià)多路徑?jīng)_突

通過(guò)散列流標(biāo)識(shí)符來(lái)選擇路徑,這樣的做法很簡(jiǎn)便,,但缺乏考慮路徑本身是否擁塞,。如圖1所示,很容易發(fā)生多個(gè)流被散列到相同的路徑上的情況,,從而導(dǎo)致鏈路過(guò)載,。此外,流量的大小通常呈雙模態(tài)分布:大多數(shù)的流是老鼠流,,而大部分傳輸字節(jié)則來(lái)自大象流,。ECMP選擇路徑時(shí)不會(huì)考慮流量的大小,而對(duì)ECMP的改善應(yīng)該涉及選擇路徑時(shí)的擁塞感知和細(xì)粒度的流量負(fù)載均衡,。

1.2  顯性擁塞通知的控制環(huán)路延時(shí)

大型的網(wǎng)絡(luò)擁有更多的跳數(shù),,因此ECN控制回路的往返時(shí)間(Round-Trip Time,RTT)會(huì)更長(zhǎng),。大型的網(wǎng)絡(luò)也會(huì)支撐更多的數(shù)據(jù)傳輸,,在ECN生效前很難處理突發(fā)流量。通過(guò)增加交換機(jī)緩存去處理突發(fā)流量是不可取的,,因?yàn)檫@樣不僅會(huì)增加成本,,也會(huì)增加那些正常流的排隊(duì)時(shí)間。端到端的擁塞控制對(duì)有序的網(wǎng)絡(luò)至關(guān)重要,,但為確保網(wǎng)絡(luò)可以有效地避免丟包損失,,額外的幫助也同樣重要。

1.3  基于優(yōu)先級(jí)的流控引起的隊(duì)頭阻塞

PFC是一種避免丟包的技術(shù),,但這一技術(shù)應(yīng)該作為最后的手段使用,。當(dāng)交換機(jī)的某一個(gè)出口發(fā)生擁塞時(shí),數(shù)據(jù)被緩存到備份里,,并同時(shí)調(diào)用PFC,。由于PFC會(huì)阻止特定等級(jí)的所有流量,所以流向其他端口的流量也有可能會(huì)被阻隔,這種現(xiàn)象被稱(chēng)為隊(duì)頭阻塞,。為了避免隊(duì)頭阻塞,,很有必要去盡早識(shí)別引起擁塞的流,,并提供針對(duì)流特征(一般引起擁塞的流通常是大象流)的擁塞緩解技術(shù),。

隊(duì)頭阻塞可能會(huì)引起上游的額外阻塞。由于PFC隔離了所有流,,包括那些發(fā)往沒(méi)有擁塞路徑的流,。這使得所有流必須在上游交換機(jī)處排隊(duì),產(chǎn)生的隊(duì)列延時(shí)反過(guò)來(lái)又會(huì)引起上一個(gè)上游交換機(jī)的擁塞,。如果上游交換機(jī)的緩存被填滿(mǎn),,一個(gè)新的PFC信息會(huì)被調(diào)用并發(fā)送到網(wǎng)絡(luò),循環(huán)往復(fù),,造成更多的隊(duì)頭阻塞和擁塞現(xiàn)象,,這被稱(chēng)為擁塞擴(kuò)散,。

1.4  多打一場(chǎng)景下的擁塞

CLOS架構(gòu)在未來(lái)數(shù)據(jù)中心新場(chǎng)景下存在丟包、時(shí)延,、吞吐等多方面的挑戰(zhàn),,這些挑戰(zhàn)主要來(lái)自many-to-one流量模型和all-to-all流量模型。流量模型many-to-one有時(shí)候也被稱(chēng)為Incast流量模型,。在高度并行的云應(yīng)用中,,Incast是一個(gè)很自然發(fā)生的現(xiàn)象,它被證明是數(shù)據(jù)中心大部分丟包產(chǎn)生的原因,。

圖2是many-to-one流量模型示例,。在這個(gè)示例中,leaf1,、leaf2,、leaf3 和 spine1、spine2,、spine3形成一個(gè)無(wú)阻塞的Tier-2 CLOS網(wǎng)絡(luò),。流量從server1到server5、從server7到server5,、從server9到server5,,形成一個(gè)many-to-one,這里是3打1,,整網(wǎng)無(wú)阻塞,,只有l(wèi)eaf2向server5的方向出端口方向buffer是瓶頸。

2  數(shù)據(jù)中心無(wú)損網(wǎng)絡(luò)應(yīng)用場(chǎng)景分析

數(shù)據(jù)中心里的應(yīng)用和存儲(chǔ)架構(gòu)需要不斷地進(jìn)化,,以滿(mǎn)足日益增長(zhǎng)的對(duì)實(shí)時(shí)和交互的數(shù)字技術(shù)的要求,,業(yè)界主流熱門(mén)的應(yīng)用場(chǎng)景均對(duì)數(shù)據(jù)中心提出了越來(lái)越高的要求。

2.1  在線(xiàn)數(shù)據(jù)密集型服務(wù)

在線(xiàn)數(shù)據(jù)密集型服務(wù)和線(xiàn)下的通信(如MapReduce計(jì)算)之間最根本的區(qū)別在于,,在線(xiàn)數(shù)據(jù)密集型服務(wù)需要對(duì)高速率涌進(jìn)的請(qǐng)求做出立即回答,。對(duì)此,延遲是一個(gè)關(guān)鍵問(wèn)題,,終端的用戶(hù)體驗(yàn)高度依賴(lài)于系統(tǒng)的響應(yīng),,即使是一個(gè)少于1 s的適度延時(shí)也會(huì)對(duì)個(gè)人查詢(xún)以及相關(guān)的廣告收入帶來(lái)可觀(guān)的影響。而且使用云作為決策源和信息源的系統(tǒng)先天性地?fù)碛幸淮蟛糠植豢杀苊獾难訒r(shí),,這給數(shù)據(jù)中心的內(nèi)部響應(yīng)時(shí)間帶來(lái)更大的壓力,。為了處理延遲問(wèn)題,在線(xiàn)數(shù)據(jù)密集型服務(wù)將單個(gè)請(qǐng)求同時(shí)分配部署在幾千個(gè)服務(wù)器上,,并把這些服務(wù)器的響應(yīng)進(jìn)行協(xié)調(diào)和疊加以形成最優(yōu)的推薦和答案,。

2.2  深度學(xué)習(xí)

深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)分支,人類(lèi)日常生活中的語(yǔ)音識(shí)別和圖像識(shí)別由大型神經(jīng)網(wǎng)絡(luò)掌控,通過(guò)對(duì)百萬(wàn)級(jí),,甚至十億級(jí)參數(shù)的訓(xùn)練形成模型,,并集成到在線(xiàn)服務(wù)中。一旦模型建立,,一些復(fù)雜的任務(wù)例(如社交網(wǎng)絡(luò)過(guò)濾,、欺詐和異常識(shí)別等)都可以毫不費(fèi)力地被執(zhí)行。深度學(xué)習(xí)網(wǎng)絡(luò)也可以被抽象成一個(gè)有百萬(wàn)量級(jí)神經(jīng)元互聯(lián)的大腦,,網(wǎng)絡(luò)的規(guī)模越大,、模型參數(shù)越多,網(wǎng)絡(luò)的工作表現(xiàn)通常會(huì)越好?,F(xiàn)如今的深度學(xué)習(xí)網(wǎng)絡(luò)可以擁有數(shù)十億級(jí)的參數(shù)和百萬(wàn)級(jí)的互聯(lián),。

深度學(xué)習(xí)模型不斷地被訓(xùn)練和優(yōu)化,伴隨著這一持續(xù)過(guò)程的一個(gè)挑戰(zhàn)是高昂的通信成本,。大量的數(shù)據(jù)不斷地被共享,,如果發(fā)生同步延時(shí),計(jì)算過(guò)程就會(huì)被拖延,,而網(wǎng)絡(luò)通常被認(rèn)為是引起延時(shí)的原因,。在訓(xùn)練過(guò)程中,網(wǎng)絡(luò)里使用的訓(xùn)練服務(wù)器先天地存在Incast問(wèn)題,,因?yàn)榧簬缀跏窃谕粫r(shí)間返回結(jié)果,,Incast場(chǎng)景會(huì)導(dǎo)致在連接參數(shù)服務(wù)器的交換機(jī)處產(chǎn)生擁塞,從而帶來(lái)丟包損失和同步延時(shí),。由于更多的節(jié)點(diǎn)需要更多的通信請(qǐng)求,,所以更多的并行處理可能會(huì)增加延時(shí),增加網(wǎng)絡(luò)擁塞,。在網(wǎng)絡(luò)有損情況下,,數(shù)據(jù)拷貝會(huì)引入延遲抖動(dòng)、擁塞丟包等性能損失,,造成處理器空閑等待數(shù)據(jù),,并拖累整體并行計(jì)算性能,導(dǎo)致無(wú)法通過(guò)簡(jiǎn)單增加處理器數(shù)量來(lái)提升整體計(jì)算性能,。

2.3  NVMe over Fabrics

Non-Volatile Memory Express(NVMe)是一種存儲(chǔ)通信接口和規(guī)范,,它基于固態(tài)硬盤(pán)(Solid-State Driver,SSD)提供了一套低延遲,、內(nèi)部并發(fā)化的接口規(guī)范,。NVMe快速可靠的特點(diǎn)十分適用于未來(lái)云數(shù)據(jù)中心的高并行環(huán)境,。全閃存陣列(All-Flash-Arrays,,AFA)需要NVMe訪(fǎng)問(wèn)網(wǎng)絡(luò),因而需要極低的延遲,以形成競(jìng)爭(zhēng)優(yōu)勢(shì),。

在融合基礎(chǔ)架構(gòu)數(shù)據(jù)中心中,,NVMe over Fabrics被指定基于UDP運(yùn)行在RoCEv2上,或者基于TCP運(yùn)行在iWARP上,。當(dāng)網(wǎng)絡(luò)檢測(cè)到擁塞時(shí),,ECN指示符會(huì)被標(biāo)記在數(shù)據(jù)包上,接收端收到后就會(huì)通知發(fā)送端降低發(fā)送速率,,以避免丟包損失,。如果信息的往返時(shí)間太長(zhǎng),丟包損失仍然不可避免,,而丟包則需要重新傳輸,,這將嚴(yán)重降低NVMe存儲(chǔ)的訪(fǎng)問(wèn)速度?;谟袚p網(wǎng)絡(luò)的存儲(chǔ)云化,,因?yàn)榫W(wǎng)絡(luò)存在擁塞丟包、延遲抖動(dòng),、故障倒換而嚴(yán)重影響NVMe存儲(chǔ)云化的效果,。

2.4  分布式并行系統(tǒng)

為了使大規(guī)模云服務(wù)能滿(mǎn)足實(shí)時(shí)交互的延遲要求,應(yīng)用和存儲(chǔ)必須分而治之,。目前,,有太多的數(shù)據(jù)需要處理,而數(shù)據(jù)的真正價(jià)值在于能否快速地被提煉出有用的信息,。高性能分布式并行計(jì)算,,本質(zhì)上是網(wǎng)絡(luò)性能要向內(nèi)存訪(fǎng)問(wèn)看齊(見(jiàn)圖3)。在有損網(wǎng)絡(luò)下,,數(shù)據(jù)拷貝會(huì)引入延遲抖動(dòng),、擁塞丟包等性能損失,造成處理器空閑等待數(shù)據(jù),,并拖累整體并行計(jì)算性能,,導(dǎo)致無(wú)法通過(guò)簡(jiǎn)單增加處理器數(shù)量來(lái)提升總體計(jì)算性能。分布式系統(tǒng)里的并行性取決于同步信息和參數(shù)分布,,信息傳遞時(shí),,由于Incast和混亂流,網(wǎng)絡(luò)流量模型會(huì)先天性地引起擁塞,,如果不加以管控,,擁塞就會(huì)導(dǎo)致網(wǎng)絡(luò)的全面損失:丟包損失、延遲損失和吞吐?lián)p失,。

高性能傳輸技術(shù)的產(chǎn)生,,40 G/100 G/400 G以太網(wǎng)和RDMA等高性能的網(wǎng)絡(luò)技術(shù)的快速發(fā)展,,可以很好地替代原先昂貴的專(zhuān)屬存儲(chǔ)網(wǎng)絡(luò)。如何利用網(wǎng)絡(luò)將計(jì)算資源和存儲(chǔ)資源結(jié)合起來(lái),,并進(jìn)行統(tǒng)一的管理和協(xié)同操作,,提供具有低時(shí)延和高帶寬的互聯(lián)網(wǎng)絡(luò),對(duì)于提升資源利用效率和滿(mǎn)足應(yīng)用程序的性能需求具有重要的實(shí)際意義,。

2.5  Server SAN

在過(guò)去的很長(zhǎng)一段時(shí)間內(nèi),,CPU的發(fā)展速度是普通機(jī)械硬盤(pán)的幾十萬(wàn)倍,對(duì)于低速的存儲(chǔ)介質(zhì)磁盤(pán)來(lái)說(shuō),,存儲(chǔ)網(wǎng)絡(luò)帶來(lái)的影響相對(duì)不明顯,。因此,在低速存儲(chǔ)盛行時(shí)期,,集中式的存儲(chǔ)部署架構(gòu)被廣大企業(yè)所接受,,并保持很長(zhǎng)時(shí)期的主要地位。近年來(lái),,“軟件定義”概念的興起,,閃存技術(shù)的應(yīng)用,正在改變這一趨勢(shì),。Server SAN可以用標(biāo)準(zhǔn)的x86服務(wù)器和高速通用網(wǎng)絡(luò)來(lái)搭建實(shí)現(xiàn)一個(gè)更高性?xún)r(jià)比的系統(tǒng),。

Server SAN的網(wǎng)絡(luò)相比于傳統(tǒng)存儲(chǔ)網(wǎng)絡(luò)具有更高的要求,如在時(shí)延和帶寬上要能夠配合存儲(chǔ)的需求,,減小處理器到存儲(chǔ)的時(shí)間,。利用現(xiàn)有的技術(shù),通過(guò)組建各種子網(wǎng)的方式,,如高性能子網(wǎng),、大數(shù)據(jù)子網(wǎng)和元數(shù)據(jù)子網(wǎng)等,可以很好地滿(mǎn)足不同業(yè)務(wù)的需求,。Server SAN的需求也推動(dòng)了網(wǎng)絡(luò)技術(shù)的快速發(fā)展,,從低延時(shí)、高帶寬的傳輸網(wǎng)絡(luò),,到智能網(wǎng)卡的出現(xiàn)以及融合網(wǎng)絡(luò)技術(shù)的發(fā)展,。但是,大型的網(wǎng)絡(luò)企業(yè)更多地希望能夠利用現(xiàn)有的低成本的網(wǎng)絡(luò)技術(shù)來(lái)解決網(wǎng)絡(luò)傳輸過(guò)程中遇到的性能瓶頸問(wèn)題,。

3  數(shù)據(jù)中心無(wú)損網(wǎng)絡(luò)的關(guān)鍵技術(shù)

3.1  流控機(jī)制

現(xiàn)在市面上有很多不同架構(gòu)的交換機(jī),,如果這些交換機(jī)的入口端和出口端缺少協(xié)調(diào),那么將很難用這些交換機(jī)去搭建一個(gè)無(wú)損的網(wǎng)絡(luò)環(huán)境,。通常路由器會(huì)在入口隊(duì)列采用PFC機(jī)制,,也就是當(dāng)入口端的緩存區(qū)存滿(mǎn)時(shí),PFC會(huì)被激發(fā)并反饋到上游鄰近交換機(jī)[3],。然而,,在Incast場(chǎng)景中,,由于缺少入口端和出口端之間的協(xié)調(diào),在入口端的各個(gè)隊(duì)列達(dá)到閾值之前,,出口端的隊(duì)列就已經(jīng)溢出,。

虛擬輸入隊(duì)列(Virtual Input Queuing,,VIQ)是一種協(xié)調(diào)出口端可用資源和入口端需求資源以用來(lái)傳輸數(shù)據(jù)的方法,。利用VIQ,出口端將可用緩存告知入口端,,以避免交換機(jī)內(nèi)部帶來(lái)的丟包損失,,數(shù)據(jù)包可以自然地備份在入口端處,如果需要,,PFC也可以適當(dāng)?shù)乇徊捎?。VIQ可以被抽象成一種模型,也就是在入口端有一個(gè)協(xié)調(diào)所有入口端的專(zhuān)有隊(duì)列,,用于公平地,、有計(jì)劃地去共享利用離開(kāi)交換機(jī)的流量。VIQ具有避免交換機(jī)內(nèi)部由于擁塞所引起的丟包損失的優(yōu)點(diǎn),。此外,,VIQ建模可以使流量公平有序地離開(kāi)交換機(jī),,是實(shí)現(xiàn)無(wú)損的基礎(chǔ)之一,。

3.2  擁塞控制

網(wǎng)絡(luò)擁塞會(huì)引起數(shù)據(jù)包在網(wǎng)絡(luò)設(shè)備中排隊(duì)甚至導(dǎo)致隊(duì)列溢出而丟棄,是導(dǎo)致網(wǎng)絡(luò)高動(dòng)態(tài)時(shí)延的主要原因,。網(wǎng)絡(luò)擁塞從根源上可以分為兩類(lèi),,一類(lèi)是由于流量調(diào)度不均引起的擁塞,另一類(lèi)是對(duì)網(wǎng)絡(luò)或接收端處理能力過(guò)度訂閱(或稱(chēng)“超賣(mài)”),。前面所說(shuō)的ECMP沖突屬于前者,,Incast擁塞屬于后者。擁塞控制技術(shù)根據(jù)其應(yīng)對(duì)擁塞的時(shí)機(jī)不同,,可以分為被動(dòng)擁塞控制和主動(dòng)擁塞控制兩類(lèi),。

被動(dòng)擁塞控制包括傳統(tǒng)TCP擁塞控制技術(shù),如CUBIC[4],,數(shù)據(jù)中心中改進(jìn)的TCP擁塞控制技術(shù)如DCTCP[5-6],,應(yīng)用于RDMA協(xié)議的擁塞控制技術(shù)如DCQCN、Timely[7],,交換機(jī)進(jìn)行擁塞反饋的擁塞控制技術(shù)如 QCN[8]等,。盡管它們擁塞反饋的方式不同,有些是基于丟包,,有些是基于ECN,,有些是基于時(shí)延,,但一個(gè)共同的特點(diǎn)是發(fā)送端根據(jù)網(wǎng)絡(luò)的擁塞反饋信號(hào),對(duì)發(fā)送速率進(jìn)行調(diào)節(jié),。這類(lèi)技術(shù)由于實(shí)現(xiàn)簡(jiǎn)單,、易于部署被廣泛使用,但通常被認(rèn)為存在擁塞反應(yīng)滯后,、控制回環(huán)時(shí)間長(zhǎng),、容易引起吞吐率振蕩、速率收斂慢,、誤傷老鼠流等問(wèn)題,,因此有很大的優(yōu)化空間。

主動(dòng)擁塞控制是相對(duì)比較新的擁塞控制技術(shù),,成熟的應(yīng)用還比較少,。主要技術(shù)是網(wǎng)絡(luò)設(shè)備或接受端直接建議或指導(dǎo)發(fā)送端發(fā)送速率的方式,比如RCP(Rate Control Protocol)[9],,接收端驅(qū)動(dòng)的基于信譽(yù)的速率控制技術(shù)等,。主動(dòng)擁塞控制能有效解決被動(dòng)擁塞控制擁塞反應(yīng)滯后和速率收斂慢等問(wèn)題,同時(shí)也給解決Incast擁塞等網(wǎng)絡(luò)頑疾帶來(lái)了曙光,。主動(dòng)擁塞控制技術(shù)展現(xiàn)了解決擁塞問(wèn)題的新思路,,是有前景的新型擁塞控制技術(shù),但也存在準(zhǔn)確建議速率確定困難,,實(shí)現(xiàn)機(jī)制相對(duì)復(fù)雜,,引入額外的信令開(kāi)銷(xiāo)等問(wèn)題。

值得注意的是,,被動(dòng)擁塞控制和主動(dòng)擁塞控制并不是兩類(lèi)互斥的技術(shù),,它們存在優(yōu)勢(shì)互補(bǔ),可以結(jié)合使用,。數(shù)據(jù)中心無(wú)損網(wǎng)絡(luò)對(duì)這兩類(lèi)技術(shù)各自的優(yōu)化研究和它們之間的組合研究提出了需求,。動(dòng)態(tài)虛擬通道(Dynamic Virtual Lanes,DVL)是擁塞隔離的一個(gè)工具,,擁塞隔離可以消除因過(guò)度使用PFC所造成的隊(duì)頭阻塞,。DVL識(shí)別出引起擁塞的流,并把它們隔離到單獨(dú)的流量類(lèi)別,,然后向上游鄰居發(fā)送信號(hào)讓它執(zhí)行相同操作,。相比于端到端的控制環(huán)路需要一定時(shí)間才能生效,DVL可以有效地將擁塞暫時(shí)移開(kāi),。

圖4描述了DVL的實(shí)施過(guò)程,。當(dāng)流量在交換機(jī)的出口端發(fā)生沖突時(shí),該方法會(huì)檢測(cè)到?jīng)_突并識(shí)別違規(guī)流,,來(lái)自違規(guī)流的后續(xù)數(shù)據(jù)包將被引向一個(gè)擁塞流的專(zhuān)有隊(duì)列(即被有效地移出),,一旦擁塞流隊(duì)列到達(dá)閾值,,DVL將會(huì)向上游鄰近交換機(jī)發(fā)送擁塞隔離包(Congestion Isolation Packet,CIP),。CIP包含足夠的信息可以讓上游交換機(jī)識(shí)別出該擁塞流,,上游交換機(jī)同樣也會(huì)隔離該擁塞流,并監(jiān)控?fù)砣麝?duì)列的深度,。來(lái)自擁塞流的數(shù)據(jù)包被傳輸?shù)膬?yōu)先級(jí)要低于非擁塞流隊(duì)列,,如果擁塞一直持續(xù),擁塞流隊(duì)列就會(huì)被填滿(mǎn),,在這種情況下,,采用DVL的交換機(jī)會(huì)利用VIQ去協(xié)調(diào)擁塞流隊(duì)列和入口端,。同時(shí),,當(dāng)擁塞流隊(duì)列填滿(mǎn)時(shí),入口端也會(huì)發(fā)出PFC以避免丟包,。流量控制只會(huì)阻塞擁塞流隊(duì)列,,而其他未擁塞的流量則可以由非擁塞流隊(duì)列自由通過(guò)。

3.3  負(fù)載均

在以Clos架構(gòu)為代表的網(wǎng)絡(luò)架構(gòu)中,,由于源節(jié)點(diǎn)和目的節(jié)點(diǎn)間有多條路徑,,因此存在兩節(jié)點(diǎn)間的流量如何在多條路徑上分發(fā)的問(wèn)題,即負(fù)載均衡問(wèn)題,。如前所述,,流量調(diào)度不均是引起網(wǎng)絡(luò)擁塞的一大重要根源,因此負(fù)載均衡技術(shù)一直是業(yè)界關(guān)注的重點(diǎn)技術(shù)[9],。

負(fù)載均衡技術(shù)存在豐富的設(shè)計(jì)空間,,主要可以從三個(gè)維度去考慮:第一個(gè)維度,集中式還是分布式,。前者易于實(shí)現(xiàn)并容易獲得全局信息,,但存在擴(kuò)展性和控制回環(huán)時(shí)延大的問(wèn)題;后者實(shí)現(xiàn)相對(duì)復(fù)雜,,但可擴(kuò)展性好,。第二個(gè)維度,網(wǎng)絡(luò)狀態(tài)無(wú)關(guān)還是網(wǎng)絡(luò)狀態(tài)感知(擁塞感知),。前者實(shí)現(xiàn)簡(jiǎn)單,,但難以適應(yīng)網(wǎng)絡(luò)狀況的變化;后者能及時(shí)感知網(wǎng)絡(luò)擁塞的變化,,做到自適應(yīng)的負(fù)載均衡,,但實(shí)現(xiàn)復(fù)雜度高且存在擁塞測(cè)量困難和滯后的問(wèn)題。第三個(gè)維度,,流量調(diào)度的粒度,。從大到小,,存在流、Flowlet,、Flowcell,、包等不同的流量調(diào)度粒度,在封閉系統(tǒng)中甚至還有更小的以Cell為單位的流量調(diào)度,。流量調(diào)度粒度越小,,流量分發(fā)越均勻,但小粒度的流量調(diào)度容易帶來(lái)數(shù)據(jù)包亂序的問(wèn)題,,從而對(duì)要求保證順序的傳輸協(xié)議的性能產(chǎn)生影響,。

對(duì)上述維度的不同選擇和組合,產(chǎn)生了一系列的負(fù)載均衡技術(shù)方案,,比如ECMP,、Hedera、CONGA等,。但隨著網(wǎng)絡(luò)速率的提高,,時(shí)延的降低,流量動(dòng)態(tài)性的增強(qiáng),,大象流沖突,、控制回環(huán)時(shí)間太長(zhǎng)等問(wèn)題越來(lái)越突出,越來(lái)越需要更細(xì)粒度,、反應(yīng)更快,、能適應(yīng)網(wǎng)絡(luò)負(fù)載動(dòng)態(tài)變化的負(fù)載均衡技術(shù)。本文提出負(fù)載感知逐包負(fù)載均衡技術(shù)(Load-Aware Packet Spraying,,LPS),,它是一種分布式、以包為調(diào)度粒度,、擁塞感知的負(fù)載均衡技術(shù),,可以實(shí)現(xiàn)細(xì)粒度負(fù)載均衡,且不引入包亂序,。通過(guò)LPS,,兩個(gè)ToR(Top of Rack)交換機(jī)之間的流量會(huì)根據(jù)測(cè)量到的各路徑擁塞程度,以包為粒度均勻地分發(fā)在多條路徑上,,并在到達(dá)目的ToR時(shí)進(jìn)行重排序,。

與傳統(tǒng)的ECMP技術(shù)相比,LPS有三大優(yōu)勢(shì):一是流量分發(fā)更均勻,。LPS以包為粒度進(jìn)行細(xì)粒度的流量分發(fā),,有效避免了大象流沖突,從而能夠大幅度地提高流量的吞吐率和網(wǎng)絡(luò)的利用率。二是自適應(yīng),。LPS能根據(jù)網(wǎng)絡(luò)路徑擁塞狀況,,快速調(diào)整流量分發(fā)路徑,從而適應(yīng)網(wǎng)絡(luò)負(fù)載變化,。三是低網(wǎng)絡(luò)排隊(duì)時(shí)延,。LPS均勻分發(fā)和自適應(yīng)網(wǎng)絡(luò)負(fù)載變化的能力,可有效降低網(wǎng)絡(luò)擁塞,,減少網(wǎng)絡(luò)排隊(duì),,從而有效地減小端到端傳輸時(shí)延。

4  結(jié)束語(yǔ)

以數(shù)據(jù)傳輸服務(wù)為核心,,無(wú)損網(wǎng)絡(luò)或?qū)⒃龠M(jìn)一步提高數(shù)據(jù)中心數(shù)據(jù)傳輸速率,。遠(yuǎn)程直接數(shù)據(jù)存取(Remote Direct Memory Access,,RDMA)技術(shù)通過(guò)應(yīng)用程序直接讀取或?qū)懭脒h(yuǎn)程內(nèi)存,,避免操作系統(tǒng)、協(xié)議棧的介入,,從而實(shí)現(xiàn)數(shù)據(jù)更加直接,、簡(jiǎn)單,、高效的傳輸,,大幅減少數(shù)據(jù)傳輸過(guò)程中所需的時(shí)間。而該技術(shù)在數(shù)據(jù)傳輸過(guò)程中,,需要盡可能地保證網(wǎng)絡(luò)是無(wú)損的,。未來(lái)無(wú)損網(wǎng)絡(luò)可與RDMA技術(shù)集合,促進(jìn)數(shù)據(jù)在不同設(shè)備間的高效傳輸,,在實(shí)現(xiàn)數(shù)據(jù)中心網(wǎng)絡(luò)無(wú)損的前提下,,更進(jìn)一步提高數(shù)據(jù)中心網(wǎng)絡(luò)的數(shù)據(jù)傳輸速率。

網(wǎng)絡(luò)虛擬化與無(wú)損網(wǎng)絡(luò)結(jié)合,,保證虛擬化場(chǎng)景下應(yīng)用對(duì)網(wǎng)絡(luò)性能的需求,。近年來(lái),軟件定義網(wǎng)絡(luò)作為網(wǎng)絡(luò)虛擬化的重要實(shí)現(xiàn)方式之一,,同樣備受業(yè)界關(guān)注,。然而,虛擬網(wǎng)絡(luò)并不是無(wú)損網(wǎng)絡(luò),,仍有可能存在丟包的問(wèn)題,,從而不能很好地支撐現(xiàn)有數(shù)據(jù)中心的典型應(yīng)用與場(chǎng)景需求。未來(lái),,無(wú)損網(wǎng)絡(luò)可能與網(wǎng)絡(luò)虛擬化相結(jié)合,,使得數(shù)據(jù)中心網(wǎng)絡(luò)同時(shí)兼具虛擬化與無(wú)損的優(yōu)點(diǎn)。

提升數(shù)據(jù)中心網(wǎng)絡(luò)性能,讓網(wǎng)絡(luò)更好地應(yīng)用于數(shù)據(jù)中心,,支撐數(shù)據(jù)中心業(yè)務(wù)發(fā)展是行業(yè)共同的目標(biāo)與使命,。目前,IEEE,、CCSA和ODCC等國(guó)內(nèi)外團(tuán)體在數(shù)據(jù)中心無(wú)損網(wǎng)絡(luò)方面已經(jīng)開(kāi)展了很多標(biāo)準(zhǔn)化工作,,IEEE發(fā)布了技術(shù)白皮書(shū)《The Lossless Network for Data Centers》、CCSA發(fā)布了通信行業(yè)標(biāo)準(zhǔn)YD/T 3902《數(shù)據(jù)中心無(wú)損網(wǎng)絡(luò)典型場(chǎng)景技術(shù)要求和測(cè)試方法》,、ODCC發(fā)布了《無(wú)損網(wǎng)絡(luò)技術(shù)與應(yīng)用白皮書(shū)》《無(wú)損網(wǎng)絡(luò)測(cè)試規(guī)范》等成果,,同時(shí)華為、Mellanox(已被Nvidia收購(gòu))和思科等廠(chǎng)商均推出了相關(guān)的產(chǎn)品,。后續(xù)需要繼續(xù)匯聚行業(yè)力量,,加快無(wú)損網(wǎng)絡(luò)產(chǎn)業(yè)化進(jìn)程,讓無(wú)損網(wǎng)絡(luò)更好地服務(wù)于數(shù)據(jù)中心的發(fā)展,。

資訊評(píng)論