未來(lái)數(shù)據(jù)中心為什么需要DPU,?
隨著AI技術(shù)的普及,,數(shù)據(jù)量越來(lái)越大,,計(jì)算模型也變得越來(lái)越復(fù)雜,這對(duì)于傳統(tǒng)數(shù)據(jù)中心來(lái)說(shuō)是個(gè)挑戰(zhàn),。
計(jì)算性能挑戰(zhàn)與數(shù)據(jù)中心變革
眾所周知,,傳統(tǒng)數(shù)據(jù)中心基于馮·諾依曼架構(gòu),在計(jì)算過(guò)程中要用到的所有數(shù)據(jù)都需要傳送到GPU或CPU上,,并由這個(gè)GPU或CPU來(lái)計(jì)算,。在以前計(jì)算規(guī)模、數(shù)據(jù)量沒(méi)有那么大的時(shí)候,,馮·諾依曼架構(gòu)很好地解決了提高計(jì)算性能的問(wèn)題,。
但如今,巨量數(shù)據(jù)在網(wǎng)絡(luò)通信過(guò)程中,,常常會(huì)受到通信模型的制約,,以至于影響到整個(gè)系統(tǒng)性能的發(fā)展。比如,在通信過(guò)程中,,要出現(xiàn)Allreduce,、Barrier這樣的多打一的通信情況時(shí),用傳統(tǒng)的馮·諾依曼架構(gòu)的計(jì)算模型就會(huì)造成網(wǎng)絡(luò)擁塞,。這給數(shù)據(jù)中心性能提升提出了新的挑戰(zhàn),。
從傳統(tǒng)的馮·諾依曼架構(gòu)數(shù)據(jù)中心向以數(shù)據(jù)為中心的架構(gòu)轉(zhuǎn)型,成為數(shù)據(jù)中心正在發(fā)生的大變革,。
網(wǎng)絡(luò)計(jì)算成為現(xiàn)在以數(shù)據(jù)為中心的核心計(jì)算架構(gòu)的關(guān)鍵技術(shù)之一,。“網(wǎng)絡(luò)計(jì)算以數(shù)據(jù)為中心的新的架構(gòu),幫我們解決了這個(gè)問(wèn)題,。以數(shù)據(jù)為中心的新的架構(gòu)意味著--數(shù)據(jù)在哪里,,計(jì)算就在那里。”NVIDIA網(wǎng)絡(luò)事業(yè)部亞太區(qū)市場(chǎng)開(kāi)發(fā)高級(jí)總監(jiān)宋慶春說(shuō),,“當(dāng)數(shù)據(jù)在GPU上,,計(jì)算就在GPU上;當(dāng)數(shù)據(jù)在CPU上,,計(jì)算就在CPU上,;當(dāng)數(shù)據(jù)在網(wǎng)絡(luò)中傳輸?shù)臅r(shí)候,計(jì)算就在網(wǎng)絡(luò)中,。”通過(guò)這樣的方式就可以把解決網(wǎng)絡(luò)傳輸中多打一的瓶頸問(wèn)題或丟包問(wèn)題,。典型通信延時(shí)可以從30-40微秒降低到3-4秒,性能提升10倍以上,。
DPU能帶來(lái)什么,?
DPU的出現(xiàn)為以數(shù)據(jù)為中心的計(jì)算架構(gòu)提供了創(chuàng)新思路。今年4月,,NVIDIA發(fā)布了新一代數(shù)據(jù)處理器NVIDIA BlueField-3 DPU,,旨在為數(shù)據(jù)中心提供強(qiáng)大的軟件定義網(wǎng)絡(luò)、存儲(chǔ)和網(wǎng)絡(luò)安全加速功能,。
NVIDIA創(chuàng)始人兼首席執(zhí)行官黃仁勛在GPU技術(shù)大會(huì)上就曾表示: “現(xiàn)代超大規(guī)模云技術(shù)推動(dòng)數(shù)據(jù)中心從基礎(chǔ)上走向了新的架構(gòu), 利用一種專門(mén)針對(duì)數(shù)據(jù)中心基礎(chǔ)架構(gòu)軟件而設(shè)計(jì)的新型處理器, 來(lái)卸載和加速由虛擬化,、網(wǎng)絡(luò)、存儲(chǔ),、安全和其它云原生AI服務(wù)產(chǎn)生的巨大計(jì)算負(fù)荷,。BlueField DPU正是為此而生。”
BlueField-3 DPU可以從業(yè)務(wù)應(yīng)用中將數(shù)據(jù)中心的基礎(chǔ)設(shè)施服務(wù)卸載和隔離出來(lái),,一個(gè)BlueField-3 DPU所提供的數(shù)據(jù)中心基礎(chǔ)設(shè)施服務(wù)可相當(dāng)于多達(dá)300個(gè)CPU核才能實(shí)現(xiàn)的服務(wù),,從而釋放寶貴的CPU資源來(lái)運(yùn)行關(guān)鍵業(yè)務(wù)應(yīng)用。
DPU能針對(duì)安全,、網(wǎng)絡(luò),、存儲(chǔ),、AI、HPC等業(yè)務(wù)進(jìn)行加速,,這是DPU的第一層價(jià)值,。而DPU的第二層價(jià)值在于為以數(shù)據(jù)為中心的計(jì)算架構(gòu)提供了創(chuàng)新的思路,能夠?qū)崿F(xiàn)以前難以或無(wú)法實(shí)現(xiàn)的功能,。
之前在以CPU為主體的系統(tǒng)里,,所有的操作都通過(guò)CPU來(lái)實(shí)現(xiàn)計(jì)算性能。以O(shè)VS Open vSwitch,,(分布式虛擬多層交換機(jī)的開(kāi)源實(shí)現(xiàn))操作為例,,用CPU跑OVS的時(shí)候,它長(zhǎng)尾延遲會(huì)非常長(zhǎng),,而很多工作性能的好壞取決于最后一個(gè)包的到達(dá)時(shí)間,,在CPU上運(yùn)行OVS會(huì)消耗很多核,但包轉(zhuǎn)發(fā)的效率卻非常低,,長(zhǎng)尾延時(shí)成為業(yè)務(wù)性能非常大的瓶頸,。如果把OVS操作放在DPU上,則可以大幅提升包轉(zhuǎn)發(fā)率,。此外,,把OVS放到了DPU上運(yùn)行,還可以實(shí)現(xiàn)OVS和CPU業(yè)務(wù)之間的隔離,,讓業(yè)務(wù)和OVS運(yùn)行在兩個(gè)獨(dú)立的平面上,,這樣就可以來(lái)把業(yè)務(wù)的長(zhǎng)尾延遲大大降低了。
離不開(kāi)的DOCA
其實(shí)在去年的GTC上,,NVIDIA和VMWare就宣布了共同開(kāi)發(fā)Monterey項(xiàng)目。這是在云場(chǎng)景下,, VMWare把它在Hypervisor里的一些功能卸載到DPU上,,比如防火墻、存儲(chǔ),、管理等,,通過(guò)把業(yè)務(wù)和基礎(chǔ)設(shè)施操作完全隔離,實(shí)現(xiàn)了高安全性,,也實(shí)現(xiàn)了裸金屬的業(yè)務(wù)性能,。
另一個(gè)例子是英偉達(dá)與RedHat的合作。RedHat不管在數(shù)據(jù)中心運(yùn)行容器還是虛擬化環(huán)境里,,即便使用所有的CPU核來(lái)運(yùn)行虛擬化或容器,,也沒(méi)有辦法達(dá)到100G線速。這時(shí),,采用DPU運(yùn)行Hypervisor,、OVS或容器操作,可以在不消耗任何CPU的情況下以實(shí)現(xiàn)100G甚至200G全線速,并將CPU資源全部提供給業(yè)務(wù),。
DOCA 是專門(mén)為DPU開(kāi)發(fā)的軟件包,,它的價(jià)值就像CUDA之于GPU一樣--通過(guò)CUDA可以看到所有GPU的開(kāi)發(fā)接口,可以對(duì)它做編程,;DOCA通過(guò)軟件定義,,可以調(diào)用DPU里的硬件引擎,實(shí)現(xiàn)安全,、網(wǎng)絡(luò),、存儲(chǔ)等性能的提升。
“最開(kāi)始選擇DPU,,是因?yàn)橛龅搅藗鹘y(tǒng)服務(wù)器帶寬瓶頸,,我們想解決網(wǎng)絡(luò)性能瓶頸的問(wèn)題,也想降低成本,。”UCloud技術(shù)專家馬彥青表示,。
此前,UCloud網(wǎng)絡(luò)架構(gòu)使用的是VPC網(wǎng)關(guān),,作為裸金屬服務(wù)器之間的VPC之間劃分的方法,,需要很多網(wǎng)關(guān)服務(wù)器集群來(lái)進(jìn)行管理,當(dāng)跨網(wǎng)關(guān)的時(shí)候會(huì)有帶寬瓶頸,,這就意味著,,集群服務(wù)器本身就帶來(lái)了成本挑戰(zhàn)。馬彥青表示,,DPU可以將VPC管理集成到DPU內(nèi)部,,包括OVS包轉(zhuǎn)發(fā)以及GRE封裝都可以通過(guò)DPU硬件實(shí)現(xiàn),大幅提高轉(zhuǎn)發(fā)效率,,原來(lái)10G的網(wǎng)卡升級(jí)到25G后,,性能也大大提升。
“當(dāng)用了DPU+DOCA以后,,你可以很容易在CPU消耗是零的情況下,,達(dá)到400G的線速。”宋慶春說(shuō),。
DPU的出現(xiàn)并非要替代CPU和GPU,,而是更好地滿足數(shù)據(jù)中心市場(chǎng)的需求。“3U(CPU,、GPU,、DPU)一體的架構(gòu)將會(huì)讓管理程序、調(diào)度程序都會(huì)變得非常容易,。3U一體是要實(shí)現(xiàn)從邊緣到核心數(shù)據(jù)中心,,統(tǒng)一架構(gòu),、統(tǒng)一管理、統(tǒng)一調(diào)度,。”宋慶春說(shuō),。

- 上一篇
數(shù)據(jù)中心失火引發(fā)災(zāi)難性后果 機(jī)房消防難題如何解,?
數(shù)據(jù)中心失火,,數(shù)百萬(wàn)網(wǎng)站被一鍋端2021年3月,歐洲云計(jì)算巨頭OVH位于法國(guó)斯特拉斯堡的機(jī)房發(fā)生嚴(yán)重火災(zāi),,這場(chǎng)大火徹底摧毀了五層高,、占地 500 平方米的 SBG2 數(shù)據(jù)中心,并導(dǎo)致相鄰
- 下一篇
AI 解決數(shù)據(jù)中心的工作負(fù)載管理挑戰(zhàn)
隨著數(shù)據(jù)中心的工作量螺旋式上升,,越來(lái)越多的企業(yè)開(kāi)始關(guān)注人工智能(AI),,希望通過(guò)技術(shù)幫助它們減輕IT團(tuán)隊(duì)的管理負(fù)擔(dān),同時(shí)提高效率和削減開(kāi)支,。人工智能承諾將工作負(fù)載實(shí)時(shí)自動(dòng)移
資訊推薦
- 阿里發(fā)布自研5nmCPU芯片 將在云數(shù)據(jù)中心部署
- 預(yù)算2.4億元!粵港澳大灣區(qū)大數(shù)據(jù)中心項(xiàng)目招標(biāo)
- 數(shù)據(jù)中心余熱回收—變“廢熱”為“負(fù)碳”
- 數(shù)據(jù)中心迎來(lái)低碳變革 如何擺脫高能耗限制,?
- 數(shù)據(jù)中心供應(yīng)鏈之爭(zhēng)
- 華為周躍峰談新型數(shù)據(jù)中心:新存儲(chǔ)發(fā)展是新型數(shù)據(jù)中心建
- 數(shù)據(jù)中心高質(zhì)量發(fā)展 “三高”特性讓整機(jī)柜成為未來(lái)主
- HDD硬盤(pán)在數(shù)據(jù)中心的持續(xù)價(jià)值
- 2022年塑造數(shù)據(jù)中心行業(yè)的五種趨勢(shì)
- 優(yōu)刻得重兵布局“東數(shù)西算”:青浦?jǐn)?shù)據(jù)中心6月投產(chǎn) 內(nèi)蒙