北京2022年10月26日 /美通社/ -- 從智能網(wǎng)卡的出現(xiàn),到DPU在云基礎(chǔ)設(shè)施領(lǐng)域的興起,其所涉及到的芯片、產(chǎn)品以及云服務(wù)等多個領(lǐng)域的提供商,對于智能網(wǎng)卡的解讀也越加豐富。與此同時,伴隨DPU的不斷迭代升級,進一步引發(fā)了整個產(chǎn)業(yè)對于IT基礎(chǔ)架構(gòu)體系未來演進方向的熱烈探討。
在由高效能服務(wù)器和存儲技術(shù)國家重點實驗室與開放計算中國社區(qū)聯(lián)合主辦的"第六期開放計算技術(shù)沙龍:網(wǎng)絡(luò)技術(shù)研究與實踐"線上研討會中,來自阿里云神龍計算平臺、中國電子云、NVIDIA、矩向科技以及網(wǎng)絡(luò)、芯片領(lǐng)域的合作伙伴、專家,圍繞DPU的價值、作用以及未來發(fā)展方向,進行了充分解讀。
DPU 使數(shù)據(jù)中心性能提升 開放全新"視野"
DPU作為數(shù)據(jù)處理單元,它在網(wǎng)絡(luò)計算領(lǐng)域中正扮演著關(guān)鍵角色。借助DPU,傳統(tǒng)通信方式中所存在的網(wǎng)絡(luò)擁塞及主機CPU資源被大量消耗的問題有望得到有效解決。同時,它還能夠有效應(yīng)對多租戶應(yīng)用性能隔離的難題。
NVIDIA網(wǎng)絡(luò)高級總監(jiān)宋慶春介紹到,DPU作為NVIDIA "云原生超級計算架構(gòu)"中的重要一員,使計算平臺、網(wǎng)絡(luò)、存儲均成為計算單元,實現(xiàn)了在一個數(shù)據(jù)中心里,數(shù)據(jù)在哪里,計算就在哪里。如此也就實現(xiàn)了在一個統(tǒng)一的架構(gòu)下面,無論是像AI訓(xùn)練這樣的大規(guī)模應(yīng)用,還是非常小的一些基于VM實現(xiàn)的應(yīng)用,租戶都可以使其性能達(dá)到最大化。
宋慶春通過一組數(shù)據(jù),展現(xiàn)了DPU給用戶所帶來的收益。iAlltoall是HPC、AI應(yīng)用過程中會經(jīng)常采用的一種通信模型,通過用DPU和CPU實現(xiàn)計算通信Overlap,讓iAlltoall性能得到44%提升。iAllgather是AI大規(guī)模模型訓(xùn)練過程中會使用的一個通信模型,通過DPU和CPU計算通信的Overlap,能夠讓iAllgather性能提升36%。
面對DPU在超大規(guī)模云數(shù)據(jù)中心領(lǐng)域被逐漸廣泛接受的現(xiàn)狀,矩向科技創(chuàng)始人黃朝波指出當(dāng)下的DPU演進還在持續(xù)當(dāng)中。黃朝波認(rèn)為,伴隨著Chiplet等技術(shù)的成熟,在邊緣計算和企業(yè)云等規(guī)模更大、計算負(fù)載輕量的一些場景中,CPU、GPU和DPU會融合成一顆芯片,市場上將會出現(xiàn)超異構(gòu)處理器——HPU產(chǎn)品。
智能網(wǎng)卡演進 促動數(shù)據(jù)中心體系架構(gòu)創(chuàng)新
面對業(yè)界對于SmartNIC、DPU、IPU抑或是新進"登場"的CIPU的廣泛關(guān)注,中國電子云研發(fā)副總裁劉年超認(rèn)為,智能網(wǎng)卡雖然在命名方式方面缺乏統(tǒng)一的標(biāo)準(zhǔn),但它的出現(xiàn)反映出一種趨勢,以CPU為中心的體系架構(gòu),正在發(fā)生新的變化。
新一代 DPU/IPU 設(shè)備的共同特點是它們采用易于編程的多核CPU、先進的網(wǎng)絡(luò)接口以及一組強大的網(wǎng)絡(luò)、存儲和安全加速器,并可以進行編程以執(zhí)行多個軟件定義的硬件加速功能。劉年超認(rèn)為,這不僅在技術(shù)層面實現(xiàn)了對Host CPU計算性能的卸載,同時對于云服務(wù)商而言,DPU的應(yīng)用能夠讓云服務(wù)商有更多可進行銷售的產(chǎn)品或服務(wù),提升了主機CPU的對外售賣能力。
在大規(guī)模部署過程中,劉年超認(rèn)為,DPU作為一個"小系統(tǒng)",對它的運維和管理也顯得尤為重要。中國電子云通過獨立的BMC,面對不同用戶的實際應(yīng)用場景,均可實現(xiàn)對DPU網(wǎng)卡的直接管理。
在過去5年的DPU研發(fā)迭代過程中,阿里云愈加意識到自身的數(shù)據(jù)中心架構(gòu)正在發(fā)生新的變化。阿里云神龍計算平臺負(fù)責(zé)人蔣林泉認(rèn)為阿里云的新架構(gòu)有可能不再以CPU為核心,它更需要借助以阿里云自主研發(fā)的CIPU(Cloud Infrastructure Processing Unit)為中心,連接起SSD、RDMA,CPU、GPU和其他異構(gòu)計算設(shè)備。這一點已經(jīng)在阿里云自研的云操作系統(tǒng)——飛天的一步步演進過程中得到了驗證。阿里云已經(jīng)認(rèn)識到,當(dāng)初的智能網(wǎng)卡已經(jīng)不再是插在服務(wù)器上的一張網(wǎng)卡。在未來,它的物理形態(tài)很有可能還會發(fā)生變化。
面對智能網(wǎng)卡以及DPU的技術(shù)演進特點,為了確保用戶在智能網(wǎng)卡的應(yīng)用實踐過程中,最大限度降低試錯成本、契合應(yīng)用場景的實際需求,浪潮網(wǎng)絡(luò)在智能網(wǎng)卡解決方案的制定過程中,從軟、硬件層面充分考慮了不同規(guī)模、不同IT技術(shù)能力儲備的企業(yè)用戶需求。
針對IT能力儲備有限的傳統(tǒng)企業(yè),浪潮網(wǎng)絡(luò)提供完備的軟硬件一體化智能網(wǎng)卡方案,為上層應(yīng)用提供標(biāo)準(zhǔn)的計算、存儲、網(wǎng)絡(luò)卸載和加速服務(wù),簡化與主機軟件的集成,幫助客戶快速獲取智能網(wǎng)卡的技術(shù)紅利。從而降低最終用戶在網(wǎng)絡(luò)應(yīng)用開發(fā)和運維管理等方面的技術(shù)門檻。對于大型互聯(lián)網(wǎng)、電信以及金融行業(yè),浪潮網(wǎng)絡(luò)不僅提供了相應(yīng)的技術(shù)支持服務(wù),在產(chǎn)品線上也提供了業(yè)界領(lǐng)先,具備集成2個25GE或1個100GE以太網(wǎng)口,與主機端實現(xiàn)PCIe 4.0高速連接的N20X智能網(wǎng)卡。
浪潮網(wǎng)絡(luò)智能網(wǎng)卡具備三大性能優(yōu)勢:
與此同時,智能網(wǎng)卡的應(yīng)用需求正在從超算平臺、超大規(guī)模數(shù)據(jù)中心,逐漸向邊緣數(shù)據(jù)中心滲透。這種趨勢更加凸顯出云邊協(xié)同對于構(gòu)建開放網(wǎng)絡(luò)的重要性。浪潮網(wǎng)絡(luò)所打造的云邊協(xié)同智慧聯(lián)接架構(gòu),在云中心側(cè)以領(lǐng)先的開放網(wǎng)絡(luò)平臺為核心,打造高性能、低成本、彈性可擴展的解決方案,使新業(yè)務(wù)上線時間縮短20%,提升排障效率30%,實現(xiàn)秒級網(wǎng)絡(luò)業(yè)務(wù)調(diào)整,滿足云業(yè)務(wù)彈性、敏捷擴展的需求。在邊緣側(cè),浪潮網(wǎng)絡(luò)通過新一代邊緣網(wǎng)絡(luò)平臺,融合傳統(tǒng)有線、無線網(wǎng)絡(luò),以及Zigbee、LoRa等終端網(wǎng)絡(luò),打造低延遲、實時可靠的邊緣網(wǎng)絡(luò),實現(xiàn)網(wǎng)絡(luò)的智能可視化調(diào)度,將網(wǎng)絡(luò)傳輸力提升27%、算力利用率提升30%。目前,浪潮網(wǎng)絡(luò)的云邊協(xié)同智慧聯(lián)接架構(gòu)已在政府、教育、醫(yī)療、制造等諸多行業(yè)得到廣泛部署和應(yīng)用。
對于智能網(wǎng)卡、DPU技術(shù)及產(chǎn)品的長期研發(fā)、推廣,體現(xiàn)出浪潮網(wǎng)絡(luò)以產(chǎn)品創(chuàng)新為引擎的技術(shù)實力。浪潮網(wǎng)絡(luò)通過云邊協(xié)同的智慧網(wǎng)絡(luò),實現(xiàn)云、邊、端的智慧聯(lián)接、資源調(diào)度,為數(shù)據(jù)賦能,推動行業(yè)的數(shù)字化、智能化發(fā)展。