銀行智算中心部署浪潮AIStation，模型訓練效率提升7倍

浪潮信息

2022-12-30 19:52 5568

北京2022年12月30日 /美通社/ -- 隨著金融數(shù)字化轉型加速推進，銀行需要提供更高質量、更快速的金融服務，對銀行智算中心的能力提出了更高要求和挑戰(zhàn)。多樣化智能計算場景需要多元化的算力供給，如巨量化模型、數(shù)據(jù)和應用規(guī)模需要巨量算力，不同尺度作業(yè)需要靈活且精細化算力管理。隨著計算集群規(guī)模不斷激增，以及異構計算資源、高性能網絡快速發(fā)展，如何滿足不同AI負載針對網絡、存儲、異構算力等需求，是銀行面臨的關鍵問題。

浪潮信息在與某大型國有銀行的合作中發(fā)現(xiàn)，當前銀行智算中心主要支持在線推理服務，應用場景近1000種，但同時缺乏大規(guī)模分布式、大模型訓練算力基礎設施所需的資源管理和開發(fā)平臺，導致某些業(yè)務的模型迭代周期較長。同時由于業(yè)務部門分散，缺乏有效的算力統(tǒng)一管控平臺。

浪潮智能業(yè)務生產創(chuàng)新平臺AIStation通過不斷的技術創(chuàng)新與實踐，將大規(guī)模GPU并行計算優(yōu)化能力與AI算力池化智能化調度結合起來，成功將典型AI模型的訓練周期由1周縮短為1個工作日，支持銀行AI業(yè)務場景快速上線，已在大型國有銀行落地。本文將闡述浪潮如何在具體業(yè)務場景下幫助銀行智算中心快速構建AI生產創(chuàng)新平臺，實現(xiàn)高性能、高可靠、高擴展。

全生命周期管理的AIStation平臺，助力銀行業(yè)務創(chuàng)新

完備的任務全生命周期管理能更好地支持銀行智算中心，幫助開發(fā)者快速使用算力，協(xié)助管理者管好資源，實現(xiàn)業(yè)務快速創(chuàng)新。

AIStation平臺提供了作業(yè)全生命周期管理，能夠讓開發(fā)者跟蹤作業(yè)狀態(tài)、為訓練優(yōu)化提供必要的信息、分析平臺資源使用率狀態(tài)、幫助制定資源使用率提升方案。同時提供完備、高效的異構計算資源管理，從數(shù)據(jù)加速、網絡優(yōu)化、業(yè)務系統(tǒng)無縫對接等維度保障銀行業(yè)務，實現(xiàn)開發(fā)者便捷無感知的開發(fā)模式和管理者高效可控的管理模式。

便捷高效異構計算管理，充分發(fā)掘算力價值

目前異構人工智能芯片發(fā)展迅速，越來越多銀行智算中心正在從傳統(tǒng)架構遷移至異構算力架構，但面臨異構芯片種類多、管理復雜、開發(fā)門檻高等難題。

針對異構算力資源接入與管理，AIStation平臺建立了加速卡管理模型，可以實現(xiàn)零業(yè)務代碼修改和異構算力資源接入、配額管理、算力使用的配置化流程，以及異構加速卡的類型識別、算力識別。同時提供報表統(tǒng)計、監(jiān)控告警功能，使平臺管理員能夠獲取異構算力的健康狀態(tài)及使用情況，可以通過配置化的方式實現(xiàn)異構算力資源的接入和管理。目前，AIStation已經適配了超20款當前市場主流不同架構的加速卡，具有良好的適配性和通用性，能夠充分滿足不同業(yè)務場景對銀行智算中心的算力要求。

鏡像分發(fā)加速，降低分布式任務的環(huán)境準備時間

通常情況下，計算集群在為訓練任務分配了資源后，節(jié)點將準備環(huán)境（如下載作業(yè)鏡像），此時加速卡算力資源處于完全空置狀態(tài)。尤其是分布式作業(yè)涉及多個計算節(jié)點并發(fā)下載鏡像，對鏡像倉庫產生較大壓力，導致鏡像下載較慢甚至失敗，嚴重浪費了算力資源。

AIStation提供了鏡像P2P分發(fā)加速功能，能在無需新增硬件的情況下實現(xiàn)鏡像分發(fā)加速。鏡像倉庫僅提供一次下載帶寬，鏡像加速系統(tǒng)即可在計算節(jié)點緩存鏡像數(shù)據(jù)，并為其他計算節(jié)點的鏡像下載提供數(shù)據(jù)服務，同時提供節(jié)點數(shù)線性相關的鏡像網絡總帶寬，有效降低了分布式任務的環(huán)境準備時間。實測證明可將耗時降低至原來的1/2。

此外，AIStation具有節(jié)點數(shù)據(jù)緩存功能，可以僅進行一次性存儲系統(tǒng)讀取，依靠本地高速磁盤消除網絡傳輸時延，極大提高了存儲IOPS，加速訓練效率，能夠將典型AI模型的訓練周期由1周下降為1個工作日。并且AIStation在緩存機制基礎上提供了緩存生命周期管理，在磁盤使用率不高時盡可能緩存數(shù)據(jù)，同時實現(xiàn)數(shù)據(jù)親和性調度。

大規(guī)模分布式作業(yè)的另一大挑戰(zhàn)是異常故障處理。由于分布式任務使用了更多的資源，因而更容易受到硬件、網絡等故障的影響，進而引發(fā)訓練中斷。一般來說，分布式任務異常處理需要人工介入操作，時效性無法保障，并且還需要一定的人工經驗判斷任務失敗的具體原因和解決方法，對算法人員的要求較高。AIStation平臺提供了完備的故障檢測識別、任務容錯的機制，在故障發(fā)生時能夠識別當前故障類型，對于通過重啟即可恢復的故障（如加速卡故障、網絡故障等），平臺自動觸發(fā)訓練任務的重提。AIStation通過自動化流程，提高了故障處理效率，節(jié)省了集群機時資源，提高了資源利用率。

領先網絡方案，實現(xiàn)GPU資源靈活調度

銀行智算中心網絡構建方案目前有很多，其中RoCE網絡基于以太網協(xié)議實現(xiàn)RDMA，可以復用已有數(shù)據(jù)中心的網絡設備，從而降低集群搭建成本?；赗oCE的網絡方案，需要充分考慮GPU資源的協(xié)調調度，實現(xiàn)物理主機GPU的共享使用，來滿足訓練任務任意GPU數(shù)的需求，同時也需將RDMA網卡透傳到容器內，以滿足跨節(jié)點GPU的RDMA通信需求，但是目前還沒有一個有效的解決方案。

浪潮提出基于RoCE網卡虛擬化和網絡互通性管理相結合的解決方案，實現(xiàn)了在容器云平臺上對RoCE網絡的快速接入適配，同時降低網絡適配難度。方案已部署到某大型國有銀行的實際生產環(huán)境中，幫助客戶解決了GPU資源碎片的問題，實現(xiàn)RoCE網絡下GPU資源靈活調度分配，實際效果超出了客戶預期。

RoCE網卡虛擬化：對于AI訓練網絡，存在多種實現(xiàn)網絡設備共享的方案，例如MacVLAN、Calico、Flannel、SR-IOV等。考慮到RoCEv2實現(xiàn)RDMA通信的機制，我們選擇了SR-IOV技術，通過SR-IOV將宿主機的物理RoCE卡（PF）虛擬化為多個RoCE網卡(VF)，實現(xiàn)了一對多的場景要求。
網絡擁塞控制：基于AI平臺運行訓練任務時，任意節(jié)點GPU都可以與其他節(jié)點GPU進行通訊，這必然會出現(xiàn)網絡流量 “多打一”的場景。為了保證RDMA網絡高帶寬、低延時，必須解決擁塞問題實現(xiàn)無損傳輸。AIStation提供交換機測、宿主機側、容器側的流控管理配置，從而避免網絡擁塞導致訓練性能下降。
網絡互通性管理：目前大部分AI訓練任務都是基于NCCL提供訓練加速，但基于NCCL架構的方案，只會關注本機的GPU與本地RDMA網卡信息，并不會考慮是否與遠端的RDMA網卡能正常通信。RoCEv2是基于UDP協(xié)議實現(xiàn)RDMA通信，此時需要發(fā)送端和接收端的RoCE網卡都能夠正常通信，否則不同節(jié)點GPU無法基于RoCEv2實現(xiàn)RDMA通信。AIStation基于自研的網絡互通性管理功能，保證了集群中任意GPU間互通性。

性能測試表明，在浪潮AIStation平臺容器內基于不同網卡進行通訊時，在不同的數(shù)據(jù)包大小下，性能和時延都沒有損失。針對銀行業(yè)務特點，AIStation測試了大規(guī)模圖像類別訓練任務，采用ResNet50并使用ILSVRC 2012數(shù)據(jù)集測試加速比，結果顯示大規(guī)模分布式訓練的加速比達94%以上，性能優(yōu)異。同時物理主機RDMA網卡能夠透傳到容器并能夠基于RoCEv2完成RDMA通信，在有多個RoCE網卡時，能夠根據(jù)GPU與高性能網卡的拓撲關系、NCCL親和性等選擇最優(yōu)的RoCE網卡進行跨節(jié)點通信。

強大的平臺對接能力，實現(xiàn)用戶業(yè)務無縫對接

銀行業(yè)務具有多樣化和精細化的特點，在進行AI業(yè)務時一般需要多個系統(tǒng)支撐與協(xié)同，包括數(shù)據(jù)采集系統(tǒng)、數(shù)據(jù)處理系統(tǒng)、AI開發(fā)訓練系統(tǒng)、模型管理系統(tǒng)、推理服務系統(tǒng)、運營管理系統(tǒng)等。雖然內部通用平臺能夠把各個系統(tǒng)整合起來，但AI開發(fā)訓練系統(tǒng)中的AI資源管理、AI單機和分布式訓練任務全生命周期管理、異構算力管理等方面能力是欠缺的，很難達到AI業(yè)務需求。

針對銀行內部復雜的系統(tǒng)、業(yè)務流程，AIStation平臺提供了通用的AI業(yè)務調用接口能力，以達到簡化流程和整合能力的目的。同時兼容異構資源任務，讓銀行無需關心底層資源部署和連接情況，把精力放在業(yè)務處理上。AIStation平臺提供了涵蓋任務、數(shù)據(jù)全生命周期管理、集群資源監(jiān)控和報表的全能力域API接口，幫助管理者掌握集群運行情況。同時平臺API管理實現(xiàn)了全程加密傳輸以保證數(shù)據(jù)安全。通過豐富、完備且安全的API接口，AIStation能夠快速與銀行已有系統(tǒng)集成，讓銀行快速擁有專家級AI算力基礎設施管理能力。

總結

浪潮AIStation在某大型國有銀行的實踐中取得了顯著的示范效果。通過以上關鍵技術實現(xiàn)了GPU間通信性能大幅提升，減少節(jié)點間網絡通信開銷，提升整體處理性能，有效降低總能耗。同時可以減少機柜占用，提高集群算力密度，實現(xiàn)基礎資源降本增效。助力構建高性能、高可靠、可擴展的軟硬件系統(tǒng)架構，實現(xiàn)AI訓練場景下算力資源的統(tǒng)一管理與智能化調度。

浪潮AIStation為銀行前沿的大規(guī)模人工智能模型開發(fā)訓練和場景應用打下了堅實的技術基礎。未來，浪潮信息將繼續(xù)通過全棧智算能力賦能金融AI業(yè)務創(chuàng)新，推進金融數(shù)字化轉型和數(shù)字經濟高質量發(fā)展。

消息來源：浪潮信息