OGAI詳解：AIStation調(diào)度平臺(tái)如何實(shí)現(xiàn)大模型高效長(zhǎng)時(shí)間持續(xù)訓(xùn)練

浪潮信息

2023-09-15 14:51 4585

北京2023年9月15日 /美通社/ -- 大模型是當(dāng)前通用人工智能產(chǎn)業(yè)發(fā)展創(chuàng)新的核心技術(shù)，目前國(guó)內(nèi)已發(fā)布的生成式AI模型超過(guò)了100個(gè)。面向以大模型為核心的生成式AI開(kāi)發(fā)與應(yīng)用場(chǎng)景，近日浪潮信息發(fā)布了大模型智算軟件棧OGAI（Open GenAI Infra）——"元腦生智"，為大模型業(yè)務(wù)提供了全棧全流程的智算軟件棧，包括AI算力系統(tǒng)環(huán)境部署、算力調(diào)度保障、模型開(kāi)發(fā)管理等。OGAI軟件棧由5層架構(gòu)組成，從L0到L4分別對(duì)應(yīng)于基礎(chǔ)設(shè)施層的智算中心OS產(chǎn)品、系統(tǒng)環(huán)境層的PODsys產(chǎn)品、調(diào)度平臺(tái)層的AIStation產(chǎn)品、模型工具層的YLink產(chǎn)品和多模納管層的MModel產(chǎn)品。

其中L2層AIStation是面向大模型開(kāi)發(fā)的AI算力調(diào)度平臺(tái)，AIStation針對(duì)大模型訓(xùn)練中的資源使用與調(diào)度、訓(xùn)練流程與保障、算法與應(yīng)用管理等方面進(jìn)行了系統(tǒng)性?xún)?yōu)化，具備大模型斷點(diǎn)續(xù)訓(xùn)能力，保證長(zhǎng)時(shí)間持續(xù)訓(xùn)練。AIStation支撐浪潮信息"源"大模型的訓(xùn)練算力效率達(dá)到44.8%。某大型商業(yè)銀行基于AIStation打造的大規(guī)模并行運(yùn)算集群，幫助其充分發(fā)掘計(jì)算潛能進(jìn)行大模型訓(xùn)練，并榮獲2022 IDC"未來(lái)數(shù)字基礎(chǔ)架構(gòu)領(lǐng)軍者"獎(jiǎng)項(xiàng)。

本文將重點(diǎn)討論大模型訓(xùn)練面臨的挑戰(zhàn)、AIStation如何提升大模型訓(xùn)練效率，以及取得的效果。

一、大模型訓(xùn)練面臨巨大挑戰(zhàn)

1.大模型訓(xùn)練巨大算力成本和算力利用難題

大模型訓(xùn)練要面對(duì)的首要挑戰(zhàn)就是海量數(shù)據(jù)和計(jì)算量，算力開(kāi)銷(xiāo)巨大，如GPT-3是在10000個(gè)GPU上訓(xùn)練得到的，"源1.0"模型是在2128個(gè)GPU上通過(guò)AIStation平臺(tái)完成1800億tokens的訓(xùn)練，訓(xùn)練一個(gè)萬(wàn)億token的700億參數(shù)模型將花費(fèi)上百萬(wàn)美元。但計(jì)算平臺(tái)的性能通常不能隨著算力線(xiàn)性增長(zhǎng)，而是會(huì)出現(xiàn)耗損，因此大模型訓(xùn)練還需要高效的算力調(diào)度來(lái)發(fā)揮算力平臺(tái)的效能。而這不僅需要依賴(lài)算法、框架的優(yōu)化，還需要借助高效的算力調(diào)度平臺(tái)，以根據(jù)算力集群的硬件特點(diǎn)和計(jì)算負(fù)載特性實(shí)現(xiàn)最優(yōu)化的算力調(diào)度，整體提高算力利用率和訓(xùn)練效率。

2.耗時(shí)且維護(hù)復(fù)雜的多種網(wǎng)絡(luò)兼容適配

大模型訓(xùn)練過(guò)程中，成千上萬(wàn)顆GPU會(huì)在節(jié)點(diǎn)內(nèi)和節(jié)點(diǎn)間不斷地進(jìn)行通信。為了獲得最優(yōu)的訓(xùn)練效果，單臺(tái)GPU服務(wù)器會(huì)搭載多張InfiniBand、ROCE等高性能網(wǎng)卡，為節(jié)點(diǎn)間通信提供高吞吐、低時(shí)延的服務(wù)。但不同的網(wǎng)絡(luò)方案各有優(yōu)劣，InfiniBand因性能優(yōu)異已被公認(rèn)為大模型訓(xùn)練的首選，但其成本較高；RoCE雖然成本較低，但在大規(guī)模的網(wǎng)絡(luò)環(huán)境下，其性能和穩(wěn)定性不如InfiniBand方案。因此要想滿(mǎn)足大模型訓(xùn)練對(duì)通信的要求，就要對(duì)集群網(wǎng)絡(luò)中的通信設(shè)備適配使用和網(wǎng)絡(luò)情況進(jìn)行探索和設(shè)計(jì)。

3.不穩(wěn)定的大模型訓(xùn)練和高門(mén)檻的系統(tǒng)級(jí)別優(yōu)化

大模型訓(xùn)練過(guò)程比傳統(tǒng)的分布式訓(xùn)練復(fù)雜，訓(xùn)練周期長(zhǎng)達(dá)數(shù)月。集群計(jì)算效力低、故障頻發(fā)且處理復(fù)雜，會(huì)導(dǎo)致訓(xùn)練中斷后不能及時(shí)恢復(fù)，從而會(huì)降低大模型訓(xùn)練的成功概率，也會(huì)使得大模型訓(xùn)練成本居高不下。因此，大模型對(duì)訓(xùn)練的穩(wěn)定性、故障檢測(cè)與訓(xùn)練容錯(cuò)提出了更高的要求。同時(shí)簡(jiǎn)化大模型分布式任務(wù)提交、實(shí)現(xiàn)智能與自動(dòng)化的任務(wù)資源匹配和訓(xùn)練健壯性也是提升訓(xùn)練效率的重要保證。

Meta在訓(xùn)練模型體量與GPT3規(guī)模相當(dāng)?shù)腛pen Pre-trained Transformer (OPT)-175B時(shí)，遇到的一大工程問(wèn)題就是訓(xùn)練不穩(wěn)定。如下圖所示，可以看到有許多訓(xùn)練停止的時(shí)間節(jié)點(diǎn)，原因有GPU掉卡、GPU性能異常導(dǎo)致訓(xùn)練意外中斷等。訓(xùn)練穩(wěn)定性和有效的斷點(diǎn)續(xù)訓(xùn)是目前大模型訓(xùn)練中亟待解決的問(wèn)題。

總之，在超大規(guī)模分布式環(huán)境下開(kāi)展大模型訓(xùn)練，如果想要縮短訓(xùn)練周期、降低訓(xùn)練成本，就需要解決算力調(diào)度、網(wǎng)絡(luò)通信、訓(xùn)練穩(wěn)定性等各種挑戰(zhàn)。不僅要靈活、充分地利用集群內(nèi)的所有資源，通過(guò)多種手段優(yōu)化數(shù)據(jù)使用、通訊，還要及時(shí)處理大規(guī)模計(jì)算集群的異常。

二、AIStation全流程簡(jiǎn)化和提速大模型訓(xùn)練

浪潮信息AIStation提供了系統(tǒng)性軟硬一體優(yōu)化的平臺(tái)與軟件棧能力，來(lái)保障大模型的訓(xùn)練需求。AIStation平臺(tái)從資源使用與調(diào)度、訓(xùn)練流程與保障、算法與應(yīng)用等角度進(jìn)行了系統(tǒng)性的優(yōu)化，實(shí)現(xiàn)了對(duì)大模型訓(xùn)練的端到端優(yōu)化和加速。

AIStation全面支撐與保障大模型業(yè)務(wù)

1. 毫秒級(jí)調(diào)度，高效使用大規(guī)模算力，解決算力利用低難題

AIStation在大模型訓(xùn)練實(shí)踐中，針對(duì)云原生調(diào)度系統(tǒng)性能做了優(yōu)化，實(shí)現(xiàn)了上千POD極速啟動(dòng)和環(huán)境就緒。如下表所示，AIStation調(diào)度器與原生社區(qū)版相比，能大幅提升大規(guī)模POD任務(wù)的調(diào)度性能，尤其能保證大模型訓(xùn)練的計(jì)算資源的調(diào)度使用。

表1 大規(guī)模POD調(diào)度任務(wù)性能對(duì)比

	社區(qū)調(diào)度器	AIStation調(diào)度器	效果對(duì)比
1000 pod 吞吐量	4.97 (pods/s)	26.31 (pods/s)	POD吞吐量提升5倍
1000 pod調(diào)度時(shí)延/500節(jié)點(diǎn)	100346 ms	18523 ms	時(shí)延下降5倍

此外，AIStation平臺(tái)能夠支持大模型特有的開(kāi)發(fā)模式，提供多種尺度作業(yè)資源使用方式，包括小尺度資源調(diào)度，大尺度資源調(diào)度、高性能調(diào)度等。算力調(diào)度器通過(guò)動(dòng)態(tài)、智能地管理和調(diào)配集群計(jì)算資源，制定合理的作業(yè)執(zhí)行計(jì)劃，以最大限度地利用資源，滿(mǎn)足各類(lèi)訓(xùn)練任務(wù)的時(shí)延和吞吐需求，保證作業(yè)高效穩(wěn)定運(yùn)行，實(shí)現(xiàn)算力平臺(tái)高利用率、強(qiáng)擴(kuò)展性、高容錯(cuò)性。

通過(guò)多種資源高效管理和調(diào)度策略，AIStation能實(shí)現(xiàn)毫秒級(jí)調(diào)度，將整體資源利用率提升到70%以上，幫助客戶(hù)更好地利用計(jì)算集群算力，充分發(fā)揮算力價(jià)值。

2.高效網(wǎng)絡(luò)資源管理，多卡加速比達(dá)90%，極致加速訓(xùn)練過(guò)程

AIStation定義了互相獨(dú)立的計(jì)算高性能網(wǎng)絡(luò)、存儲(chǔ)高性能網(wǎng)絡(luò)，并且支持交換機(jī)級(jí)別的資源調(diào)度，減少跨交換機(jī)流量，同時(shí)具備網(wǎng)絡(luò)故障自動(dòng)識(shí)別和處理功能。針對(duì)大模型訓(xùn)練通信要求高的場(chǎng)景，AIStation提供集群拓?fù)涓兄芰?，容器網(wǎng)絡(luò)與集群物理網(wǎng)絡(luò)一致，保證了容器互聯(lián)性能，滿(mǎn)足訓(xùn)練通信要求。分布式通信優(yōu)化結(jié)合集群的InfiniBand或 RoCE高性能網(wǎng)絡(luò)和專(zhuān)門(mén)優(yōu)化的通信拓?fù)?，使得AIStation在千卡規(guī)模集群測(cè)試中，多卡加速比達(dá)到了90%。尤其AIStation對(duì)大規(guī)模RoCE無(wú)損網(wǎng)絡(luò)下的大模型訓(xùn)練也做了相應(yīng)優(yōu)化，實(shí)測(cè)網(wǎng)絡(luò)性能穩(wěn)定性達(dá)到了業(yè)界較高水平。

借助AIStation平臺(tái)，某大型商業(yè)銀行實(shí)現(xiàn)了主流大模型訓(xùn)練框架，如DeepSpeed、Megatron-LM和大語(yǔ)言模型在RoCE網(wǎng)絡(luò)環(huán)境的訓(xùn)練，快速實(shí)現(xiàn)大模型的落地實(shí)踐。

3.大規(guī)模訓(xùn)練系統(tǒng)級(jí)別優(yōu)化，故障處理時(shí)間縮短90%，最大限度降低實(shí)驗(yàn)成本

大模型任務(wù)提交時(shí)，經(jīng)常會(huì)伴隨著大量的環(huán)境配置、依賴(lài)庫(kù)適配和超參數(shù)調(diào)整。AIStation能夠自動(dòng)化配置計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)環(huán)境，同時(shí)對(duì)一些基本的超參數(shù)提供自定義修改，方便用戶(hù)使用，通過(guò)幾步就能啟動(dòng)大模型分布式訓(xùn)練，目前支持諸多大模型訓(xùn)練框架和開(kāi)源方案，如Megatron-LM、DeepSpeed等。

AIStation上快速部署Megatron-LM，提供訓(xùn)練全過(guò)程保障

AIStation在大規(guī)模訓(xùn)練集群上利用自研數(shù)據(jù)緩存系統(tǒng)，提高了訓(xùn)練前、訓(xùn)練中的數(shù)據(jù)讀取速率，大大減少對(duì)存儲(chǔ)系統(tǒng)和網(wǎng)絡(luò)的依賴(lài)。配合優(yōu)化的調(diào)度策略，與直接使用存儲(chǔ)系統(tǒng)相比，可讓模型訓(xùn)練效率獲得200%-300%的提升，硬件性能100%釋放。

健壯性與穩(wěn)定性是高效完成大模型訓(xùn)練的必要條件。AIStation針對(duì)資源故障等集群突發(fā)情況，會(huì)自動(dòng)進(jìn)行容錯(cuò)處理或者執(zhí)行彈性擴(kuò)縮容策略，保證訓(xùn)練任務(wù)中斷后能以最快速度恢復(fù)，為需要長(zhǎng)時(shí)間訓(xùn)練的大模型提供可靠環(huán)境，平均將異常故障處理時(shí)間縮短90%以上。

大規(guī)模預(yù)訓(xùn)練任務(wù)的異常處理和斷點(diǎn)續(xù)訓(xùn)流程

綜上，針對(duì)大規(guī)模分布式計(jì)算，AIStation內(nèi)置分布式訓(xùn)練自適應(yīng)系統(tǒng)，覆蓋訓(xùn)練的全生命周期，滿(mǎn)足了大模型訓(xùn)練的諸多訴求，提供資源使用視圖、計(jì)算與網(wǎng)絡(luò)調(diào)度策略、分布式訓(xùn)練加速、訓(xùn)練監(jiān)控、訓(xùn)練容錯(cuò)與自愈能力，在加速訓(xùn)練的同時(shí)，能夠自動(dòng)定位故障和恢復(fù)任務(wù)，保證了訓(xùn)練的穩(wěn)定性和效率。某銀行客戶(hù)在AIStation智能容錯(cuò)的機(jī)制保障下，在極其嚴(yán)苛的業(yè)務(wù)投產(chǎn)測(cè)試中能夠?qū)崿F(xiàn)快速故障排查和恢復(fù)，大幅降低業(yè)務(wù)投產(chǎn)上線(xiàn)時(shí)間。

三、AIStation助力行業(yè)提升大模型開(kāi)發(fā)效率

AIStation平臺(tái)在AI開(kāi)發(fā)、應(yīng)用部署和大模型工程實(shí)踐上積累了寶貴的經(jīng)驗(yàn)和技術(shù)，幫助諸多行業(yè)客戶(hù)在資源、開(kāi)發(fā)、部署層面實(shí)現(xiàn)降本增效。在垂直行業(yè)領(lǐng)域，AIStation平臺(tái)幫助頭部金融客戶(hù)、生物制藥服務(wù)公司快速利用密集數(shù)據(jù)訓(xùn)練、驗(yàn)證大模型，大大降低大模型業(yè)務(wù)成本。某大型商業(yè)銀行基于AIStation打造的并行運(yùn)算集群，憑借領(lǐng)先的大規(guī)模分布式訓(xùn)練支撐能力，榮獲2022 IDC"未來(lái)數(shù)字基礎(chǔ)架構(gòu)領(lǐng)軍者"獎(jiǎng)項(xiàng)。

浪潮信息AIStation在大模型方面已經(jīng)取得了諸多業(yè)界領(lǐng)先的經(jīng)驗(yàn)和積累，實(shí)現(xiàn)了端到端的優(yōu)化，是更適合大模型時(shí)代的人工智能平臺(tái)。未來(lái)AIStation將與浪潮信息OGAI軟件棧一同進(jìn)化，進(jìn)一步通過(guò)低代碼、標(biāo)準(zhǔn)化的大模型開(kāi)發(fā)流程，以及低成本和高效的推理服務(wù)部署，幫助客戶(hù)快速實(shí)現(xiàn)大模型開(kāi)發(fā)和落地，搶占先機(jī)。

消息來(lái)源：浪潮信息