北京2023年9月27日 /美通社/ -- 黃金比例是數(shù)學上一種堪稱"完美"的比例關系,最早由歐幾里得在《幾何原本》中進行了系統(tǒng)論述。之后,黃金比例的理念被廣泛應用到數(shù)學、物理、建筑、農(nóng)業(yè)等多個領域,代表著最合理、最協(xié)調(diào)的一種情況或者狀態(tài)。
在數(shù)據(jù)中心領域,相關資源的合理配比愈發(fā)受到用戶們的關注。尤其是隨著大模型和生成式AI應用的興起,對于算力、存力等需求迅速提升,越來越多數(shù)據(jù)中心用戶意識到數(shù)據(jù)中心資源需要平衡配置和協(xié)調(diào)發(fā)展,才能充分發(fā)揮其能力與價值。
今年以來,產(chǎn)業(yè)界多次呼吁AI時代的數(shù)據(jù)中心建設不能走向偏科,算力與存力的建設同等重要。正如浪潮信息存儲產(chǎn)品線副總經(jīng)理劉希猛所言:"當前,生成式AI時代的‘百模爭秀'格局初現(xiàn),AI大模型的建設不僅要有算力底座,更要有存力平臺。將數(shù)據(jù)中心的計算、全閃存儲、混閃存儲按照1:1:1黃金比例建設,用戶可最大化獲得投資回報比。"
數(shù)據(jù)中心不能"偏科"
Gartner預測,到2023年將有20%的內(nèi)容被AIGC所創(chuàng)建;到2025 年人工智能生成數(shù)據(jù)占比將達到10%。不可否認,生成式AI、大模型正在成為數(shù)據(jù)中心基礎設施發(fā)展最大的牽引力??梢灶A見,由AIGC和大模型帶來的基礎設施投入在未來會持續(xù)增長。
但從目前真實情況看,數(shù)據(jù)中心的建設是"偏科"和"失衡"的。出于各種原因,"重算力、輕存力"的現(xiàn)象較為明顯,大部分用戶非??粗谿PU等算力產(chǎn)品的部署,卻忽視了存力建設的重要性,更缺少對于數(shù)據(jù)中心整體資源的規(guī)劃與匹配。
眾所周知,大模型應用的核心是高質(zhì)量數(shù)據(jù),數(shù)據(jù)的質(zhì)量又決定著算法的性能、泛化能力和應用效果,而高質(zhì)量數(shù)據(jù)的得到又與存力息息相關,圍繞數(shù)據(jù)的"傳輸、存儲、分析、管理、安全"等環(huán)節(jié),存力是釋放數(shù)據(jù)價值必不可少的關鍵因素。
事實上,大模型發(fā)展到今天,已經(jīng)屬于一個大規(guī)模、高質(zhì)量數(shù)據(jù)和數(shù)據(jù)高效處理的工程難題。隨著大模型逐漸向多模態(tài)的方向演進,意味著除了持續(xù)的算力需求之外,對于數(shù)據(jù)存儲的容量、性能、多協(xié)議支持、可靠性、數(shù)據(jù)管理等帶來前所未有的變化。
例如,大模型多元異構(gòu)數(shù)據(jù)的歸集、標注、訓練、推理和歸檔均需要極高的效率來移動數(shù)據(jù),這意味著支持異構(gòu)數(shù)據(jù)的多協(xié)議融合將是解決大模型數(shù)據(jù)移動與處理效率的關鍵所在;又如,AIGC應用會產(chǎn)生大量推理需求,隨之而來的就是大規(guī)模的并行處理和復雜IO,對數(shù)據(jù)存儲性能要求極高;再如,大模型訓練動輒需要調(diào)用成百上千快GPU卡,并且存在著不同的CheckPoint,對于存儲的穩(wěn)定可靠要求越來越高。
劉希猛直言,數(shù)據(jù)存儲與管理在AIGC時代承擔著兩個重要責任:其一、支撐起海量多元異構(gòu)數(shù)據(jù)的全生命周期管理工作;其二、承載起AIGC數(shù)據(jù)訓練、推理對于性能、延時、容量、擴展性等各種嚴苛需求。
對于用戶而言,除了需要重視存力建設之外,一個不容忽視的現(xiàn)實挑戰(zhàn)即:數(shù)據(jù)中心的算力、存力資源比例到底應該如何配置才算最佳?為此,浪潮信息帶來了它的答案:從數(shù)據(jù)容量、帶寬、訪問頻率以及成本等多個因素綜合考量,未來數(shù)據(jù)中心在實踐中需要形成算力、閃存和混閃的1:1:1黃金比例,以滿足AIGC、大模型等人工智能應用的需求。
黃金比例是如何得出的?
相比于歐美成熟市場,我國存力的發(fā)展一直滯后于算力。這從我國數(shù)據(jù)中心全閃存普及率較低、容災保護建設力度較弱等方面可見一斑。
隨著AIGC時代的到來,這種滯后的現(xiàn)象更加明顯與突出。面對AIGC迅猛的算力需求,很多用戶從一開始就"走一步看一步",往往是先購買算力,使用過程中發(fā)現(xiàn)存力跟不上,再去著手配置相應的存力,缺乏數(shù)據(jù)中心資源整體規(guī)劃,建設方式明顯落伍。
某種程度而言,我國通過普及和推廣數(shù)據(jù)中心算力、閃存和混閃的1:1:1黃金比例既能讓用戶在基礎設施層面更好地支撐起AIGC領域的創(chuàng)新,又可推動我國數(shù)據(jù)中心存力建設,實現(xiàn)數(shù)據(jù)中心整體資源配置和利用水平的提升。
但數(shù)據(jù)中心資源配置的黃金比例為什么會是"1個GPU節(jié)點,對應1個全閃存儲、對應1個混閃存儲" ?浪潮信息之所以會提出算力、閃存和混閃的1:1:1黃金比例,主要來自兩個方面的核心原因:
首先,黃金比例源自于浪潮信息較早就涉足大模型的實踐。早在2021年,浪潮信息就發(fā)布了源1.0中文大模型,當時該模型參數(shù)就高達2457億個,訓練文本數(shù)據(jù)量高達50TB,在這些年的大模型訓練、推理實踐中,浪潮信息自身的基礎設施產(chǎn)品起到了關鍵的支撐作用;同時,浪潮信息也深刻感受到數(shù)據(jù)中心算力、存力的合理配置,對于發(fā)展大模型的重要性。
例如,在大模型訓練與推理場景中,數(shù)據(jù)存儲最大的挑戰(zhàn)就是如何將不同數(shù)據(jù)源源不斷傳輸?shù)紺PU和GPU,因此對于數(shù)據(jù)處理性能、如何與GPU配合等考驗極大。"對于源1.0的實踐是浪潮信息存儲產(chǎn)品的先天優(yōu)勢。市場中很少有企業(yè)能搭建一套大規(guī)模集群來進行支撐大模型的應用。"浪潮分布式存儲產(chǎn)品線總經(jīng)理姜樂果如是說。
其次,作為國內(nèi)領先的企業(yè)級存儲廠商,浪潮信息對于閃存、混閃等相關存力技術的未來發(fā)展有著深刻洞察,加上浪潮信息相關存儲解決方案已經(jīng)在國內(nèi)多家AIGC企業(yè)中成功應用,對于AIGC時代數(shù)據(jù)中心的整體建設已經(jīng)積累了較多實踐。
"浪潮信息在閃存領域具有全棧技術創(chuàng)新能力,從底層SSD的控制器到存儲系統(tǒng)軟硬件,再到上層應用,實現(xiàn)盤控協(xié)同,以及數(shù)據(jù)全鏈路的優(yōu)化,有利于像AIGC這類應用充分釋放數(shù)據(jù)的價值。"劉希猛補充道。
事實上,考慮到市場內(nèi)外部環(huán)境與因素,未來算力市場GPU緊缺的情況還將持續(xù)很長一段時間,這也讓算力、閃存和混閃的1:1:1黃金比例具有非常強的實踐意義。在算力緊缺的情況下,同等算力配置下,以存強算,通過算力與存力的合理配置,可以充分發(fā)揮基礎設施整體資源的價值。
為了進一步推動黃金比例在數(shù)據(jù)中心領域的推廣,浪潮信息近期又正式推出針對大模型應用存儲系統(tǒng):AS 15000G7,以幫助用戶從復雜的基礎設施中解脫出來,全力投入到AIGC創(chuàng)新之中。
AS 15000G7,讓黃金比例落在實處
可以說,黃金比例的普及,存儲系統(tǒng)是關鍵。
眾所周知,近年來隨著閃存介質(zhì)容量的持續(xù)提升以及價格的不斷下降,為存力在國內(nèi)的發(fā)展創(chuàng)造了極好的條件。毫無疑問,AIGC的興起,將進一步驅(qū)動全閃、混閃等存儲產(chǎn)品加速創(chuàng)新。
"AIGC類應用帶來了對容量、性能、功能等需求的全面提升。"姜樂果介紹道,"存儲系統(tǒng)不僅需要進行全新組合與設計,進而滿足AIGC類應用的數(shù)據(jù)存儲需求,還要避免傳統(tǒng)存儲方案的復雜性和低效率。"
因此,浪潮信息面向AIGC應用場景打造出AS 15000G7,通過極致性能、極致管理、極致融合和極致效率來滿足用戶們對于大模型訓練的數(shù)據(jù)存儲在性能、管理、融合和效率方面的綜合需求,助力AIGC在各個行業(yè)的落地,并加速釋放數(shù)據(jù)價值。
首先,針對大模型高并發(fā)、復雜IO等特征,AS 15000G7從架構(gòu)、硬件、關鍵技術、IO路徑優(yōu)化等多個方面為AIGC帶來了極致性能,為大模型的訓練等帶來性能保障。具體來看,AS 15000G7通過GDS、RDMA技術縮短I/O路徑,并且利用智能元數(shù)據(jù)管理顯著提升數(shù)據(jù)訪問和檢索速度;另外,獨有的智能網(wǎng)絡優(yōu)化技術實現(xiàn)提升網(wǎng)絡端口并發(fā)能力,時延縮短50%以上,尤其是小文件級傳輸?shù)臅r延可降至毫秒級。
其次,針對大模型訓練流程管理,AS 15000G7提供全流程透明可控的極致管理。AS 15000G7可同時搭載AIStation調(diào)度平臺和InView數(shù)據(jù)管理平臺,對AI服務器、網(wǎng)絡、存儲等設備進行智能運維,支持訓練推理全流程的多租戶管理、資源分配、數(shù)據(jù)管理分析??梢酝ㄟ^一套存儲實現(xiàn)對AIGC數(shù)據(jù)采集、清洗、訓練、推理、歸檔不同場景全流程的設備資源監(jiān)控和管理。
第三,針對大模型多元異構(gòu)數(shù)據(jù)的歸集、標注、訓練、推理和歸檔,AS 15000G7融合架構(gòu)實現(xiàn)多源異構(gòu)巨量數(shù)據(jù)的極致融合,對文件、對象、大數(shù)據(jù)以及視頻的存儲方式進行并行訪問,支持多協(xié)議實時互訪互通和系統(tǒng)扁平擴展,數(shù)據(jù)訪問過程中保持語義一致、性能無損,從而對AI大模型海量多源異構(gòu)非結(jié)構(gòu)化數(shù)據(jù)實現(xiàn)高效共享。
最后,針對大模型所需要的巨額投入,AS 15000G7可助力用戶實現(xiàn)黃金比例的數(shù)據(jù)中心資源最佳配比,提升投資回報比,帶來極致效率。AS 15000G7根據(jù)閃存、磁盤、磁帶、光盤等不同介質(zhì)分為性能型、均衡型、容量型三種機型,并且基于自動化的數(shù)據(jù)分層和遷移,在應用安全透明的前提下,實現(xiàn)熱溫冷冰數(shù)據(jù)全生命周期的管理,帶來TCO的顯著降低。
毋庸置疑,AIGC的興起標志著人工智能發(fā)展的拐點已至。當下,中國已經(jīng)成為全球AIGC創(chuàng)新與發(fā)展的熱土。不完全統(tǒng)計,當前國內(nèi)大模型數(shù)量已經(jīng)超過200個,不同類型的企業(yè)均在全力推動AIGC、大模型的發(fā)展。如今,人們愈發(fā)意識到"大模型產(chǎn)業(yè)發(fā)展,基礎設施先行"的道理,算力、閃存和混閃的1:1:1黃金比例建設理念出現(xiàn)可謂是恰逢其時,有助于探索AIGC的企業(yè)降低基礎設施復雜度,從而更好地聚焦創(chuàng)新。
"AIGC現(xiàn)在才剛剛起步,未來會持續(xù)帶來對基礎設施的需求。預計到2026年,黃金比例的建設模式有望得到廣泛應用。"劉希猛最后表示道。