CCF-TCIST走進(jìn)浪潮信息共話AI時代存儲創(chuàng)新

浪潮信息

2024-06-07 14:10 5166

CCF信息存儲技術(shù)專委會走進(jìn)浪潮信息共話大模型時代的存儲創(chuàng)新之道

北京2024年6月7日 /美通社/ -- 近日，中國計算機(jī)學(xué)會信息存儲技術(shù)專業(yè)委員會（CCF信息存儲技術(shù)專委會）首場“走進(jìn)企業(yè)”活動啟動，來自CCF信息存儲技術(shù)專委會、清華大學(xué)、北京大學(xué)、華中科技大學(xué)、華東師范大學(xué)、上海交通大學(xué)、上海理工大學(xué)等單位的十余位存儲領(lǐng)域?qū)＜?、學(xué)者走進(jìn)浪潮信息，在“大模型時代數(shù)據(jù)中心存儲技術(shù)創(chuàng)新和應(yīng)用”的會議主題下，分別就“以數(shù)據(jù)為中心的存儲技術(shù)協(xié)同創(chuàng)新”和“大模型新應(yīng)用的存儲技術(shù)挑戰(zhàn)與探索”兩個核心議題，共同探討了在存儲架構(gòu)創(chuàng)新、近數(shù)據(jù)計算、多協(xié)議融合互通、GPU直通存儲、故障預(yù)測等多個領(lǐng)域的前沿技術(shù)創(chuàng)新和產(chǎn)業(yè)洞察。

CCF信息存儲技術(shù)專委會走進(jìn)浪潮信息

“以數(shù)據(jù)為中心”加速到來，存儲架構(gòu)亟待創(chuàng)新

隨著數(shù)字化、智能化的加速發(fā)展，社會產(chǎn)生的數(shù)據(jù)量呈現(xiàn)出爆炸式增長。IDC報告顯示，中國數(shù)據(jù)量規(guī)模將從2022年的23.88ZB增長至2027年的76.6ZB，年均增長速度(CAGR)達(dá)到26.3%，為全球第一。同期，全球數(shù)據(jù)量規(guī)模預(yù)計增長一倍以上，到2027年將達(dá)到284.3ZB，年均增長速度(CAGR)達(dá)到22.6%。當(dāng)數(shù)據(jù)變成重要的生產(chǎn)要素，其價值釋放正加速“以數(shù)據(jù)為中心”的到來，這對存儲架構(gòu)創(chuàng)新提出了新的要求。

浪潮信息存儲產(chǎn)品線首席架構(gòu)師孫斌認(rèn)為，作為數(shù)據(jù)的主要載體，數(shù)據(jù)中心呈現(xiàn)出大型集約化、邊緣分散化的發(fā)展趨勢，未來數(shù)據(jù)中心將實現(xiàn)“人機(jī)物”三元智聯(lián)融合，提供全面服務(wù)且資源利用率趨向最優(yōu)。但是，隨著數(shù)據(jù)中心應(yīng)用多樣化與計算多元化的疊加，亟需一套新型存儲架構(gòu)來實現(xiàn)均衡全能存儲服務(wù)，通過融合軟硬件協(xié)同設(shè)計，實現(xiàn)介質(zhì)、軟件和數(shù)據(jù)的分離，從而可組合可共享，最終靈活支撐全場景綜合負(fù)載。

北京大學(xué)助理教授張杰認(rèn)為，存儲架構(gòu)創(chuàng)新將是一個長期性、持續(xù)性工程，最終是要解決所謂的“存儲墻”問題。以數(shù)據(jù)為中心要求計算圍著數(shù)據(jù)轉(zhuǎn)，以減小數(shù)據(jù)搬運帶來的性能瓶頸以及功耗，但馮·諾依曼架構(gòu)是一個以計算為中心的架構(gòu)，數(shù)據(jù)搬運已然成為當(dāng)下大數(shù)據(jù)、大規(guī)模應(yīng)用所面臨的最大的問題。

華中科技大學(xué)的劉海坤教授提出，基于新型高速互連總線CXL實現(xiàn)單機(jī)內(nèi)存擴(kuò)展和分布式內(nèi)存擴(kuò)展，可以較好地解決大規(guī)模數(shù)據(jù)處理特別是大模型應(yīng)用面臨的“內(nèi)存墻”問題，可能顛覆未來數(shù)據(jù)中心架構(gòu)，推動存算融合向存算分離演進(jìn)，同時使能以數(shù)據(jù)為中心的CPU、GPU、FPGA間的對等計算。但是，劉海坤也指出，目前CXL總線面臨體系結(jié)構(gòu)、操作系統(tǒng)、編程模型等多方面的挑戰(zhàn)，產(chǎn)業(yè)技術(shù)生態(tài)有待進(jìn)一步完善。

探討大模型時代數(shù)據(jù)中心存儲技術(shù)創(chuàng)新和應(yīng)用

Storage for AI，AI for Storage，推動大模型與存儲的雙向進(jìn)化

如果說數(shù)據(jù)中心是數(shù)據(jù)的“集散地”，那么大模型就是數(shù)據(jù)的“掘金場”。隨著大語言模型（LLM）以及生成式AI的飛速發(fā)展，數(shù)據(jù)規(guī)模和質(zhì)量對模型精度的價值日趨凸顯，這也推動存儲技術(shù)成為提升人工智能生產(chǎn)力的關(guān)鍵環(huán)節(jié)，直接關(guān)乎到人工智能整體落地水平。同時，人工智能技術(shù)的進(jìn)步，也正向回饋于存儲技術(shù)創(chuàng)新之中，帶動了智能化存儲技術(shù)的發(fā)展。Storage for AI，AI for Storage，大模型與存儲呈現(xiàn)出雙向進(jìn)化。

大模型開發(fā)通常涵蓋數(shù)據(jù)歸集、數(shù)據(jù)預(yù)處理、模型訓(xùn)練、應(yīng)用推理幾個流程階段，其中跨設(shè)備、跨中心的數(shù)據(jù)準(zhǔn)備往往耗時數(shù)周，同時大模型訓(xùn)練過程中存在海量的小文件讀取，小文件的讀寫性能較差，進(jìn)一步拉長了訓(xùn)練周期，對存儲系統(tǒng)的容量、性能、穩(wěn)定性等方面都帶來了巨大挑戰(zhàn)。

清華大學(xué)副教授陸游游表示，從大模型訓(xùn)練過程中反映出的數(shù)據(jù)特征來看，小文件讀取和帶寬的優(yōu)化是非常重要的。同時隨著模型參數(shù)量提升，對內(nèi)存、HBM顯存以及CXL遠(yuǎn)端內(nèi)存等多層次內(nèi)存的管理也變得更加重要，需要與計算更好地協(xié)同。此外，向量存儲、參數(shù)存儲等新興的存儲方式也需要予以關(guān)注。

浪潮信息一直深耕面向AIGC場景的新一代存儲平臺。通過全局緩存技術(shù)，突破多模態(tài)小文件訓(xùn)練瓶頸，創(chuàng)新性提出多協(xié)議融合互通技術(shù)，實現(xiàn)數(shù)據(jù)免遷移，構(gòu)建全局文件管理平臺，統(tǒng)一多源異構(gòu)存儲，數(shù)據(jù)管理更加便捷，引入GPU直通存儲技術(shù)，大大縮短AI訓(xùn)練I/O路徑，提高大模型訓(xùn)練效率。此外，浪潮信息也積極地圍繞CXL2.0，QLC，PCIe Gen 5等新型硬件和協(xié)議等進(jìn)行全面的適配和優(yōu)化，提供更強(qiáng)大的存儲性能，助力大模型系統(tǒng)創(chuàng)新及AI應(yīng)用落地。

而在AI for Storage領(lǐng)域，人工智能在數(shù)據(jù)恢復(fù)、故障預(yù)測等場景中也體現(xiàn)出越來越高的技術(shù)價值。上海交通大學(xué)教授吳晨濤分享了分布式機(jī)器學(xué)習(xí)高可靠數(shù)據(jù)恢復(fù)機(jī)制的研究，包括分布式學(xué)習(xí)過程中硬盤故障恢復(fù)加速的研究以及故障和繁忙節(jié)點的混合全局圖恢復(fù)方法；華東師范大學(xué)教授石亮分享了面向大規(guī)模存儲場景的SSD故障預(yù)測及部署優(yōu)化技術(shù)研究，包括差異化的機(jī)器學(xué)習(xí)SSD故障預(yù)測研究和基于預(yù)測備份的RAID快速恢復(fù)技術(shù)，主要針對當(dāng)前大規(guī)模閃存存儲系統(tǒng)故障預(yù)測性能不佳、故障恢復(fù)機(jī)制占用計算資源且速度慢的問題做了優(yōu)化。

浪潮信息作為本次活動的東道主，存儲產(chǎn)品線總經(jīng)理李輝對各位專家的到來表示熱烈歡迎，指出面向數(shù)據(jù)產(chǎn)業(yè)創(chuàng)新與大模型應(yīng)用的存儲需求，業(yè)界與學(xué)界的深度對接和交流將進(jìn)一步拓展創(chuàng)新的邊界。CCF信息存儲技術(shù)專委會走進(jìn)浪潮信息活動的成功舉辦，將有助于加快信息存儲領(lǐng)域的學(xué)術(shù)創(chuàng)新到產(chǎn)業(yè)落地的轉(zhuǎn)化，推動數(shù)據(jù)成為新質(zhì)生產(chǎn)力的優(yōu)質(zhì)生產(chǎn)要素。

消息來源：浪潮信息