北京2023年10月25日 /美通社/ -- 人工智能、云計算、大數(shù)據(jù)等各類數(shù)字技術(shù)正在交織構(gòu)建一個全新的虛擬空間,生產(chǎn)、流通、科學、教育、娛樂、社交等等無不因此而變。在技術(shù)驅(qū)動下,新的數(shù)字文明正勃然而興,突飛猛進的算力變革則是這次文明迭代的重要驅(qū)動力之一。自計算機問世以來,在短短的70余年的時間內(nèi),其性能從最初的每秒5000次運算發(fā)展到如今超級計算機的每秒百億億次計算,性能激增數(shù)百萬億倍。即便如此,面對蓬勃興起的生成式人工智能、元宇宙等技術(shù),算力缺口依然巨大。
在浪潮信息,有這樣一群工程師們,他們在好奇心的驅(qū)動下,通過各種方式尋找算力提升的路徑,無論進步大小,自豪感都在驅(qū)使著他們繼續(xù)探索未知,甚至像一個科學家一樣琢磨各種跨界的技術(shù),并用于解決各類工程難題。他們具有發(fā)散的思維,也有著聚焦的能力,憑借對算力創(chuàng)新的熱情與追求,不斷拓展數(shù)字文明的邊界……。
112Gbps高速互連,服務器設計的“藝術(shù)”
Yang Yang,浪潮信息AI服務器工程師大軍中的一員,他所在的團隊負責進行AI服務器系統(tǒng)架構(gòu)的研發(fā)工作,其中的關(guān)鍵是——設計開發(fā)出一款具備超高速互連性能的開放加速基板。
“以前,我們在強調(diào)怎么樣去提高單顆芯片的算力。但是到了大模型時代,模型訓練動輒成千上萬張卡,單張芯片已經(jīng)完全無法承載。在新的AI超級計算機形態(tài)下,什么樣的互連架構(gòu)才能更好的支撐大模型業(yè)務發(fā)展,是我們重點研究的一個課題。”Yang Yang認為,實現(xiàn)數(shù)千乃至上萬顆芯片互連并讓它們能夠高效協(xié)同工作的前提,是解決單個服務器內(nèi)部芯片的高速直連,這是一切問題的“原點”。
在他們團隊的努力下,浪潮信息定義了業(yè)界第一個符合OAM(開放加速模塊)規(guī)范的8卡互連AI系統(tǒng),這是一個遵循開放計算標準的互連的基板,首次達到了業(yè)界最高的單通道速率56Gbps。這個基板的厚度僅為3.26mm,層數(shù)卻高達22層,包含了近1000個高速互連差分對。
目前,56Gpbs仍然是開放加速規(guī)范下芯片互連的最高速率。Yang Yang表示:“下一步,我們將沖刺112Gbps單通道的高速互連通信,這種級別的速度提升,就相當于我們從5G時代跨步進入了6G時代?!?/span>
112Gbps 高速互連技術(shù)難點在于,在物理尺寸近乎不變的情況下,要將GPU間的互連速率提升一倍,需要犧牲信噪比。而信噪比的降低帶來的影響是巨大的,意味著112Gbps信號對于抖動和噪聲的敏感程度更為強烈,即對于信道的串擾、SCD(信號在通過該通道時的差分能量變?yōu)楣材D芰康哪B(tài)轉(zhuǎn)化量,越低越好。)、PN Skew(內(nèi)外線路不等長造成的傳輸差異)、ILD(損耗,線損/阻抗的影響程度,即漂移度)等指標的要求都更為嚴苛。
這不僅需要更高端的材料支撐,更考驗設計的“藝術(shù)”。要知道,3-5mm厚度的基板實際上是采用疊層設計,往往包含了十幾層甚至幾十層PCB板(印刷電路板),每層厚度僅有100微米左右,與一張A4紙相當。而為了保證信號傳輸質(zhì)量,每組線路均需要采用差分對設計,即采用長度相等、相位相反的互補信號來傳輸同一個信號,以減少噪音和EMI(電磁干擾),這將使得布線量增加一倍,對于本就信號布線密度近乎極限的基板來說,無疑是雪上加霜。并且,差分對走線的寬度和間距必須始終保持一致,當在基板上的障礙物,如過孔或較小的器件周圍布線時,對設計能力的要求更高。
因此,112Gbps高速互連設計不僅需要尋找更低損耗的樹酯、玻璃纖維及更平滑的銅箔,同時也要確保這些材料在加工之后能夠符合可靠度的規(guī)范,設計與工藝復雜度極高。
在Yang Yang看來,112Gpbs高速互連技術(shù)既需要科學的發(fā)散,也要做到工程的收斂:通過科學的發(fā)散尋找創(chuàng)新的可能性,通過工程的收斂尋找“可行性”。創(chuàng)新的可能性空間包括了材料、工藝、方法、管理運營等等,而可行性則是尋找“最大化或最小化”,是尋找最優(yōu)解的過程,“就像談到利潤,我們往往都會追求利潤最大化而成本最小化,最大化與最小化在很多時候是統(tǒng)一的,目標是一致的。”
Yang Yang團隊所從事的工作能夠惠及數(shù)以百計的芯片創(chuàng)新公司以及更多數(shù)量的用戶:借助標準化的、性能出色的開放加速基板,芯片公司可以快速的實現(xiàn)產(chǎn)品落地并持續(xù)迭代,而用戶則可以使用統(tǒng)一的、開放的基礎(chǔ)架構(gòu),根據(jù)業(yè)務需要配置不同類型的AI加速芯片,加快創(chuàng)新和創(chuàng)造更好的用戶體驗。
聽音降噪,服務器優(yōu)化的“浪漫”
一臺服務器需要整合超過10000個零部件,其中包括50多類專用芯片;同時還涉及30多個技術(shù)方向,例如材料學、熱力學、電池技術(shù)、流體力學、化學等一系列學科;此外,一臺服務器里還會應用超過100種傳輸協(xié)議。在制造中,服務器需要經(jīng)歷30多道流程,使用100多種加工和制造工藝,并對200多個關(guān)鍵過程的控制點進行把控。
如何確保整個系統(tǒng)的可靠性,是一項非常精細且復雜的工程,每一個細節(jié)都關(guān)乎整體,甚至連聲音,也會影響到服務器的可靠性。四五年前,相當數(shù)量的數(shù)據(jù)中心用戶幾乎都遇到了同一個問題:風扇轉(zhuǎn)速越快,硬盤越有可能出現(xiàn)性能波動,嚴重時還會直接掉線。
“最開始以為振動是罪魁禍首,后來才發(fā)現(xiàn)聲音才是始作俑者?!?/span>浪潮信息結(jié)構(gòu)工程師Cathy Wang以女性特有的敏銳,創(chuàng)造出一種獨屬于工程師的“浪漫”——聽音降噪。
團隊針對硬盤性能失效問題做了大量的實驗,發(fā)現(xiàn)風扇產(chǎn)生的噪音一旦達到120分貝,極易造成硬盤磁頭偏移、讀寫效率下降,進而導致扇區(qū)失效乃至硬盤報廢、服務器宕機。“在結(jié)構(gòu)的領(lǐng)域來說有一個不可調(diào)和的矛盾,就是風扇的轉(zhuǎn)速提高之后,它的噪音會向高頻段以及大聲壓這個方向去發(fā)展,而且它是這個聲音和轉(zhuǎn)速是成5次方的關(guān)系在增長的,所以我們看到一個非常明確且快速的風扇的噪音增長的趨勢。這個風扇和硬盤之間的沖突的問題,如何站在系統(tǒng)設計的角度,建立硬盤敏感度模型,成為業(yè)界廠商探討的難點。”Cathy Wang介紹說。
不過,雖然找到了問題的根源,但解決問題的過程依然曲折。在嘗試過正弦波、1/3倍頻程等走不通的路徑后,Cathy Wang所在的團隊才找到了最合適的噪音帶寬,并以混頻、掃頻的模式模擬出多樣化的噪聲源,能夠測量硬盤在500Hz~10000Hz噪音刺激下的共振頻率和聲壓閥值?;诖罅繖C理性研究和測試,團隊發(fā)現(xiàn)硬盤性能損失與聲壓強度間的數(shù)學規(guī)律,構(gòu)建出業(yè)界首個硬盤敏感度模型,量化出不同硬盤受到各類噪聲影響后的性能表現(xiàn)。
“我們希望通過我們的研究工作,讓性能優(yōu)化從經(jīng)驗主導變?yōu)榭茖W主導,借助于不斷完善的基礎(chǔ)理論、工具與方法,針對特定問題形成標準方案并設計出新的可復用知識。”Cathy Wang說道。
服務器里聲音的“黑盒子”就這樣被打開了。在確定機箱內(nèi)真正影響硬盤工作的噪音頻譜的基礎(chǔ)上,浪潮信息的工程師對服務器系統(tǒng)展開全方位的優(yōu)化設計。首先從噪聲振動的源頭入手,通過CFD流體動力學仿真改進風扇的葉片形態(tài),抑制扇葉表面因渦流脫落形成的高頻噪音;其次,在機箱內(nèi)通過設計40多種歌院式的消音結(jié)構(gòu),有效消除特定的高頻噪聲;此外,還對硬盤固件中的伺服控制算法進行調(diào)整,讓硬盤磁頭的噪聲共振擺動控制在10納米以內(nèi),在提升讀寫效率、性能翻倍的同時,實現(xiàn)服務器安全運行。
融合架構(gòu)3.0,服務器架構(gòu)的“夢想”
大模型時代,當在單機上獲得較高算力效率之后,能不能在幾百個節(jié)點、幾千塊卡保持相對線性的性能擴展比,已經(jīng)成為算力集群系統(tǒng)設計和并行策略設計時的關(guān)鍵性因素。在傳統(tǒng)計算體系結(jié)構(gòu)中,處理器橫向擴展一直是難以突破的瓶頸,尋找新的出路勢在必行。
浪潮信息體系結(jié)構(gòu)工程師Lorne Ci 認為:“傳統(tǒng)服務器是把所有的IT資源放到一個服務器里面。如果需要更多算力、更多內(nèi)存、更多IO的話,需要把服務器去做疊加,像我們通常意義上一個大規(guī)模的數(shù)據(jù)中心可能有十幾萬臺,甚至有幾十萬臺服務器。但簡單的堆疊只能堆出各種形態(tài)和規(guī)格的服務器,這對數(shù)據(jù)中心計算能力的提升,并沒有實質(zhì)性的幫助。需要把服務器IT資源都做成池化的形態(tài),然后通過軟件定義的方式來實現(xiàn)資源的動態(tài)調(diào)配?!?/span>
因此,Lorne Ci 團隊研究的方向是,創(chuàng)造一種新的體系架構(gòu),將硬件設備中的同類資源整合成一個資源池,不同的設備能夠任意的整合,再通過軟件動態(tài)感知業(yè)務的資源需求,利用硬件重組的能力來滿足各類應用的需要。
浪潮信息將這種新的體系架構(gòu)命名為“融合架構(gòu)”,早在2014年就提出這一技術(shù)理念,核心在于通過硬件解耦實現(xiàn)資源的物理池化和動態(tài)重構(gòu),通過軟件定義實現(xiàn)業(yè)務感知的按需資源組合與配置,滿足系統(tǒng)的彈性伸縮和超大規(guī)模的持續(xù)擴展,實現(xiàn)軟硬高度協(xié)同發(fā)展。浪潮信息將融合架構(gòu)的發(fā)展劃分為三個階段,分別為“服務器即計算機(Server as a Computer)” ,“機柜即計算機(Rack as a Computer)”以及最終的“數(shù)據(jù)中心即計算機(Data Center as a Computer)”。
目前融合架構(gòu)3.0原型系統(tǒng)已經(jīng)研制成功,實現(xiàn)了計算資源、存儲資源、內(nèi)存資源、異構(gòu)加速資源等核心IT資源徹底解耦與池化,支持池化資源異步升級、支持細粒度多主機共享高并發(fā)存儲、亞微秒級遠端內(nèi)存共享訪問等特性,可通過軟件定義實現(xiàn)“一套系統(tǒng),N類應用”。
融合架構(gòu)3.0最核心的就是要做到內(nèi)存資源池的池化與算力資源池的池化。而如何實現(xiàn)遠程內(nèi)存的調(diào)用,實現(xiàn)低延時的快速響應,如何實現(xiàn)緩存一致性……都是內(nèi)存池化面臨的重大挑戰(zhàn)。Lorne Ci 介紹說,“現(xiàn)在融合架構(gòu)基于許多開放總線技術(shù),包括PCIE、CXL等等,共同構(gòu)建一個大內(nèi)存系統(tǒng),構(gòu)建了一個高速高性能的互聯(lián)網(wǎng)絡,這對于參數(shù)量和數(shù)據(jù)量激增的大模型訓練有著巨大價值。”
伴隨著融合架構(gòu)3.0原型系統(tǒng)的研制成功,浪潮信息在融合架構(gòu)領(lǐng)域完成了重要的突破,實現(xiàn)了整機柜級別的計算、內(nèi)存、存儲與互聯(lián)等各種IT資源的池化。其中,內(nèi)存解耦實現(xiàn)了亞微秒級的遠端內(nèi)存訪問,并構(gòu)建出了一種邏輯上可遠端共享的內(nèi)存資源池。這種變化讓多臺主機可以訪問同一個內(nèi)存池,并最終大幅提高了數(shù)據(jù)交換的效率。新的架構(gòu)打破了現(xiàn)有服務器的邏輯架構(gòu)與應用模式。它以系統(tǒng)設計為中心,可以讓數(shù)據(jù)中心從資源驅(qū)動型向業(yè)務驅(qū)動型轉(zhuǎn)變。面向云計算和人工智能等不同場景,這種新的架構(gòu)和新的組合方式,讓數(shù)據(jù)中心真正實現(xiàn)了,用一套系統(tǒng)去支撐多類應用。
在如今這個逐漸成型的數(shù)字文明時代,計算已經(jīng)滲透到我們生活的方方面面。不論是在家庭中,商業(yè)世界,還是科學研究領(lǐng)域,計算技術(shù)都無處不在,這已經(jīng)成為了我們?nèi)粘I畹囊徊糠?。然而,我們必須認識到,這只是數(shù)字文明的起點,計算的重要性將在未來進一步凸顯。算力創(chuàng)新將成為數(shù)字文明中的火種,它將不斷照亮前行的道路。正如昔日的拓荒者冒險前行以開辟新的大陸,今天無數(shù)的"算力拓荒人"將持續(xù)引領(lǐng)我們進入數(shù)字時代的新境界。這些先鋒者將科學與工程融合,將"知"與"行"完美結(jié)合,以探索廣闊而充滿想象的未知之地。
在這條通往數(shù)字文明的開拓之路上,充滿了機遇與挑戰(zhàn),我們需要更多具備跨學科知識的"知行合一"的研發(fā)人員,科技工作者,去通過一系列前所未有的解決方案,將計算創(chuàng)新推向新的高度,使其持續(xù)閃耀,帶領(lǐng)我們走向數(shù)字文明的下一個巔峰。