北京2022年4月18日 /美通社/ -- 4月9日-13日,第十三屆國(guó)際性能工程學(xué)大會(huì)(ICPE2022)在線召開,大會(huì)由國(guó)際計(jì)算機(jī)協(xié)會(huì)ACM和標(biāo)準(zhǔn)性能評(píng)估組織SPEC聯(lián)合舉辦,高效能服務(wù)器和存儲(chǔ)技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室承辦。此次大會(huì)吸引了300余位專家、學(xué)者報(bào)名參與,共收到各類投稿290余篇,涉及AI建模及算法、算力提升、能效測(cè)量、新型計(jì)算架構(gòu)、體系結(jié)構(gòu)研究等多個(gè)主題。其中專業(yè)論文70余篇,包含優(yōu)秀論文58篇,論文集收錄22篇。會(huì)議期間還舉辦了6場(chǎng)專題研討會(huì),涵蓋基準(zhǔn)測(cè)試、存儲(chǔ)管理、軟件開發(fā)等多個(gè)領(lǐng)域。
首次引入數(shù)據(jù)挑戰(zhàn)專題,評(píng)估數(shù)據(jù)算法優(yōu)化對(duì)服務(wù)器性能的提升情況
相對(duì)于傳統(tǒng)應(yīng)用來講,在云、邊、AI等新興領(lǐng)域,數(shù)據(jù)中心的首要性能挑戰(zhàn)主要來自不斷增長(zhǎng)的數(shù)據(jù)規(guī)模,系統(tǒng)內(nèi)的數(shù)據(jù)流動(dòng)制約了大規(guī)模、超大規(guī)模系統(tǒng)計(jì)算的效能,提高了系統(tǒng)部署及維護(hù)的復(fù)雜度和成本。根據(jù)國(guó)際權(quán)威機(jī)構(gòu)Statista的統(tǒng)計(jì)和預(yù)測(cè),2020年全球數(shù)據(jù)產(chǎn)生量預(yù)計(jì)達(dá)到47ZB,而到2035年這一數(shù)字將達(dá)到2142ZB。數(shù)據(jù)挑戰(zhàn)帶來的直觀問題是超大規(guī)模系統(tǒng)的協(xié)同,即如何解決數(shù)據(jù)流動(dòng)、系統(tǒng)模塊之間的通信問題。為此,ICPE2022首次引入數(shù)據(jù)挑戰(zhàn)專題,針對(duì)數(shù)據(jù)集形成算法并進(jìn)行優(yōu)化,同時(shí)優(yōu)化服務(wù)器的性能。
來自沃爾茨堡大學(xué)的André Bauer教授介紹了一種性能改變點(diǎn)的自動(dòng)分類方法,通過應(yīng)用時(shí)間序列分析和機(jī)器學(xué)習(xí)方法,開發(fā)一個(gè)可以對(duì)潛在的性能變化點(diǎn)進(jìn)行分類的模型,以評(píng)估不同機(jī)器學(xué)習(xí)模型的性能,并將生成的模型應(yīng)用于其他未標(biāo)記的數(shù)據(jù)集,以自動(dòng)對(duì)性能變化點(diǎn)進(jìn)行分類和檢測(cè),從而節(jié)省人力及設(shè)備資源,提升部署速度。
專家分享研究實(shí)踐成果,從邊緣到集群的性能優(yōu)化
在大會(huì)Keynote演講環(huán)節(jié),來自維也納理工大學(xué)、谷歌及浪潮信息的三位演講嘉賓,分別從邊緣故障預(yù)測(cè)、數(shù)據(jù)中心管理、多層數(shù)據(jù)訪問優(yōu)化的角度介紹了應(yīng)對(duì)數(shù)據(jù)挑戰(zhàn)所采取的方案。
維也納理工大學(xué)教授Ivona Brandic(IEEE 云計(jì)算雜志、IEEE TPDS 和 IEEE TCC 編委),在題為《面向可持續(xù)和容錯(cuò)邊緣系統(tǒng)的數(shù)據(jù)科學(xué)驅(qū)動(dòng)方法》演講中,揭示了邊緣系統(tǒng)與物聯(lián)網(wǎng)相結(jié)合的挑戰(zhàn):由于時(shí)效性、高度異構(gòu)性和資源稀缺,云計(jì)算或通用分布式系統(tǒng)設(shè)計(jì)的故障恢復(fù)機(jī)制無法應(yīng)用于邊緣系統(tǒng)。因此,Ivona Brandic和她的團(tuán)隊(duì)設(shè)計(jì)了一種基于機(jī)器學(xué)習(xí)的新機(jī)制,可以評(píng)估在邊緣基礎(chǔ)設(shè)施上冗余部署的服務(wù)故障恢復(fù)能力。該方法利用動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)(dbn)的概念,學(xué)習(xí)邊緣服務(wù)器故障之間的時(shí)空相關(guān)性,并將其與拓?fù)湫畔⑾嘟Y(jié)合,以合并鏈路故障。最后,可推斷出在服務(wù)運(yùn)行時(shí),某一組服務(wù)器發(fā)生故障或并發(fā)斷開連接的概率。
SOSP、FAST、EuroSys和HotCloud的程序委員會(huì)主席,John Wilkes,長(zhǎng)期從事谷歌計(jì)算基礎(chǔ)設(shè)施集群管理工作,發(fā)表主題為《構(gòu)建倉(cāng)庫(kù)規(guī)模的計(jì)算機(jī)》的演講,他介紹谷歌內(nèi)部面對(duì)幾個(gè)月內(nèi)增加100000 個(gè) CPU 內(nèi)核 + RAM + 閃存 + 加速器 + 磁盤的需求,可以動(dòng)態(tài)地將資源分配給最迫切需要它們的產(chǎn)品組,準(zhǔn)確地反映所有機(jī)器和基礎(chǔ)設(shè)施的成本(運(yùn)營(yíng)支出/資本支出),并監(jiān)控、控制數(shù)據(jù)中心的電源和冷卻系統(tǒng)以實(shí)現(xiàn)最小的開銷。
浪潮信息人工智能與高性能應(yīng)用軟件部高性能應(yīng)用架構(gòu)師,李龍翔博士發(fā)表主題為《多層數(shù)據(jù)訪問優(yōu)化》的演講。隨著近年CPU核心數(shù)增加及性能的不斷增強(qiáng),在超大規(guī)模系統(tǒng)并行計(jì)算時(shí),越來越多的應(yīng)用運(yùn)行性能主要受數(shù)據(jù)訪問速度限制。針對(duì)超大規(guī)模集群的數(shù)據(jù)存儲(chǔ)特點(diǎn),他介紹了一種多層數(shù)據(jù)訪問 (Multi-Layered Data Access,MLDA) 優(yōu)化方法,可以快速對(duì)超大規(guī)模并行計(jì)算性能瓶頸進(jìn)行分析,通過對(duì)存儲(chǔ)、網(wǎng)絡(luò)、訪存、CPU等設(shè)備數(shù)據(jù)訪問過程優(yōu)化,提升超大規(guī)模集群并行計(jì)算效率。這只是浪潮信息解決超大規(guī)模系統(tǒng)挑戰(zhàn)多種技術(shù)之一,在中文巨量模型"源1.0"的訓(xùn)練過程中,浪潮信息采用了多種面向超大規(guī)模并行計(jì)算技術(shù)的軟硬件協(xié)同優(yōu)化手段,通過流水線并行、張量并行等手段自動(dòng)地將模型多層數(shù)據(jù)切分到不同的節(jié)點(diǎn)中實(shí)現(xiàn)并行。"源1.0"模型包含的參數(shù)總量達(dá) 2457 億,是 GPT-3 的 1.404 倍。
除主題演講之外,分論壇內(nèi)容同樣精彩
學(xué)術(shù)論文獲獎(jiǎng)?wù)?,來自猶他大學(xué)的Richard Li表示,對(duì)于基于分布式微服務(wù)的應(yīng)用程序來說,性能故障排除是出了名的困難。分析人員對(duì)性能異常的典型根源診斷首先是縮小慢速服務(wù)的范圍,調(diào)查慢速組件中的高級(jí)性能指標(biāo)或可用日志,最后深入到實(shí)際原因。由于缺乏領(lǐng)域知識(shí)和實(shí)際操作經(jīng)驗(yàn),這個(gè)過程可能會(huì)很長(zhǎng)、很乏味,有時(shí)還會(huì)漫無目的。在本次大會(huì)中,他介紹了一種新的由機(jī)器學(xué)習(xí)驅(qū)動(dòng)的性能分析系統(tǒng),該系統(tǒng)可自動(dòng)化與延遲相關(guān)的性能異常的故障排除過程,以方便診斷和解釋根本原因。
來自于IBM的Lixiang Luo為本次大會(huì)的產(chǎn)業(yè)論文獲獎(jiǎng)?wù)?,他提出的三種NVMe存儲(chǔ)虛擬化方法(PCI設(shè)備直通法、虛擬塊設(shè)備法和SPDK虛擬主機(jī)目標(biāo)法)通過虛擬機(jī)提供NVMe存儲(chǔ),同一主機(jī)上的多個(gè)虛擬機(jī)可以共用一個(gè)物理NVMe設(shè)備,以滿足現(xiàn)代工作負(fù)載不斷增長(zhǎng)的I/O吞吐量和延遲需求。