omniture

OCP中國(guó)社區(qū)葉毓睿:規(guī)模決定方向,領(lǐng)域決定特性

2022-09-13 15:14 4662

北京2022年9月13日 /美通社/ -- 隨著數(shù)據(jù)的爆炸式增長(zhǎng)和算力需求的急劇攀升,由開(kāi)放計(jì)算引領(lǐng)的數(shù)據(jù)中心基礎(chǔ)設(shè)施創(chuàng)新,正影響著越來(lái)越多的公司爭(zhēng)相學(xué)習(xí)和效仿。在近日舉行的OCP China Day 2022(開(kāi)放計(jì)算中國(guó)技術(shù)峰會(huì))上,OCP中國(guó)社區(qū)負(fù)責(zé)人、浪潮信息首席架構(gòu)師葉毓睿分享了開(kāi)放計(jì)算如何實(shí)現(xiàn)協(xié)作創(chuàng)新、傳統(tǒng)行業(yè)如何利用開(kāi)放計(jì)算技術(shù)、開(kāi)放計(jì)算目前重要的創(chuàng)新成果以及未來(lái)的發(fā)展方向等話題。


開(kāi)放計(jì)算,"寬進(jìn)嚴(yán)出"的全球化協(xié)作模式

"以O(shè)CP為代表的開(kāi)放計(jì)算項(xiàng)目,其實(shí)是‘寬進(jìn)嚴(yán)出'的一個(gè)全球化協(xié)作平臺(tái)。"葉毓睿提到,CSP(Cloud Service Provider,云服務(wù)提供商)、系統(tǒng)廠商、零部件供應(yīng)商、傳統(tǒng)行業(yè)等各類(lèi)公司,都可以自由在OCP官網(wǎng)上獲取標(biāo)準(zhǔn)、規(guī)范,觀看演講視頻和下載材料。產(chǎn)業(yè)鏈上下游的合作伙伴,能通過(guò)全球化協(xié)作的模式來(lái)消除技術(shù)壁壘,加快硬件創(chuàng)新的速度。然而加入OCP成為會(huì)員之后,想要影響標(biāo)準(zhǔn)的制定,則需要做出實(shí)質(zhì)性貢獻(xiàn),并具備前瞻性;滿(mǎn)足這些要求并非易事,即使是想?yún)⑴c例行會(huì)議的工作組討論,也有一定門(mén)檻。

OCP是一個(gè)開(kāi)放的技術(shù)平臺(tái),各個(gè)成員公司可以通過(guò)知識(shí)共享、技術(shù)共享,掌握云邊端的創(chuàng)新技術(shù),并形成相關(guān)產(chǎn)品或方案。引用OCP標(biāo)準(zhǔn),幾乎沒(méi)有門(mén)檻,因?yàn)檫@些標(biāo)準(zhǔn)基本都是公開(kāi)的,可供任何人下載和使用。

雖然OCP對(duì)成員的加入持歡迎的態(tài)度,但是涉及到具體的工作組,則會(huì)要求項(xiàng)目參與者在專(zhuān)業(yè)領(lǐng)域具備深厚積累,否則無(wú)法取得參加內(nèi)部會(huì)議的資格。例如,浪潮信息準(zhǔn)備參與DC-SCM(Datacenter Secure Control Module,數(shù)據(jù)中心安全控制管理模塊)標(biāo)準(zhǔn)制定之前,做了大量的準(zhǔn)備工作,包括技術(shù)研發(fā)和實(shí)現(xiàn)等方面,然后由項(xiàng)目組的已有成員進(jìn)行投票表決,最終獲準(zhǔn)加入該項(xiàng)目。DC-SCM標(biāo)準(zhǔn)定義了一種與主板解耦的安全控制管理模塊,實(shí)現(xiàn)計(jì)算單元和安全管理單元解耦,能夠簡(jiǎn)化主板設(shè)計(jì),加快計(jì)算組件的迭代。

"雖然成為標(biāo)準(zhǔn)的領(lǐng)導(dǎo)者、參與者需要投入很多的人、財(cái)、物等資源。但這些投入是值得的,因?yàn)槔顺毙畔⒆鳛槿虻诙蠓?wù)器廠商,要逐漸參與到更多的全球標(biāo)準(zhǔn)的制定中,盡量通過(guò)先進(jìn)技術(shù)的標(biāo)準(zhǔn)化、規(guī)模化、產(chǎn)業(yè)化、生態(tài)化來(lái)促進(jìn)全行業(yè)的降本增效,普及深化ESG可持續(xù)發(fā)展理念,貫徹實(shí)現(xiàn)中國(guó)的‘雙碳'戰(zhàn)略目標(biāo)。" 葉毓睿表示。

目前,浪潮信息已積極參與面向AI、邊緣計(jì)算、整機(jī)柜、通用服務(wù)器、硬件管理、固件、液冷等國(guó)內(nèi)外標(biāo)準(zhǔn)規(guī)范的建立,并牽頭服務(wù)器全部國(guó)標(biāo)、OAM(OCP Accelerator Module,OCP加速器模塊)規(guī)范、天蝎標(biāo)準(zhǔn)、OTII(Open Telecom IT Infrastructure,開(kāi)放電信IT基礎(chǔ)設(shè)施)規(guī)范等。同時(shí),浪潮信息也在推動(dòng)技術(shù)標(biāo)準(zhǔn)產(chǎn)品化,率先向社區(qū)貢獻(xiàn)了多款產(chǎn)品,可供其他廠商借鑒,如全球唯一符合三大開(kāi)放組織標(biāo)準(zhǔn)的整機(jī)柜產(chǎn)品;全球首款A(yù)I開(kāi)放加速計(jì)算系統(tǒng)MX1;全球首款面向云基礎(chǔ)架構(gòu)優(yōu)化的四路服務(wù)器參考設(shè)計(jì)NF8260M5、全球首款OTII邊緣計(jì)算服務(wù)器、首款通過(guò)國(guó)內(nèi)開(kāi)放數(shù)據(jù)中心認(rèn)證的天蝎多節(jié)點(diǎn)服務(wù)器等等。

我們發(fā)現(xiàn),OCP包含不少自下而上的項(xiàng)目組。隨著市場(chǎng)需求不斷涌現(xiàn),項(xiàng)目的評(píng)判標(biāo)準(zhǔn)主要看市場(chǎng)的認(rèn)可度,需求多了,這個(gè)標(biāo)準(zhǔn)就漸漸有機(jī)會(huì)成為全行業(yè)的標(biāo)準(zhǔn)。但需要注意的是,有些標(biāo)準(zhǔn)或者項(xiàng)目組可能會(huì)無(wú)疾而終。這種"物競(jìng)天擇"的演化機(jī)制,也確保了每個(gè)可持續(xù)的項(xiàng)目組都是有生命力、具備市場(chǎng)前景的,是能夠不斷迭代的。

規(guī)模決定方向,領(lǐng)域決定特性

"開(kāi)放計(jì)算的創(chuàng)新與應(yīng)用,實(shí)際上是由兩個(gè)因素決定的:規(guī)模決定方向,領(lǐng)域決定特性。"在葉毓??磥?lái),開(kāi)放計(jì)算最初從超大規(guī)模數(shù)據(jù)中心興起,再逐漸滲透到其他領(lǐng)域,在這個(gè)過(guò)程中,開(kāi)放計(jì)算的各類(lèi)產(chǎn)品各有其相對(duì)應(yīng)的適用場(chǎng)景。

"規(guī)模決定方向"簡(jiǎn)單來(lái)說(shuō),就是數(shù)據(jù)中心規(guī)模的大小,決定了宏觀尺度上開(kāi)放計(jì)算的發(fā)展大方向,例如Google、Meta的應(yīng)用分別是超大型的搜索網(wǎng)站和社交網(wǎng)站,由此催生了支撐它的IT硬件基礎(chǔ)架構(gòu),朝著數(shù)據(jù)中心即計(jì)算機(jī)(Datacenter as a Server)的方向重構(gòu),即在擁有數(shù)萬(wàn)臺(tái)服務(wù)器的數(shù)據(jù)中心里,站在整個(gè)數(shù)據(jù)中心的角度進(jìn)行集中管理(包含供電、冷卻等)和CPU、內(nèi)存、存儲(chǔ)的全局資源調(diào)度。目前我們能看到,與之相關(guān)并仍在發(fā)展的技術(shù)有CDI(Composable Disaggregated Infrastructure)、NoF(NVMe Over Fabrics)、CXL(Compute Express Link)等標(biāo)準(zhǔn)。參與這些標(biāo)準(zhǔn)的制定者當(dāng)中不乏全球云計(jì)算或者互聯(lián)網(wǎng)巨頭這類(lèi)用戶(hù),例如Microsoft、Google、Meta、阿里云、騰訊、百度、字節(jié)等,這些用戶(hù)本身服務(wù)器的使用量巨大,容易通過(guò)大規(guī)模采用攤銷(xiāo)成本,助力相關(guān)技術(shù)和組件推廣、普及。我們注意到,字節(jié)近年來(lái)致力推動(dòng)云固件,并在OCP China Day 2022分享《超大規(guī)模數(shù)據(jù)中心內(nèi)存性能故障的監(jiān)控》,有望成為好的例子。

另外,由數(shù)據(jù)中心即計(jì)算機(jī)引發(fā),并可能進(jìn)行組件推廣及可進(jìn)一步觀察的有網(wǎng)卡、連接器、存儲(chǔ)部件、OAM、DC-SCM、硬件管理等產(chǎn)品或規(guī)范。硬件重構(gòu)的方向是"一切皆計(jì)算機(jī)",不僅體現(xiàn)在數(shù)據(jù)中心即計(jì)算機(jī)、機(jī)柜即計(jì)算機(jī)(Rack as a Server)上,也體現(xiàn)在設(shè)備即計(jì)算機(jī)(Device as a Server)上,例如智能網(wǎng)卡SmartNIC、DPU(Data Processing Unit,數(shù)據(jù)處理器)、CSD(Computational Storage Drive,即可計(jì)算型SSD,包含持久存儲(chǔ)和計(jì)算模塊)或 SmartSSD等。

對(duì)于中小型數(shù)據(jù)中心用戶(hù)來(lái)說(shuō),他們更關(guān)注安全性、可靠性、業(yè)務(wù)連續(xù)性,對(duì)設(shè)備部署效率、運(yùn)維管理方面的要求并不苛刻。而對(duì)于大型和超大型數(shù)據(jù)中心用戶(hù)而言,如何將資源利用率提高到80%,甚至接近100%?如何將數(shù)據(jù)中心的運(yùn)維從以人為本到以智為本,通過(guò)算法和數(shù)據(jù)模型、歷史使用的特點(diǎn),實(shí)現(xiàn)自動(dòng)化運(yùn)維甚至無(wú)人值守?如何在成本可控范圍內(nèi),盡可能讓PUE值趨近于1?……這些是他們首要考慮的問(wèn)題。這種差異導(dǎo)致了不同規(guī)模的數(shù)據(jù)中心用戶(hù),對(duì)技術(shù)創(chuàng)新和應(yīng)用實(shí)踐的思考和設(shè)計(jì)有所不同。

"這是從量到質(zhì)的變化。"葉毓睿強(qiáng)調(diào)說(shuō),當(dāng)數(shù)據(jù)中心的規(guī)模擴(kuò)張到一定程度之后,數(shù)據(jù)中心的產(chǎn)品交付模式、部署方式、能耗與效率、運(yùn)維管理模式等等,都會(huì)發(fā)生與傳統(tǒng)模式截然不同的改變,開(kāi)放計(jì)算項(xiàng)目從早期成立開(kāi)始,到當(dāng)前發(fā)展的主流部分,較多的是面向超大規(guī)模數(shù)據(jù)中心展開(kāi)創(chuàng)新的。但這并不意味著,傳統(tǒng)行業(yè)用戶(hù)無(wú)法利用開(kāi)放計(jì)算來(lái)降本增效,實(shí)現(xiàn)可持續(xù)發(fā)展。

葉毓睿指出,開(kāi)放計(jì)算項(xiàng)目在做硬件重構(gòu)的創(chuàng)新過(guò)程中,也產(chǎn)生了不少組件級(jí)或者設(shè)備級(jí)的創(chuàng)新技術(shù)和產(chǎn)品,這些技術(shù)和產(chǎn)品經(jīng)過(guò)了大型和超大型數(shù)據(jù)中心用戶(hù)的實(shí)際驗(yàn)證,已經(jīng)成為開(kāi)放計(jì)算生態(tài)當(dāng)中的標(biāo)準(zhǔn)組件,中等規(guī)?;蛐∫?guī)模用戶(hù)可以直接使用。

NIC 3.0(Network Interface Card,網(wǎng)絡(luò)接口卡)項(xiàng)目是目前OCP最成功的項(xiàng)目之一。迄今為止,該項(xiàng)目在物理形態(tài)和電氣性能上,定義了一種免開(kāi)箱維護(hù)且尺寸適中、性能優(yōu)秀的網(wǎng)卡,獲得了業(yè)界絕大部分服務(wù)器廠家的支持,成為服務(wù)器新的標(biāo)準(zhǔn)配置項(xiàng)。此外,針對(duì)特定領(lǐng)域?qū)S眉軜?gòu)(DSA,Domain Specific Architecture)設(shè)計(jì),支持多元AI芯片標(biāo)準(zhǔn)化接入的OAM規(guī)范,可滿(mǎn)足全球范圍內(nèi)AI加速器的爆炸式增長(zhǎng)需求,而用于Chiplet(芯粒)互連的線束(BoW,Bunch of Wires)規(guī)范,則允許芯片制造商混合和匹配使用不同制造工藝技術(shù)的芯片,實(shí)現(xiàn)跨各種工藝制程的高性能芯片設(shè)計(jì)。這些項(xiàng)目的持續(xù)發(fā)展,可以讓大型CSP和傳統(tǒng)行業(yè)用戶(hù),能夠更方便的利用飛速發(fā)展的多元化AI技術(shù)。

"領(lǐng)域決定特性"是指開(kāi)放計(jì)算從超大規(guī)模數(shù)據(jù)中心逐步推廣的過(guò)程中,不同的場(chǎng)景和應(yīng)用領(lǐng)域會(huì)衍生出不同的特性。以國(guó)內(nèi)某電商為例,從它的實(shí)際業(yè)務(wù)需求來(lái)分析,并沒(méi)有音視頻、AI計(jì)算和海量冷數(shù)據(jù)的需求。因此,在其整機(jī)柜的設(shè)計(jì)初期,就聚焦更好的支持高CPU通用算力,以及熱數(shù)據(jù)和溫?cái)?shù)據(jù)的存儲(chǔ),忽略異構(gòu)計(jì)算和冷存儲(chǔ)的需求,以獲取更高的性?xún)r(jià)比。

類(lèi)似的,開(kāi)放計(jì)算在走出互聯(lián)網(wǎng)領(lǐng)域,走向更多傳統(tǒng)行業(yè)的過(guò)程中,也將逐漸和該行業(yè)的領(lǐng)域特性相匹配。葉毓睿提到:"因?yàn)槌叽?、重量、供電、兼容性等?wèn)題,OCP整機(jī)柜部署到非互聯(lián)網(wǎng)行業(yè)的傳統(tǒng)數(shù)據(jù)中心時(shí)需要進(jìn)行調(diào)整。"近段時(shí)間以來(lái),浪潮信息聯(lián)合各大合作伙伴商討標(biāo)準(zhǔn)機(jī)柜+標(biāo)準(zhǔn)服務(wù)器的整機(jī)柜的設(shè)計(jì)。

以電信行業(yè)為例,OCP當(dāng)前超過(guò)12大類(lèi)的項(xiàng)目中,包含Telco(電信)這個(gè)類(lèi)別,其下設(shè)有Edge(邊緣計(jì)算)子類(lèi)。在電信這個(gè)領(lǐng)域,邊緣計(jì)算有其自身的特性,應(yīng)該以集成的方式,將通用計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)、異構(gòu)計(jì)算等融為一體,滿(mǎn)足該領(lǐng)域所處的物理環(huán)境對(duì)于空間、溫度、震動(dòng)、防水、防塵等的嚴(yán)格要求。

當(dāng)然,邊緣計(jì)算應(yīng)用的場(chǎng)景包羅萬(wàn)象,包括但不限于物聯(lián)網(wǎng) 、MEC(Multi-access Edge Computing,多接入邊緣計(jì)算) 和NFV(Network Functions Virtualization,網(wǎng)絡(luò)功能虛擬化)等 5G 應(yīng)用場(chǎng)景。值得一提的是,浪潮信息邊緣計(jì)算產(chǎn)品線推出的ECOM(Edge Computing Optional Modular)系統(tǒng),為適應(yīng)智能邊緣網(wǎng)關(guān)產(chǎn)品復(fù)雜多變的應(yīng)用場(chǎng)景做出了有意義的探索和實(shí)踐,通過(guò)將系統(tǒng)進(jìn)行模塊化拆解,能最大限度的復(fù)用各個(gè)組件,也使產(chǎn)品設(shè)計(jì)更加多樣、靈活、易于實(shí)現(xiàn),適應(yīng)室內(nèi)室外多種應(yīng)用場(chǎng)景;通過(guò)將核心計(jì)算平臺(tái)、異構(gòu)加速平臺(tái)、IO模組、管理功能等模組進(jìn)行架構(gòu)解耦,實(shí)現(xiàn)標(biāo)準(zhǔn)化、模塊化,平臺(tái)模組及功能模組多重復(fù)用,基于不同的場(chǎng)景和應(yīng)用進(jìn)行環(huán)境適應(yīng)型設(shè)計(jì),以實(shí)現(xiàn)短、平、快的產(chǎn)品開(kāi)發(fā)模式,高質(zhì)量的滿(mǎn)足各類(lèi)用戶(hù)的產(chǎn)品需求。


葉毓睿坦承道:"我們希望有更多傳統(tǒng)行業(yè)的用戶(hù)加入到開(kāi)放計(jì)算組織中來(lái)。這樣在未來(lái)發(fā)展的過(guò)程中,有更多機(jī)會(huì)發(fā)掘一些OCP產(chǎn)品面向特定領(lǐng)域的特性,這也是我們一直在思考并努力踐行的。"

以金融行業(yè)為例,隨著人工智能、5G、大數(shù)據(jù)等技術(shù)在金融行業(yè)的深度應(yīng)用,刷臉支付、在線開(kāi)戶(hù)、線上貸款等"非接觸式"金融服務(wù)越來(lái)越普及。但金融創(chuàng)新業(yè)務(wù)的發(fā)展也帶來(lái)了系統(tǒng)數(shù)量繁多,數(shù)據(jù)類(lèi)型多元化,需要在有限的數(shù)據(jù)中心空間內(nèi),兼容各種不同的需求。銀行客戶(hù)在采用開(kāi)放計(jì)算解決方案后,相較傳統(tǒng)解決方案,部署密度提升6倍,通過(guò)RMC(Rack Management Controller )集中管理單元實(shí)現(xiàn)整個(gè)系統(tǒng)資源的實(shí)時(shí)監(jiān)控。

隨著開(kāi)放計(jì)算生態(tài)的發(fā)展,其所致力的全球化協(xié)作與創(chuàng)新,將會(huì)帶來(lái)更多的開(kāi)放接口、開(kāi)放組件、開(kāi)放管理和自動(dòng)化運(yùn)維,實(shí)現(xiàn)包括數(shù)據(jù)中心在內(nèi)的,云邊端低碳、高效的可持續(xù)發(fā)展。未來(lái),開(kāi)放計(jì)算還有巨大的潛力有待挖掘。

消息來(lái)源:浪潮信息
China-PRNewsire-300-300.png
全球TMT
微信公眾號(hào)“全球TMT”發(fā)布全球互聯(lián)網(wǎng)、科技、媒體、通訊企業(yè)的經(jīng)營(yíng)動(dòng)態(tài)、財(cái)報(bào)信息、企業(yè)并購(gòu)消息。掃描二維碼,立即訂閱!
collection