北京2023年10月25日 /美通社/ -- 數(shù)據(jù)中心的運(yùn)維壓力到底有多大?過(guò)去,IT圈里流傳著這樣一句話:一入運(yùn)維深似海,從此下班是路人。隨著人工智能、大數(shù)據(jù)、云計(jì)算等技術(shù)的成熟應(yīng)用,數(shù)據(jù)中心走向集約化、規(guī)?;内厔?shì),數(shù)據(jù)中心的IT設(shè)備越來(lái)越繁雜,同時(shí)超過(guò)10萬(wàn)臺(tái)乃至100萬(wàn)臺(tái)服務(wù)器的超大規(guī)模數(shù)據(jù)中心越來(lái)越多,盡管許多企業(yè)在數(shù)據(jù)中心的投資十分重視,但卻往往卻忽略了后期運(yùn)營(yíng)管理的成本,有統(tǒng)計(jì)數(shù)據(jù)顯示,數(shù)據(jù)中心中服務(wù)器的運(yùn)維成本在IT系統(tǒng)TCO中占比高達(dá)70%,因此,真正做到服務(wù)器智能管理,極簡(jiǎn)運(yùn)維對(duì)企業(yè)數(shù)據(jù)中心而言至關(guān)重要。
同時(shí)服務(wù)器作為數(shù)據(jù)中心的核心,承載著數(shù)據(jù)中心絕大部分計(jì)算任務(wù),其可靠性、穩(wěn)定性以及對(duì)故障問(wèn)題精準(zhǔn)定位的能力都直接影響著整個(gè)數(shù)據(jù)中心系統(tǒng)運(yùn)行,在考慮數(shù)據(jù)中心算力部署密度的同時(shí),設(shè)備的智能管理、高效運(yùn)維也相當(dāng)重要,浪潮信息G7算力平臺(tái)就秉承極致的設(shè)計(jì)理念,憑借多年產(chǎn)品創(chuàng)新經(jīng)驗(yàn),通過(guò)多種保障來(lái)強(qiáng)化服務(wù)器自身的高效運(yùn)維能力,構(gòu)建現(xiàn)代數(shù)據(jù)中心的可靠基礎(chǔ),幫助用戶高效可靠地運(yùn)行其各類應(yīng)用負(fù)載。
智能底層設(shè)計(jì) 實(shí)現(xiàn)部件級(jí)精細(xì)化管理
“精益設(shè)計(jì)”之父蒙羅將精益設(shè)計(jì)定義為“更少的零件,更高的質(zhì)量”,關(guān)注產(chǎn)品的簡(jiǎn)化設(shè)計(jì)與成本的降低,從產(chǎn)品設(shè)計(jì)的源頭開始改善,并兼顧生產(chǎn)環(huán)節(jié)的可制造性。而對(duì)于服務(wù)器設(shè)計(jì)來(lái)說(shuō),一點(diǎn)小小的改變,或許就能引起整個(gè)產(chǎn)品,甚至整個(gè)行業(yè)巨大的改變。
浪潮信息最新發(fā)布的G7算力平臺(tái)采用基于開源技術(shù)OpenBMC自主研發(fā)的服務(wù)器嵌入式管理系統(tǒng)InBry,可提供硬件狀態(tài)部署、節(jié)能、安全、預(yù)警等系列管理工具,以標(biāo)準(zhǔn)化接口構(gòu)建更加完善的服務(wù)器管理生態(tài)系統(tǒng),幫助企業(yè)用戶統(tǒng)一、智能化管理服務(wù)器等IT基礎(chǔ)設(shè)施,提高運(yùn)維效率。
G7算力平臺(tái)的服務(wù)器嵌入式管理系統(tǒng)InBry具有智能故障診斷功能,可對(duì)服務(wù)器各類部件進(jìn)行實(shí)時(shí)管理,實(shí)現(xiàn)服務(wù)器關(guān)鍵部件的深度故障診斷和故障預(yù)測(cè)維護(hù),有效定位率可達(dá)95%。比如基于MCTP技術(shù)可以對(duì)系統(tǒng)內(nèi)IO 設(shè)備實(shí)現(xiàn)智能管理功能,可以對(duì)PCIE卡、NVME盤、E1/3.S盤等IO裝置快速管理,并透過(guò)MCTP Over PCIE了解關(guān)鍵部件上的溫度、健康狀態(tài)、IO性能、功耗等指標(biāo),結(jié)合浪潮信息龐大的故障定位診斷庫(kù)輸出詳細(xì)的故障原因和處理建議,對(duì)部件健康狀態(tài)進(jìn)行預(yù)警、故障信息快速診斷和部件溫度/功耗監(jiān)測(cè),大幅提升系統(tǒng)穩(wěn)定性。對(duì)針對(duì)內(nèi)存、硬盤的全面管理,全線G7算力平臺(tái)基于豐富的故障診斷庫(kù)建立AI智能算法模型集成到嵌入式管理系統(tǒng)中,對(duì)收集到的信息進(jìn)行診斷,提前預(yù)知內(nèi)存、硬盤的健康狀態(tài),通過(guò)運(yùn)維人員進(jìn)行有計(jì)劃的運(yùn)維,避免非預(yù)期的故障對(duì)數(shù)據(jù)中心造成不良影響。
同時(shí)G7算力平臺(tái)采用多個(gè)創(chuàng)新模塊設(shè)計(jì),以供電模塊為例,G7算力平臺(tái)采用智能電源,支持鉑金、鉑金+、鈦金等寬域電源組合,可為系統(tǒng)在低業(yè)務(wù)場(chǎng)景提升4%~6%的轉(zhuǎn)換效率并提供客制化能耗最佳場(chǎng)景,以往的電源固件升級(jí)過(guò)程中可能出現(xiàn)的輸出掉電問(wèn)題,浪潮信息獨(dú)有的智能電源設(shè)計(jì)可支持不斷電升級(jí),而且不影響系統(tǒng)電源冗余及效能,成功率可達(dá)100%,同時(shí)G7算力平臺(tái)采用的智能電源具備自身健康狀態(tài)巡檢功能,運(yùn)維人員可第一時(shí)間通過(guò)BMC可示化的圖表了解PSU黑盒內(nèi)部資訊,并通過(guò)獲取健康狀況,幫助運(yùn)維人員快速診斷,定位故障源。
整機(jī)創(chuàng)新架構(gòu) 服務(wù)器全生命周期集群級(jí)自動(dòng)化運(yùn)維
在當(dāng)前綠色算力的大趨勢(shì)下,企業(yè)數(shù)據(jù)中心不再只建在一處,服務(wù)器可能部署在世界各地。像很多互聯(lián)網(wǎng)、通信公司,IT設(shè)備會(huì)部署在相對(duì)自然冷卻環(huán)境優(yōu)渥的偏遠(yuǎn)地區(qū),但這些地方往往人煙稀少,運(yùn)維難度更多大,所以運(yùn)維人員會(huì)更多以周期巡檢的方式進(jìn)行設(shè)備部署和運(yùn)維。
浪潮信息G7算力平臺(tái)提供全新服務(wù)器管理工具InManage Tools,能夠?qū)崿F(xiàn)服務(wù)器從上架到下線的全流程精細(xì)化管理。InManage Tools具備GUI、CLI等多種交互方式,支持服務(wù)器集群一鍵上架、智能固件更新、故障自動(dòng)報(bào)修等高度自動(dòng)化功能,零網(wǎng)絡(luò)部署、開箱即用,從而降低部署時(shí)間成本,提高交付效率。InManage Tools創(chuàng)新研發(fā)了帶外操作系統(tǒng)自動(dòng)化部署功能,克服傳統(tǒng)PXE技術(shù)對(duì)用戶生產(chǎn)網(wǎng)絡(luò)造成的沖擊,實(shí)現(xiàn)硬件配置、固件刷新、系統(tǒng)和應(yīng)用部署等自動(dòng)化上架能力。InManage打通線上資源,通過(guò)線上固件源,可實(shí)現(xiàn)服務(wù)器集群固件版本自動(dòng)檢測(cè)、智能推薦、批量刷新;結(jié)合服務(wù)器云診斷系統(tǒng),也可實(shí)現(xiàn)服務(wù)器部件日志一鍵收集、線上智能診斷、自動(dòng)報(bào)修。
同時(shí)為了讓運(yùn)維人員現(xiàn)場(chǎng)更高效操作,浪潮信息G7算力平臺(tái)在硬件層面上也進(jìn)行了創(chuàng)新突破,架構(gòu)設(shè)計(jì)上兼容傳統(tǒng)后維護(hù)的同時(shí)提供前置IO的架構(gòu)選擇,節(jié)約50%系統(tǒng)風(fēng)扇功耗,而且前IO架構(gòu)使熱敏部件如光模塊前置處于冷通道空間,保證溫度維持在25℃左右,光模塊平均故障率下降90%,壽命提升3倍以上。同時(shí)前 IO 出線方式,可以更好地適配新建機(jī)房的冷熱風(fēng)道封閉設(shè)計(jì),讓運(yùn)維工作均可在冷通道進(jìn)行,解決運(yùn)維理線干涉問(wèn)題,單邊維護(hù)效率更高,而面向整機(jī)浪潮信息G7算力平臺(tái)支持免工具運(yùn)維,針對(duì)風(fēng)扇、硬盤、OCP等6大部分結(jié)構(gòu)件進(jìn)行優(yōu)化,可實(shí)現(xiàn)100%免工具便可進(jìn)行拆卸,極大縮短了運(yùn)維的時(shí)間和難度。
同時(shí)支持BMC直連管理Type-C接口,運(yùn)維人員可通過(guò)連接終端設(shè)備(本地PC/手機(jī))進(jìn)行BMC近端維護(hù),系統(tǒng)信息監(jiān)控、參數(shù)配置、定位設(shè)備、日志采集等,監(jiān)控模式更靈活,應(yīng)用BMC技術(shù),使技術(shù)人員可以通過(guò)Web管理界面、故障診斷LED等指引設(shè)備,加速找到已經(jīng)發(fā)生故障(或者正在發(fā)生故障)的組件,從而簡(jiǎn)化維護(hù)工作、加快解決問(wèn)題的速度,并且提高系統(tǒng)可用性。
數(shù)據(jù)中心級(jí)物理平臺(tái) 多數(shù)據(jù)中心統(tǒng)一管理
根據(jù)ResearchAndMarkets 《全球數(shù)據(jù)中心托管服務(wù)市場(chǎng)機(jī)遇》報(bào)告顯示,超大規(guī)模數(shù)據(jù)中心預(yù)計(jì)將從2019年的509個(gè)增長(zhǎng)到2025年的890個(gè),這將驅(qū)動(dòng)數(shù)據(jù)中心運(yùn)營(yíng)方式的升級(jí)。報(bào)告預(yù)測(cè),到2025年,70%的組織將通過(guò)持續(xù)的基礎(chǔ)設(shè)施自動(dòng)化來(lái)補(bǔ)充應(yīng)用程序的持續(xù)交付,以提高業(yè)務(wù)敏捷性?;A(chǔ)設(shè)施自動(dòng)化(IA)進(jìn)入了穩(wěn)步上升期,它融合了深度學(xué)習(xí)、機(jī)器學(xué)習(xí)、語(yǔ)音識(shí)別、機(jī)器視覺等技術(shù),并將其應(yīng)用在IT基礎(chǔ)設(shè)施運(yùn)營(yíng)場(chǎng)景,預(yù)計(jì)兩到五年后會(huì)得到主流采用。數(shù)據(jù)中心規(guī)模不斷擴(kuò)大,對(duì)運(yùn)維的效率、成本、質(zhì)量都提出了更高的要求,所以打破傳統(tǒng)運(yùn)維方式,打造“監(jiān)、管、控、防”智能化的運(yùn)維是解決問(wèn)題的關(guān)鍵。
浪潮信息G7算力平臺(tái)支持浪潮信息基礎(chǔ)設(shè)施智能化管理平臺(tái)InManage,通過(guò)Redfish、IPMI、SSH等多種管理協(xié)議實(shí)現(xiàn)大規(guī)模數(shù)據(jù)中心基礎(chǔ)設(shè)施智能化統(tǒng)一管理,并憑借前瞻的技術(shù)布局以及領(lǐng)先的智能運(yùn)維(AIOps)技術(shù),成為唯一入選中國(guó)智能運(yùn)維(AIOps in China)標(biāo)桿廠商的服務(wù)器企業(yè)。在數(shù)字化轉(zhuǎn)型的大潮中,InManage 通過(guò)數(shù)字孿生技術(shù)為IT資產(chǎn)管理提供了全新的解決方案,它能夠統(tǒng)一管理在線和離線資產(chǎn),實(shí)現(xiàn)在任何地方、任何時(shí)間都能掌握IT資產(chǎn)狀況。對(duì)于大規(guī)模IT基礎(chǔ)設(shè)施的智能化管理,InManage能實(shí)時(shí)感知服務(wù)器的狀態(tài),及時(shí)發(fā)現(xiàn)、預(yù)測(cè)并解決問(wèn)題,讓IT系統(tǒng)始終保持最佳狀態(tài)。InManage支持本地和云端部署方式,無(wú)論客戶選擇私有云,還是公有云,都能得到最佳的使用體驗(yàn)。而且,InManage還提供了豐富的北向API,能夠輕松地與其他系統(tǒng)進(jìn)行集成,實(shí)現(xiàn)數(shù)據(jù)的共享和交換。
針對(duì)服務(wù)器運(yùn)行過(guò)程中存在的CPU、內(nèi)存、硬盤等關(guān)鍵部件故障預(yù)測(cè)失效、告警失穩(wěn)等難題,InManage在智能化管理方面,擁有自動(dòng)化數(shù)據(jù)處理、特征衍生、自動(dòng)化建模工具多項(xiàng)創(chuàng)新能力,解決了局部硬件概率性故障下系統(tǒng)有效容錯(cuò)的難題。InManage實(shí)現(xiàn)了對(duì)海量服務(wù)器帶內(nèi)、帶外日志的穩(wěn)定采集,提出了基于服務(wù)器部件告警日志,通過(guò)智能故障診斷 AI 模型,推理出服務(wù)器故障根因的整體解決方案,故障診斷精準(zhǔn)度超過(guò)95%,遠(yuǎn)高于業(yè)界平均標(biāo)準(zhǔn)。通過(guò)硬盤特征數(shù)據(jù)分布式采集和存取技術(shù),實(shí)現(xiàn)了線上生產(chǎn)系統(tǒng)10萬(wàn)級(jí)硬盤特征數(shù)據(jù)的高質(zhì)量分析,構(gòu)建面向業(yè)務(wù)場(chǎng)景的硬盤故障預(yù)測(cè)模型,預(yù)測(cè)準(zhǔn)確率超過(guò)95%。同時(shí),InManage利用設(shè)備檢查異常檢測(cè)機(jī)制,完成物理內(nèi)存故障精準(zhǔn)位置的抓取,實(shí)現(xiàn)故障內(nèi)存物理位置向量化,基于向量化特征構(gòu)建內(nèi)存特征關(guān)聯(lián)關(guān)系模型,對(duì)內(nèi)存健康狀況有效進(jìn)行實(shí)時(shí)預(yù)測(cè)性分析,與傳統(tǒng)預(yù)測(cè)方式相比準(zhǔn)確率提升約30%。
隨著數(shù)字經(jīng)濟(jì)的發(fā)展,數(shù)據(jù)中心已成為各行各業(yè)的重要資產(chǎn),數(shù)據(jù)中心的運(yùn)維水平能力也幾乎變?yōu)楣镜暮诵母?jìng)爭(zhēng)力之一。浪潮信息服務(wù)器通過(guò)智能化運(yùn)維,對(duì)服務(wù)器部件、單機(jī)到集群再到數(shù)據(jù)中心的管理進(jìn)行層層優(yōu)化,幫助企業(yè)用戶不斷簡(jiǎn)化運(yùn)維難度提升運(yùn)維效率,降低運(yùn)維成本,推動(dòng)數(shù)字化帶動(dòng)更多經(jīng)濟(jì)收益。