北京2024年1月15日 /美通社/ -- 數(shù)據(jù)是社會發(fā)展的基礎(chǔ)資源。隨著數(shù)字經(jīng)濟時代到來,爆發(fā)式增長的數(shù)據(jù)量為用戶生活帶來便利,也為企業(yè)智能化發(fā)展提供動力。存儲作為數(shù)據(jù)載體設(shè)備發(fā)揮著重要作用,數(shù)據(jù)存儲既要滿足當(dāng)前全球數(shù)據(jù)量ZB級的高速增長需求,又要保證數(shù)據(jù)安全可靠、高效精準(zhǔn)的存、讀、寫。數(shù)據(jù)中心"穩(wěn)定的數(shù)據(jù)存力"離不開各存儲節(jié)點的平穩(wěn)運行,提升數(shù)據(jù)存儲的安全可靠性,避免意外場景下的數(shù)據(jù)丟失,已成為存儲硬件平臺發(fā)展的重要挑戰(zhàn)。
存儲備電——數(shù)據(jù)存儲安全的保障
存儲系統(tǒng)采用電源單元(PSU)"X+X"冗余供電,在供電之外還配置備用電池BBU(Battery Back-Up Unit),當(dāng)機房市電掉電或PSU模塊出現(xiàn)異常,存儲系統(tǒng)實時監(jiān)測PSU供電狀態(tài),并進行預(yù)判,無縫切換由備用電池BBU供電。BBU提供持續(xù)的供電能力,確保存儲系統(tǒng)控制器寫緩存中數(shù)據(jù)完整且安全地寫入非易失性介質(zhì)(HDD、SSD硬盤),避免數(shù)據(jù)丟失。為保證數(shù)據(jù)存儲的業(yè)務(wù)連續(xù)性,機房市電意外掉電、市電恢復(fù)后能快速恢復(fù)存儲系統(tǒng)的業(yè)務(wù)。
隨著數(shù)據(jù)量級成倍增長、存儲業(yè)務(wù)復(fù)雜程度提升,存儲硬件平臺正朝著高密度與高性能方向發(fā)展,傳統(tǒng)供電備電控制策略難以滿足存儲系統(tǒng)的穩(wěn)定性要求。高端存儲平臺從系統(tǒng)架構(gòu)到部件性能的升級伴隨著系統(tǒng)整體功率提升,正常運行時存儲陣列整機功耗是上一代產(chǎn)品2倍,掉電時刻控制器快速降低功耗,備份數(shù)據(jù)時整機功耗仍是上一代產(chǎn)品2倍;單個BBU的電芯節(jié)數(shù)增加2倍才能滿足異常掉電時備份數(shù)據(jù)功耗需求。受功率密度限制,供電需求增加,PSU異常掉電維持時間會減小3/4,大功率BBU輸出啟動時間會增加3倍。因此,需要設(shè)計新的供電架構(gòu),PSU供電異常時無縫切換至BBU供電。
高端存儲性能提升,存儲備電方案挑戰(zhàn)升級
浪潮信息提出BBU冷備份模式無縫切換和"X+X"冗余供電控制方案:
1、PSU、BBU實現(xiàn)"X+X"冗余供電,三年產(chǎn)品生命周期內(nèi),BBU冗余供電狀態(tài)滿足兩次掉電數(shù)據(jù)備份要求;BBU非冗余供電狀態(tài)滿足存儲產(chǎn)品1次掉電數(shù)據(jù)備份要求。
2、相比傳統(tǒng)BBU熱備份供電,創(chuàng)新采用備用電池BBU冷備份無縫切換控制策略,滿足存儲系統(tǒng)高可靠性要求的同時,提高了電池的使用壽命,降低了BBU熱備份能耗和電池報廢數(shù)量,降低對環(huán)境的污染。
浪潮信息智能備電控制方案設(shè)計雙向流動充放電控制電路,BBU需要充電時,充放電模塊工作在BUCK充電模式,為BBU充電;數(shù)據(jù)備份BBU放電電壓低于一定閾值,充放電模塊工作在BOOST升壓放電模式,輸出電壓恒定。旁路放電+OR-ING線或控制電路保證PSU工作正常時BBU不為系統(tǒng)供電,PSU工作異常時無縫切換至BBU為系統(tǒng)供電。PSU為系統(tǒng)供電時BBU放電模塊不需要工作,降低了BBU熱備份能耗。
智能控制算法根據(jù)不同使用場景選用不同充電控制模式(預(yù)充、CC、CV)對BBU進行充放電管理,保證BBU供電時恒壓輸出,提高電池使用壽命的同時降低BBU電池報廢數(shù)量和對環(huán)境的污染。智能PID控制算法,調(diào)頻與調(diào)幅相結(jié)合,提高了充電、放電控制精度。根據(jù)負載大小選取不同控制算法,提高轉(zhuǎn)化效率,達到節(jié)能減排目的。BBU單節(jié)點供電升級成1+1冗余供電,全數(shù)字控制算法,優(yōu)化現(xiàn)有供電鏈路偵測、備電能力評估算法,杜絕了丟失數(shù)據(jù)隱患,提高供電穩(wěn)定性、可靠性。
存儲系統(tǒng)作為備電流程順利進行的關(guān)鍵,對BBU單元的管理至關(guān)重要,基于BBU單元自診斷的狀態(tài)信息,從以下五個方面進行智能備電狀態(tài)監(jiān)測處理,并對傳統(tǒng)監(jiān)測處理算法進行優(yōu)化:
1) 定期對BBU供電鏈路偵測,模擬存儲系統(tǒng)供電切換流程,BBU供電鏈路異常時提前識別鏈路隱患,出現(xiàn)隱患時存儲系統(tǒng)不會下電;
2) 定期評估BBU單元備電能力,深度放電提高評估精度,判定是否滿足存儲系統(tǒng)備電需求,同時消除BMS采樣累積誤差;
3) 存儲系統(tǒng)實時讀取BBU單元電壓與電流、電芯電壓與溫度、充放電MOS管溫度,接近BMS內(nèi)置閾值時異常修復(fù),無法修復(fù)時報警處理;
4) 充電過程自動監(jiān)測BBU備電能力,檢測是否滿足存儲系統(tǒng)一次備電需求,實時更新BBU狀態(tài);
5)存儲系統(tǒng)對BBU單元BMS狀態(tài)寄存器狀態(tài)值實時監(jiān)控,出現(xiàn)異常后智能修復(fù),無法修復(fù)及時告警,BBU非冗余模式,進入數(shù)據(jù)備份異常處理流程。
浪潮信息BBU狀態(tài)智能診斷,提前識別供電隱患,將潛在異常的識別率提升了5倍,杜絕了數(shù)據(jù)丟失風(fēng)險;問題診斷完成后,存儲系統(tǒng)對日志進行智能分析,準(zhǔn)確定位如BBU電芯異常、控制模塊異常、放電鏈路異常和系統(tǒng)散熱異常等問題源頭。
浪潮信息秉承"極致存儲,智慧有數(shù)"的理念,深耕于存儲平臺底層硬件創(chuàng)新研發(fā),全方位從源頭落實智能備電控制策略,充分發(fā)揮硬件平臺的數(shù)據(jù)備份處理優(yōu)勢,實現(xiàn)數(shù)據(jù)存得高效、存得可靠,打造安全可靠、經(jīng)濟高效、易用易管的存儲平臺。