北京2022年12月13日 /美通社/ -- 存儲(chǔ)系統(tǒng)是由控制器、背板、結(jié)構(gòu)件、硬盤、內(nèi)存等部件構(gòu)成的多個(gè)子系統(tǒng)組成,其中任何單一元器件故障都可能導(dǎo)致存儲(chǔ)系統(tǒng)出現(xiàn)問題。因此,系統(tǒng)可靠運(yùn)行的基礎(chǔ),離不開元器件、部件以及整個(gè)控制系統(tǒng)的可靠性設(shè)計(jì)。浪潮存儲(chǔ)從系統(tǒng)級(jí)開發(fā)、電路板級(jí)開發(fā)、部件引入、生產(chǎn)加工等多個(gè)環(huán)節(jié)來保障系統(tǒng)的可靠性及穩(wěn)定性。
系統(tǒng)級(jí)可靠性設(shè)計(jì)
在存儲(chǔ)系統(tǒng)中,許多元器件發(fā)生故障是由于系統(tǒng)設(shè)計(jì)不合理或元器件使用不當(dāng)所造成的,并不是元件本身存在缺陷。浪潮存儲(chǔ)系統(tǒng)級(jí)可靠性設(shè)計(jì)包含:可靠性模型建立及評(píng)估、冗余設(shè)計(jì)、容錯(cuò)設(shè)計(jì)、故障隔離(失效分析)、熱設(shè)計(jì)、EMC/EMI(Electro Magnetic Compatibility/Electromagnetic Interference,電磁兼容性/電磁干擾)設(shè)計(jì)、安規(guī)設(shè)計(jì)、環(huán)境及結(jié)構(gòu)設(shè)計(jì)等。
其一,控制器單元冗余設(shè)計(jì)。關(guān)鍵元器件增加完全相同功能的備用通道,保障該部分出現(xiàn)故障時(shí)不影響系統(tǒng)正常運(yùn)行。比如雙BIOS設(shè)計(jì),當(dāng)BIOS由于Flash芯片故障或者升級(jí)失敗損壞時(shí),可由備用BIOS接管,從而避免無法開機(jī)??刂破魅哂嘣O(shè)計(jì)以犧牲成本為代價(jià),但存儲(chǔ)系統(tǒng)設(shè)計(jì)首要考慮因素應(yīng)是其可靠性。
其二,控制單元掉電保護(hù)。存儲(chǔ)系統(tǒng)增加BBU電池(Battery Back-Up)來抵抗電網(wǎng)瞬間斷電或電壓突降等突發(fā)因素,軟件系統(tǒng)將掉電信號(hào)定義為最高級(jí)別中斷,使控制單元能及時(shí)對掉電做出反應(yīng),防止數(shù)據(jù)丟失,確保業(yè)務(wù)的連續(xù)性。
其三,結(jié)構(gòu)設(shè)計(jì)。結(jié)構(gòu)可靠性設(shè)計(jì)是硬件可靠性設(shè)計(jì)的重要階段。結(jié)構(gòu)設(shè)計(jì)時(shí),首先應(yīng)注意元器件及部件的安裝方式,其次是控制系統(tǒng)工作環(huán)境的條件(如通風(fēng)、除濕、防塵等)。
其四,噪聲抑制。存儲(chǔ)系統(tǒng)主要通過如下方式對噪聲進(jìn)行抑制:首先,選擇高效率雙馬達(dá)風(fēng)扇,優(yōu)化系統(tǒng)散熱所需風(fēng)扇轉(zhuǎn)速;其次,優(yōu)化節(jié)點(diǎn)導(dǎo)風(fēng)罩設(shè)計(jì),降低單節(jié)點(diǎn)流阻;再次,系統(tǒng)風(fēng)扇調(diào)控導(dǎo)入PID控制,降低低負(fù)載時(shí)系統(tǒng)風(fēng)扇轉(zhuǎn)速;最后,通過散熱器優(yōu)化、風(fēng)道布局優(yōu)化及系統(tǒng)流阻優(yōu)化改善散熱效果,從而降低正常工作負(fù)載下設(shè)備噪聲。
其五,散熱設(shè)計(jì)。存儲(chǔ)系統(tǒng)通過對系統(tǒng)布局進(jìn)行風(fēng)道劃分,一般分為:Memory風(fēng)道、CPU風(fēng)道、節(jié)點(diǎn)風(fēng)道,各風(fēng)道之間利用機(jī)箱布局的結(jié)構(gòu)件實(shí)現(xiàn)風(fēng)道的串聯(lián)或并聯(lián)。風(fēng)機(jī)散熱風(fēng)量通過系統(tǒng)風(fēng)扇加速后,進(jìn)入并聯(lián)的節(jié)點(diǎn)風(fēng)道,從節(jié)點(diǎn)尾部的開孔結(jié)構(gòu)排出,從而保障系統(tǒng)的穩(wěn)定運(yùn)行。
其六,系統(tǒng)日志收集。存儲(chǔ)系統(tǒng)會(huì)在一定的時(shí)間周期內(nèi)收集系統(tǒng)的信息,并自動(dòng)創(chuàng)建可以查看的文件。當(dāng)存儲(chǔ)出現(xiàn)故障時(shí),可以通過日志快速定位到出問題的部件。
電路板開發(fā)可靠性設(shè)計(jì)
存儲(chǔ)研發(fā)團(tuán)隊(duì)在設(shè)計(jì)過程中,正確使用各種型號(hào)的元器件或集成電路,提高硬件可靠性是不可忽視的重要因素。
一是電路設(shè)計(jì)。據(jù)統(tǒng)計(jì),影響存儲(chǔ)系統(tǒng)可靠性的因素約45%來自系統(tǒng)設(shè)計(jì)。為了保證系統(tǒng)的可靠性,在電路設(shè)計(jì)時(shí)應(yīng)考慮最極端的情況。單板設(shè)計(jì)應(yīng)考慮所有元件的公差,并取其最不利的數(shù)值核算電路每一個(gè)規(guī)定的特性。如果這一組參數(shù)值能保證電路正常工作,那么在公差范圍內(nèi)的其他所有元件值都能使電路可靠地工作。在設(shè)計(jì)電路時(shí),開發(fā)人員還會(huì)對單板元器件進(jìn)行降額分析,對重要元器件給出熱應(yīng)力、電應(yīng)力的降額情況,并根據(jù)以往器件失效分析(FEMA)的經(jīng)驗(yàn),對容易損壞的集成電路、關(guān)鍵元器件進(jìn)行優(yōu)化設(shè)計(jì)。
二是元器件選擇。在確定元器件參數(shù)之后,還要確定元器件的型號(hào),這主要取決于電路所允許的公差范圍。由于制造工藝所限,有些元器件參數(shù)的公差范圍可能較大,如電容器電容量等。此外,元器件的額定工作條件包括多個(gè)方面(如電流、電壓、頻率、機(jī)械參數(shù)以及環(huán)境溫度等),設(shè)計(jì)時(shí)要考慮參數(shù)裕量,并確保運(yùn)行在工作條件范圍內(nèi)。
三是電氣性能。元器件的電氣性能是指元器件所能承受的電壓、電流、電容、功率等能力,在使用時(shí)要注意元器件的電氣性能,不能超限使用。
四是SI(signal integrity信號(hào)完整性)仿真設(shè)計(jì)。伴隨著信號(hào)頻率的提升,在存儲(chǔ)系統(tǒng)上分析和發(fā)現(xiàn)信號(hào)完整性問題并有效解決是非常復(fù)雜的。存儲(chǔ)系統(tǒng)借助EDA(Electronic Design Automation,電子設(shè)計(jì)自動(dòng)化)工具,對電路的參數(shù)進(jìn)行仿真分析,提前發(fā)現(xiàn)問題,從而縮短研發(fā)周期,降低研發(fā)成本。
五是生產(chǎn)工藝。由于工藝原因引起的故障通常很難定位排查,一個(gè)焊點(diǎn)的虛焊很可能導(dǎo)致整個(gè)系統(tǒng)在工作過程中出現(xiàn)不穩(wěn)定現(xiàn)象。因此,設(shè)計(jì)印制電路板時(shí)應(yīng)考慮元器件的布局、引線的走向、引線的分類排序等。
六是硬件測試。浪潮存儲(chǔ)研發(fā)團(tuán)隊(duì)引入價(jià)值上百萬的高端測試設(shè)備,其中包含50G高端示波器、50G高帶寬硬件鏈路誤碼儀以及相關(guān)治具。存儲(chǔ)硬件研發(fā)團(tuán)隊(duì)制定了全覆蓋、無遺漏的信號(hào)測試規(guī)范,并進(jìn)一步加強(qiáng)加固驗(yàn)證測試。其中包括板卡間熱插拔、固件反復(fù)升級(jí)驗(yàn)證、單/雙控故障,板間信號(hào)動(dòng)態(tài)測試,低溫啟動(dòng)、高溫壓力測試,加強(qiáng)驗(yàn)證SI鏈路可靠性測試。
部件引入確保可靠性設(shè)計(jì)
硬盤作為存儲(chǔ)介質(zhì)的中堅(jiān)力量,保證機(jī)械硬盤的安全性和可靠性成為存儲(chǔ)研發(fā)部件團(tuán)隊(duì)的重中之重。浪潮存儲(chǔ)研發(fā)團(tuán)隊(duì)通過與硬盤廠商的技術(shù)分享搭配自己的專利技術(shù),形成了一套包括磁盤的加密、協(xié)議層的定制以及寫緩存的關(guān)閉等技術(shù)的定制方案。配合Raid技術(shù)更好地保證了客戶對數(shù)據(jù)安全性的要求,開發(fā)出了一套獨(dú)有的篩盤方案和篩盤設(shè)備來滿足金融等行業(yè)用戶的需求。
針對存儲(chǔ)設(shè)備,浪潮存儲(chǔ)研發(fā)團(tuán)隊(duì)開發(fā)了多控制器系統(tǒng),配合鎖盤技術(shù)、硬盤定制化以及Raid技術(shù),實(shí)現(xiàn)了硬盤高速讀寫的需求和安全性、可靠性的完美結(jié)合。硬盤經(jīng)過引入測試、兼容性測試、篩盤測試、老化測試等層層把控為存儲(chǔ)設(shè)備打造堅(jiān)實(shí)底座。
生產(chǎn)制造保障可靠性
生產(chǎn)制造是產(chǎn)品生命周期中重要一環(huán),通過批量生產(chǎn)和用戶反饋有助于發(fā)現(xiàn)更多前期設(shè)計(jì)遺漏和缺陷,及時(shí)維護(hù)查缺補(bǔ)漏。
浪潮存儲(chǔ)在生產(chǎn)線引入了用于測試存儲(chǔ)產(chǎn)品在不同溫度條件下是否可以正常穩(wěn)定運(yùn)行的溫循房,環(huán)境溫度可以根據(jù)需求隨時(shí)調(diào)整,加速缺陷部件的故障復(fù)現(xiàn),從而降低產(chǎn)品到貨即損(DOA)的情況。同時(shí),提出增加極限場景測試和模擬客戶實(shí)際使用場景的長穩(wěn)壓力測試等生產(chǎn)模式,提高存儲(chǔ)產(chǎn)品穩(wěn)定性和可靠性。
高端存儲(chǔ)產(chǎn)品必須保證極致穩(wěn)定,設(shè)備生產(chǎn)完畢后先進(jìn)行7至14天的長穩(wěn)測試,測試用例中模擬客戶實(shí)際業(yè)務(wù)場景,采用客戶常見的數(shù)據(jù)類型進(jìn)行壓力測試,觀察測試過程中存儲(chǔ)設(shè)備是否有告警和異常,將一切不穩(wěn)定因素?cái)r截在生產(chǎn)階段,保證設(shè)備交付后的穩(wěn)定、可靠運(yùn)行。
近年來,浪潮存儲(chǔ)持續(xù)加大研發(fā)投入和創(chuàng)新,致力于打造安全、可靠、經(jīng)濟(jì)、高效的數(shù)據(jù)存儲(chǔ)底座,不斷追求“極致穩(wěn)定”,為數(shù)據(jù)存儲(chǔ)保駕護(hù)航,服務(wù)各行各業(yè)。