omniture

浪潮天梭M13之故障管理系統(tǒng) 發(fā)現問題比解決問題更重要

2017-11-01 10:46 5652
天梭M13關鍵主機的眾多高可用技術之一 -- FMS 故障管理系統(tǒng),是一套完整的服務器軟硬件健康管理容錯保護系統(tǒng),為客戶提供故障定位、診斷、預測等服務,保證客戶關鍵業(yè)務長久安全穩(wěn)定運行。

北京2017年11月1日電 /美通社/ -- 天梭M13關鍵主機的眾多高可用技術之一 -- FMS 故障管理系統(tǒng),是一套完整的服務器軟硬件健康管理容錯保護系統(tǒng),為客戶提供故障定位、診斷、預測等服務,保證客戶關鍵業(yè)務長久安全穩(wěn)定運行。

天梭M13關鍵應用主機是浪潮自主研制的在線交易處理性能較強的單機服務器系統(tǒng),面向對穩(wěn)定性和可用性極高的銀行、政府、大企業(yè)的超大型數據庫應用設計,具備比肩大型機的處理性能。要持續(xù)支撐如此強悍的業(yè)務處理能力絕非易事,浪潮匯聚在服務器研發(fā)、維護領域多年成功經驗,為天梭M13主機配備了各項尖端RAS技術,助力客戶業(yè)務長久穩(wěn)定運行。RAS 特性中的 R "Reliability" 高可用性對于大型關鍵應用主機來說尤為關鍵,其作用體現在及時應對突發(fā)故障以及警示維護人員規(guī)避故障風險上,可以顯著延長服務器整系統(tǒng)平均無故障時間,維持客戶關鍵應用持續(xù)穩(wěn)定運行。完備的高可用性是服務器達到“五個9”的重要衡量指標之一,下文介紹天梭M13關鍵主機的眾多高可用技術之一 -- FMS故障管理系統(tǒng)。

快速準確找到問題已成為一個問題

如今隨著客戶業(yè)務類型及業(yè)務量的不斷攀升,生產系統(tǒng)所產生的故障信息也越來越多。為了保證系統(tǒng)的正常運行,很多數據中心都會實時監(jiān)控系統(tǒng)產生的消息,希望能夠及時發(fā)現系統(tǒng)中存在的潛在問題。然而,隨著交易數量的不斷增加,大量消息的產生,讓人應接不暇,監(jiān)控系統(tǒng)也變得越來越困難。對于一個龐大的系統(tǒng)來說,一旦問題出現,想從浩如煙海的故障消息中去定位這個問題是一件異常困難的事。對于一些大型的業(yè)務系統(tǒng),一天所產生的日志量可能達到幾十個G的數量級。 要在這些數據中去尋找問題出現的根源,無疑是一項重大挑戰(zhàn)。因此,急需一種能夠方便監(jiān)控系統(tǒng)和定位的問題的工具。FMS 就是在這樣的需求下,應運而生的。

如何找到問題 -- FMS 自動化定位,預測、容錯

FMS 故障管理系統(tǒng)是一套完整的服務器軟硬件健康管理容錯保護系統(tǒng),是為浪潮服務器打造的“健康衛(wèi)士360”,具有故障自動化定位,預測、容錯和自動化故障處理的功能,支持多層級故障管理架構自主擴展,自動故障診斷及智能故障預測,同時通過浪潮服務故障診斷數據庫,建立了故障的數據化分析和科學預測的平臺。

不同于集群或單機服務器監(jiān)控軟件,FMS故障管理系統(tǒng)采取輕量級故障信息捕獲技術,對于大部分故障事件的處理采用主動通知方式,當故障發(fā)生時主動報告給故障管理系統(tǒng),無故障發(fā)生時不消耗系統(tǒng)資源。機器正常運行狀態(tài)下,FMS 故障管理系統(tǒng)對于正在運行的業(yè)務不產生任何干擾,故障管理系統(tǒng) CPU 占用不超過1%,內存占用低于5M,對系統(tǒng)性能沒有任何影響。

如何處理問題 -- FMS 的實戰(zhàn)服務器故障規(guī)則庫

浪潮多年服務器銷售、維護經驗,搭建了一整套基于實戰(zhàn)的服務器故障規(guī)則庫,積累了豐富的故障判斷規(guī)則和處理經驗。龐大的故障診斷規(guī)則數據庫,支持 BMC、CPU、內存、磁盤、網絡、XFS、PCIE、MD、死鎖、內核等多設備故障檢測診斷,每條規(guī)則都經過了嚴格的測試來驗證其準確性,確保其在生產環(huán)境中穩(wěn)定可靠。經由這些規(guī)則可以診斷檢測出機器設備或系統(tǒng)的故障問題,并劃分故障嚴重等級,及時給出處理方案。

如何提前預警 -- FMS 學習模型

涵蓋 CPU,內存,網卡,文件系統(tǒng)等服務器硬件軟件各個層次的故障信息。能夠對磁盤進行故障預測:通過大數據的積累分析,建立學習模型,實現提前預測并預警磁盤故障,提示客戶在故障發(fā)生前進行妥當的維護處理。支持節(jié)點高可用方式,節(jié)點發(fā)生故障,無法登陸界面的時候,可以利用其它機器分析故障機器的信息。例如:當一個內存條(內存頁面)上,24小時發(fā)生10個 "Memory write error" 故障的話,就將該內存頁面離線并報告該內存條的具體位置,通知管理員及時更換內存條。

如何降低運維難度 -- FMS 健康狀態(tài)評估系統(tǒng)

FMS 故障管理系統(tǒng)提供整體健康狀態(tài)評估系統(tǒng),周期性的全方深度檢查服務器的每一個角落,為客戶直觀展示服務器各組成部件的健康狀態(tài)、故障情況以及可能產生的安全隱患。與故障管理工具相互配合,對檢查出來的故障和隱患進行自助修復、隔離,若有硬件級別無法處理的故障,則會提示聯系廠家進行維修和更換,這種提示的定位可以精確到主板的某一個槽位上,對于天梭M13這種龐大的系統(tǒng),硬件級別的精準故障定位極大程度降低了運維人員的維護難度。

浪潮天梭M13系統(tǒng)不但能提前預測、預警,又能快速自動化定位,找到問題,處理問題,為客戶關鍵應用持續(xù)穩(wěn)定運行保駕護航。

消息來源:浪潮集團
China-PRNewsire-300-300.png
全球TMT
微信公眾號“全球TMT”發(fā)布全球互聯網、科技、媒體、通訊企業(yè)的經營動態(tài)、財報信息、企業(yè)并購消息。掃描二維碼,立即訂閱!
collection