鐵道部售票網(wǎng)12306“三天兩宕” 脈山龍數(shù)據(jù)中心運(yùn)維專(zhuān)家支招
深圳2012年12月28日電 /美通社/ -- 繼12月24日“因機(jī)房空調(diào)系統(tǒng)故障”停止售票數(shù)小時(shí)之后,12月26日上午鐵道部12306訂票網(wǎng)站再度癱瘓,直到傍晚6點(diǎn)鐘左右才恢復(fù)正常,公告原因仍是“空調(diào)系統(tǒng)故障”。從事數(shù)據(jù)中心運(yùn)維服務(wù)近10年的專(zhuān)家、脈山龍公司服務(wù)業(yè)務(wù)部總經(jīng)理謝飛對(duì)此提出了專(zhuān)業(yè)的見(jiàn)解和建議,從數(shù)據(jù)中心運(yùn)維角度為12306支招。
鐵道部售票網(wǎng)(www.12306.cn)“三天兩宕”,引發(fā)業(yè)界、媒體及網(wǎng)友質(zhì)疑的同時(shí),即將到來(lái)的春運(yùn)購(gòu)票高峰期更讓不少旅客憂(yōu)心忡忡??照{(diào)故障是導(dǎo)致售票網(wǎng)站癱瘓的罪魁禍?zhǔn)讍幔繛槭裁礄C(jī)房空調(diào)故障會(huì)導(dǎo)致網(wǎng)站售票系統(tǒng)無(wú)法正常運(yùn)行呢?在現(xiàn)有技術(shù)架構(gòu)下,如何能有效降低設(shè)備故障率,保障售票網(wǎng)站正常運(yùn)行呢?從事數(shù)據(jù)中心運(yùn)維服務(wù)近10年的專(zhuān)家脈山龍公司服務(wù)業(yè)務(wù)部總經(jīng)理謝飛提出了專(zhuān)業(yè)的見(jiàn)解和建議,從數(shù)據(jù)中心運(yùn)維角度為12306支招。
12306癱瘓?jiān)蚪馕觯嚎照{(diào)故障是造成系統(tǒng)癱瘓的重要因素
回顧12306歷次停擺事件,網(wǎng)站技術(shù)架構(gòu)及中標(biāo)的相關(guān)服務(wù)方都成為被外界質(zhì)疑的熱點(diǎn)話題。數(shù)據(jù)中心運(yùn)維整體服務(wù)商脈山龍公司服務(wù)業(yè)務(wù)部總經(jīng)理謝飛認(rèn)為,12306本質(zhì)上與蘇寧易購(gòu)、京東商城、淘寶網(wǎng)等電商網(wǎng)站一樣,對(duì)同時(shí)并發(fā)訪問(wèn)和下單的響應(yīng)要求極高,但鐵路售票系統(tǒng)需要處理大量車(chē)次、坐席、時(shí)間等查詢(xún)?nèi)蝿?wù),對(duì)服務(wù)器請(qǐng)求處理的能力要求非常之高。在現(xiàn)有技術(shù)架構(gòu)下,鐵道部為提高響應(yīng)速度和購(gòu)票體驗(yàn),不斷增加服務(wù)器等硬件設(shè)備和功耗無(wú)疑給既定的空調(diào)系統(tǒng)和動(dòng)力系統(tǒng)帶來(lái)沉重的負(fù)擔(dān),壓縮了動(dòng)力系統(tǒng)和制冷系統(tǒng)冗余空間,可能一臺(tái)空調(diào)設(shè)備發(fā)生故障就會(huì)導(dǎo)致整個(gè)機(jī)房的溫度上升,最終導(dǎo)致服務(wù)器過(guò)熱而宕機(jī)。
謝飛表示,空調(diào)系統(tǒng)非常重要,數(shù)據(jù)中心內(nèi)的服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)設(shè)備等硬件運(yùn)行時(shí)產(chǎn)生大量的熱量,對(duì)于制冷的要求非常之高。國(guó)標(biāo)對(duì)于機(jī)房的溫度要求一般在23±2度,一般的服務(wù)器如果進(jìn)風(fēng)口溫度在40攝氏度以上,服務(wù)器就會(huì)因?yàn)闊岜Wo(hù)自動(dòng)關(guān)機(jī)。如果機(jī)房溫度超過(guò)30攝氏度就有可能導(dǎo)致部分熱積聚區(qū)域的服務(wù)器宕機(jī),機(jī)房溫度在35攝氏度以上就可能有較多的服務(wù)器宕機(jī),超過(guò)40攝氏度,將會(huì)有大部分的服務(wù)器宕機(jī)。一旦空調(diào)故障停機(jī),機(jī)房?jī)?nèi)的溫度會(huì)迅速升溫,半個(gè)小時(shí)內(nèi)機(jī)房溫度就可達(dá)到50攝氏度以上,這時(shí)大部分服務(wù)器等設(shè)備都會(huì)因?yàn)檫^(guò)熱而宕機(jī),造成系統(tǒng)癱瘓??照{(diào)故障是造成系統(tǒng)癱瘓的一個(gè)很重要的因素。
專(zhuān)家支招:災(zāi)備是前提,運(yùn)維管理是根本
數(shù)據(jù)中心常見(jiàn)故障如斷電、空調(diào)故障、UPS 故障、網(wǎng)絡(luò)接口線路松動(dòng)等,空調(diào)故障可能只是造成12306宕機(jī)的一個(gè)原因,但一般數(shù)據(jù)中心都有備用空調(diào)、UPS 等設(shè)備,并輪流使用和定期保養(yǎng),一旦遇到設(shè)備故障,可實(shí)現(xiàn)平滑無(wú)縫切換備用設(shè)備,不會(huì)影響系統(tǒng)正常運(yùn)行。謝飛認(rèn)為,12306這種支撐超大訪問(wèn)量的數(shù)據(jù)中心應(yīng)該也配有備用空調(diào),“空調(diào)故障導(dǎo)致系統(tǒng)停止運(yùn)行,極大可能是運(yùn)維技術(shù)團(tuán)隊(duì)對(duì)空調(diào)系統(tǒng)和數(shù)據(jù)中心的日常運(yùn)維的缺位?!?/p>
同時(shí),為保障業(yè)務(wù)的連續(xù)性,目前大部分企業(yè)的數(shù)據(jù)中心都設(shè)有災(zāi)備中心,通常采用雙機(jī)熱備、定時(shí)備份以及異地存儲(chǔ)和備份的方式,尤其是金融行業(yè)已經(jīng)開(kāi)始引入虛擬化和云計(jì)算的新技術(shù),形成“兩地三中心”的備份模式,能確保數(shù)據(jù)的安全。謝飛建議,如果12306業(yè)務(wù)均集中在一個(gè)數(shù)據(jù)中心處理,安全系數(shù)非常低,一定要考慮建設(shè)備份中心,進(jìn)行數(shù)據(jù)的實(shí)時(shí)傳輸和容災(zāi)備份,這是數(shù)據(jù)中心安全運(yùn)行的前提。一旦主數(shù)據(jù)中心癱瘓,系統(tǒng)就可以實(shí)時(shí)切換到備份中心繼續(xù)運(yùn)行。
他還建議,數(shù)據(jù)中心運(yùn)維團(tuán)隊(duì)?wèi)?yīng)對(duì)監(jiān)控報(bào)警系統(tǒng)進(jìn)行測(cè)試和檢查,一旦機(jī)房空調(diào)系統(tǒng)故障導(dǎo)致機(jī)房?jī)?nèi)溫、濕度升高或設(shè)備出現(xiàn)溫度告警等異?,F(xiàn)象時(shí),還應(yīng)執(zhí)行機(jī)房空調(diào)故障應(yīng)急處理預(yù)案,將影響降到較低。
有著豐富經(jīng)驗(yàn)的謝飛,作為脈山龍公司服務(wù)業(yè)務(wù)部負(fù)責(zé)人,目前掌管著包括金融、商業(yè)連鎖、通信電子、政府等行業(yè)上千家企業(yè)機(jī)構(gòu)的數(shù)據(jù)中心運(yùn)維服務(wù)業(yè)務(wù)。以他多年的運(yùn)維經(jīng)驗(yàn)來(lái)看,備份和運(yùn)維缺一不可,可以保障業(yè)務(wù)連續(xù)不中斷,但是,“即使采取各個(gè)層次的容災(zāi)備份方式,建立了災(zāi)備中心,運(yùn)維服務(wù)管理仍然是問(wèn)題的根本所在,良好的運(yùn)維服務(wù)管理能使數(shù)據(jù)中心保持健康狀態(tài),也只有服務(wù)管理才能防患未然、真正降低故障率。”謝飛提到本月中旬網(wǎng)傳中行信用卡 IBM 大機(jī)宕機(jī)超過(guò)4小時(shí)的事件,他指出盡管大型機(jī)一般都很穩(wěn)定,但發(fā)生宕機(jī)或故障后,未能及時(shí)切換災(zāi)備、快速恢復(fù)運(yùn)行,還是跟系統(tǒng)監(jiān)控檢查、監(jiān)控預(yù)警、日常的運(yùn)營(yíng)演習(xí)、災(zāi)備演習(xí)等日常運(yùn)維存在很大關(guān)系。
建立在一系列標(biāo)準(zhǔn)運(yùn)維流程基礎(chǔ)上的數(shù)據(jù)中心運(yùn)維服務(wù)管理,可以跟蹤記錄設(shè)備的動(dòng)態(tài)歷史運(yùn)維數(shù)據(jù),通過(guò)分析這些數(shù)據(jù)提供數(shù)據(jù)中心的健康狀態(tài),為用戶(hù)的 IT 決策提供依據(jù)?!爸匾暺鸱?wù)的管理,12306可以實(shí)現(xiàn)數(shù)據(jù)中心各個(gè)子系統(tǒng)健康狀況的可視化,在設(shè)備還沒(méi)有出現(xiàn)故障之前,就已經(jīng)及時(shí)進(jìn)行了維修或更換,機(jī)房的可用性就能得到極大提升”,謝飛總結(jié)道,“T4的機(jī)房規(guī)劃還需要T4的運(yùn)營(yíng)管理?!?/p>