omniture

亞馬遜高級(jí)副總裁兼杰出工程師James Hamilton談提高IT韌性的方法

亞馬遜云科技
2023-04-11 14:12 2919

云解決方案幫助企業(yè)更輕松地保護(hù)應(yīng)用,做到防患于未然

北京2023年4月11日 /美通社/ -- 近期,亞馬遜高級(jí)副總裁兼杰出工程師 James Hamilton 就提高IT韌性分享其觀點(diǎn)如下:現(xiàn)代企業(yè)為確保軟件系統(tǒng)的持續(xù)可用而承受著巨大的壓力。系統(tǒng)宕機(jī)不僅會(huì)給企業(yè)造成數(shù)百萬(wàn)美元的經(jīng)濟(jì)損失,還會(huì)對(duì)品牌形象以及客戶產(chǎn)生負(fù)面影響。

所有企業(yè)都面臨著越來(lái)越多的IT系統(tǒng)挑戰(zhàn)。例如,持續(xù)增加的遠(yuǎn)程系統(tǒng)調(diào)用、日益復(fù)雜和分布式的系統(tǒng),以及系統(tǒng)功能的頻繁更新等都會(huì)增加系統(tǒng)中斷的風(fēng)險(xiǎn)。

企業(yè)遷移到云端可以大大降低這種風(fēng)險(xiǎn)。云服務(wù)提供商規(guī)?;倪\(yùn)營(yíng)方式,讓其在基礎(chǔ)設(shè)施韌性方面持續(xù)深耕。在亞馬遜云科技,我們從一開始就在基礎(chǔ)設(shè)施、服務(wù)設(shè)計(jì)與部署、運(yùn)營(yíng)模式和機(jī)制中將韌性考慮其中。例如,亞馬遜云科技擁有99個(gè)可用區(qū)(截至2023年3月),由部署在世界各地的數(shù)據(jù)中心組成,可以承受幾乎任何類型或規(guī)模的中斷沖擊。

亞馬遜云科技為客戶提供了可靠的基礎(chǔ)設(shè)施,讓客戶構(gòu)建和運(yùn)行他們的應(yīng)用。但同時(shí)客戶也需要確保運(yùn)行在基礎(chǔ)設(shè)施之上的應(yīng)用同樣具有韌性。下面三種方法可以幫助企業(yè)提高韌性。

1. 盡可能擴(kuò)大自動(dòng)化范圍

根據(jù)Uptime Institute 的數(shù)據(jù),大約70%的數(shù)據(jù)中心和服務(wù)中斷是由人為錯(cuò)誤造成的。(我預(yù)測(cè)這個(gè)比例會(huì)更高,這也是亞馬遜云科技如此專注于自動(dòng)化的原因。)因?yàn)槭謩?dòng)操作會(huì)帶來(lái)風(fēng)險(xiǎn),為此從備份到測(cè)試需要盡可能地自動(dòng)化,自動(dòng)化是創(chuàng)建韌性架構(gòu)的關(guān)鍵。位于馬里蘭州農(nóng)村地區(qū)的一家獨(dú)立醫(yī)院CalvertHealth, 在將其應(yīng)用恢復(fù)系統(tǒng)遷移到亞馬遜云科技后也意識(shí)到這一點(diǎn)。

以前,電子健康記錄的數(shù)據(jù)備份是在企業(yè)數(shù)據(jù)中心服務(wù)器上手動(dòng)管理的,這些記錄對(duì)于患者的護(hù)理至關(guān)重要?;謴?fù)時(shí)間目標(biāo)(RTO)用于衡量中斷和恢復(fù)服務(wù)之間的最大允許時(shí)間,這一數(shù)值曾為48至72小時(shí)。CalvertHealth將其應(yīng)用恢復(fù)系統(tǒng)遷移到亞馬遜云科技后,RTO降至兩小時(shí)以下,縮短了97%。

在部署之前識(shí)別和解決代碼中的問題,也是構(gòu)建高可用性、高韌性應(yīng)用的重要組成部分。手動(dòng)審查依賴于審查人員的專業(yè)知識(shí)和識(shí)別潛在問題的能力。但是,借助機(jī)器學(xué)習(xí)(ML)加持的代碼審查工具,企業(yè)可以實(shí)現(xiàn)這一過程的自動(dòng)化,甚至還能優(yōu)化應(yīng)用性能。

Cognizant是世界領(lǐng)先的專業(yè)服務(wù)提供商之一,它使用亞馬遜云科技的自動(dòng)化代碼審查功能來(lái)幫助開發(fā)和運(yùn)營(yíng)團(tuán)隊(duì)主動(dòng)識(shí)別和解決問題,并確保其部署的性能、安全性和合規(guī)性超出了來(lái)自不同行業(yè)和地區(qū)的客戶的要求。

2. 持續(xù)測(cè)試來(lái)應(yīng)對(duì)未知

持續(xù)測(cè)試是工程師理解系統(tǒng)如何應(yīng)對(duì)未知情況的方法。實(shí)現(xiàn)這個(gè)目標(biāo)的做法之一是故意搞"破壞"。這被稱為"混沌工程",由Netflix開創(chuàng)。

通過這種方法,企業(yè)能夠執(zhí)行故障注入實(shí)驗(yàn),幫助團(tuán)隊(duì)營(yíng)造真實(shí)世界所需的條件,來(lái)發(fā)現(xiàn)分布式系統(tǒng)中難以甄別的隱藏錯(cuò)誤、盲點(diǎn)和性能瓶頸。

自21世紀(jì)初以來(lái),亞馬遜一直在不會(huì)對(duì)客戶產(chǎn)生影響的精準(zhǔn)控制的情況下,有意注入故障。這提高了我們的應(yīng)變能力,確保我們?yōu)樽顗牡那闆r做好了準(zhǔn)備。如果我們能觸發(fā)罕見事件,并更頻繁地調(diào)整應(yīng)對(duì)措施,那我們就做好了準(zhǔn)備。

另一種流行的測(cè)試方法是韌性"游戲日"(game days),它通過模擬一個(gè)失敗或其他事件來(lái)測(cè)試系統(tǒng)、流程和團(tuán)隊(duì)的響應(yīng)。這種方法的目的是盡可能逼真地演習(xí)如果異常事件真的發(fā)生,團(tuán)隊(duì)會(huì)采取的行動(dòng)。企業(yè)可以在亞馬遜云科技中使用其生產(chǎn)環(huán)境的完整副本進(jìn)行游戲日演練。

3. 統(tǒng)一可觀測(cè)性指標(biāo)

了解系統(tǒng)的運(yùn)行情況對(duì)實(shí)現(xiàn)卓越的運(yùn)營(yíng)和韌性至關(guān)重要。企業(yè)不斷收集和分析應(yīng)用數(shù)據(jù),才能更快地檢測(cè)和解決應(yīng)用可用性和性能方面存在的問題,從而改善最終用戶的體驗(yàn)。但隨著應(yīng)用復(fù)雜性的日益增加,問題出現(xiàn)時(shí)很難快速定位并加以解決。

例如,Docebo是一家全球電子學(xué)習(xí)技術(shù)供應(yīng)商,他們的開發(fā)人員在遇到問題時(shí)往往會(huì)花上幾天時(shí)間進(jìn)行故障排除。Docebo使用亞馬遜云科技的多種分析服務(wù),將其所有日志記錄和跟蹤數(shù)據(jù)進(jìn)行結(jié)合,創(chuàng)建了單一事實(shí)來(lái)源。為此,公司將故障排除時(shí)間縮短了90%,修復(fù)錯(cuò)誤的時(shí)間從70%-80%減少到15%以下。過去需要幾天才可以完成的工作現(xiàn)在只需要幾分鐘。

行而不輟,未來(lái)可期

IT韌性是一段無(wú)盡之旅。新技術(shù)、新威脅和新的處事之道層出不窮。這就是亞馬遜云科技不懈努力改進(jìn)基礎(chǔ)設(shè)施、服務(wù)設(shè)計(jì)、運(yùn)營(yíng)模式和機(jī)制,持續(xù)加強(qiáng)與發(fā)展云設(shè)施韌性的原因。亞馬遜云科技將持續(xù)為客戶提供廣泛、深入的架構(gòu)及運(yùn)營(yíng)最佳實(shí)踐服務(wù)、工具和指導(dǎo),為他們的韌性之旅提供支持。

消息來(lái)源:亞馬遜云科技
China-PRNewsire-300-300.png
全球TMT
微信公眾號(hào)“全球TMT”發(fā)布全球互聯(lián)網(wǎng)、科技、媒體、通訊企業(yè)的經(jīng)營(yíng)動(dòng)態(tài)、財(cái)報(bào)信息、企業(yè)并購(gòu)消息。掃描二維碼,立即訂閱!
collection