如果有人對Amazon Web Services在保持商業(yè)網(wǎng)站平穩運行中的關(guān)鍵作用有任何疑問(wèn),那么該問(wèn)題在2月28日該公司的S3存儲服務(wù)的一部分關(guān)閉時(shí)得到了明確的答復。這次故障使從Apple到Zendesk等公司運營(yíng)的數十種Web服務(wù)消失了。

令許多用戶(hù)感到沮喪的是,應該報告其Web服務(wù)運行狀況的Amazon AWS儀表板報告了一切正常運行(即使顯然不是)。這樣做的原因是,儀表板依賴(lài)于A(yíng)mazon的S3存儲,無(wú)法接收有關(guān)中斷的更新信息。
AWS承認存在問(wèn)題,并承諾保持客戶(hù)更新。但是更新在下午中旬停止了。AWS團隊的最后一條推文是:“對于S3,我們認為我們了解根本原因,并且正在努力進(jìn)行修復。所有服務(wù)的未來(lái)更新都將顯示在儀表板上。”此前,該公司曾承諾在Twitter上進(jìn)行更新。
但是,一旦公司在其數據中心所在的北弗吉尼亞州的位置再次運行了S3服務(wù),Service Health Dashboard就開(kāi)始準確報告情況。
那時(shí),位于該數據中心狀態(tài)報告中的服務(wù)表明該問(wèn)題已解決。AWS在下午2:19報道說(shuō),“在太平洋標準時(shí)間上午9:37到下午1:57之間,我們在與其他AWS服務(wù)進(jìn)行通信時(shí),在US-EAST-1地區中API網(wǎng)關(guān)請求的錯誤率提高了。部署新的API或修改現有的API也受到了影響。問(wèn)題已解決,服務(wù)正常運行。”
對儀表盤(pán)進(jìn)行仔細檢查后發(fā)現,位于亞馬遜北弗吉尼亞州的某些服務(wù)可能仍然微不足道,但在其他方面看來(lái)它仍然可以正常運行。
那么,Amazon S3服務(wù)實(shí)際上發(fā)生了什么?該公司還不是很好,但是它對API網(wǎng)關(guān)請求的錯誤率升高的評論表明該問(wèn)題與基礎架構有關(guān),這可能是路由器問(wèn)題。
但是,當然,這只是一個(gè)猜測。但是,最近許多大規模的服務(wù)中斷(例如航空公司預訂系統)似乎都歸結為路由器問(wèn)題,因此做出這樣的假設是合理的。另外,路由器更新經(jīng)常是此類(lèi)問(wèn)題的根本原因。亞馬遜沒(méi)有說(shuō)出問(wèn)題的真正原因是什么,所以它可能是從黑客入侵到配置問(wèn)題。我們只是不知道。
我們確實(shí)知道的一件事是,AWS及其S3服務(wù)是問(wèn)題的一部分,但這不是因為它不可靠。實(shí)際上,Amazon的服務(wù)是如此可靠,以至于其客戶(hù)對AWS的依賴(lài)程度可能比其應有的程度更高。從大多數客戶(hù)的角度來(lái)看,AWS永遠不會(huì )失敗,因此他們不認為需要計劃停機。
當然,除了它是什么時(shí)候。然后,正如我們看到的那樣,客戶(hù)幾乎沒(méi)有任何更新和解釋。但是,缺乏解釋可能會(huì )令人討厭,客戶(hù)真正需要的是重新開(kāi)始工作。這需要一些計劃。
該計劃的第一階段必須是為您保留在S3存儲服務(wù)中的項目找到備用存儲位置。這可能意味著(zhù)將備份保留在另一個(gè)區域的S3存儲中,或者可能意味著(zhù)完全使用另一個(gè)存儲服務(wù)。這樣,如果S3存儲出現故障,則可以無(wú)縫切換到其他服務(wù)。
理想情況下,Amazon可以在其S3產(chǎn)品中提供冗余存儲,因此,如果該服務(wù)像2月28日那樣發(fā)生故障,則數據請求將自動(dòng)路由到另一個(gè)站點(diǎn)。該計劃的潛在問(wèn)題是,如果冗余依賴(lài)于還存儲在A(yíng)WS中的信息,那么當區域出現故障時(shí),冗余也是如此。
但是,假設亞馬遜可以避免犯這種錯誤,并且我確信該公司可以做到,那么它就有一種很好的方法來(lái)保護客戶(hù),使其不會(huì )犯同樣的錯誤,即假設亞馬遜永遠不會(huì )倒下。
更好的方法是假設AWS和所有其他云服務(wù)都將崩潰,然后計劃解決方案。實(shí)際上,這樣的假設是良好的安全實(shí)踐。冗余對于確保您的數據始終無(wú)故障可用非常重要。
這就是為什么現有數據中心具有冗余服務(wù)器,冗余網(wǎng)絡(luò )路由器和電源的原因。這也是為什么他們擁有比實(shí)際所需更多的發(fā)電機來(lái)保持數據中心正常運行的原因。
一些數據中心甚至超出了對可靠性的追求,甚至達到了擁有多余的冷凍水庫的程度,因此不太可能損失系統冷卻劑。擁有冗余數據存儲庫只是確??梢越桓犊蛻?hù)所需信息的一部分。
借助AWS及其高度的可靠性,很容易忘記這樣的課程,但它們仍然很重要。
