航班延誤、銀行癱瘓!亞馬遜 云故障的原因找到了

北京時間10月21日,美國當地時間周一,亞馬遜AWS云服務發生重大故障,引發全球混亂,導致一些熱門在線服務無法使用,航班延誤,銀行癱瘓。這究竟是怎么回事呢?
01 罪魁禍首
亞馬遜AWS提供了工具和計算資源,使得約三分之一的互聯網得以運作。它提供存儲空間和數據庫管理,使得企業無需維護自己昂貴的基礎設施,同時還能將用戶流量導向這些平臺
AWS的服務銷售方式可以概括為:“讓我們替你管理企業的計算需求。”
但是在周一,一個十分普通的技術環節出了大問題:域名系統(DNS)錯誤,這是一種常見故障。
科技行業人聽到這個情況可能會見怪不怪。這種常見錯誤也能引發巨大混亂。
“永遠都是DNS的問題!”這是業內常說的一句話。

圖|影響的服務
當有人點擊應用或鏈接時,他們的設備基本上會發送一個請求,要求連接到該服務。DNS本應發揮地圖的作用,而AWS在周一卻迷失了方向。Snapchat、Canva和英國稅務海關總署等平臺仍然在那里,但它看不到它們的位置,無法將流量引導給它們。
02 故障原因
這些故障的發生原因多種多樣。通常是維護問題或服務器故障。有時則是人為失誤,比如某處的配置出錯,極端情況下也可能是網絡攻擊,盡管目前尚無證據表明此次事件源于攻擊。
亞馬遜AWS表示,故障發生在該公司位于弗吉尼亞州北部的龐大數據中心區域US-EAST-1,這是其運營歷史最久、規模最大的數據中心集群。
US-EAST-1是AWS最繁忙的數據中心之一,許多全球性的應用程序和網站都托管于此。問題的核心在于 “DynamoDB API的DNS解析”,這意味著系統無法正確找到名為 DynamoDB的關鍵數據庫服務的網絡地址。解析失敗會導致依賴該數據庫的應用程序無法訪問數據,從而引發連鎖反應,造成服務中斷或出現嚴重錯誤。這也解釋了為何即使底層服務器可能仍在正常運行,用戶卻無法訪問相關服務。

圖|DNS
當DNS解析中斷時,無論網站或服務的后端基礎設施多么強大,用戶的瀏覽器都無法定位到所需內容。這使得DNS成為網絡架構中一個至關重要但極其敏感的環節。任何對DNS的干擾都可能導致大規模網絡癱瘓,影響范圍從單個網站到整個地區的互聯網服務。亞馬遜目前正在全力修復這一根本問題,但部分服務在問題解決后仍可能存在“重大錯誤”,需要時間恢復正常。
這也是過去五年中,亞馬遜US-EAST-1數據中心區域至少第三次引發大規模互聯網癱瘓。亞馬遜并未解釋為何該數據中心屢次出問題。
03 依賴一家公司
眾多專家一致指出,周一的事件恰如其分地說明了將業務完全依賴單一服務提供商的風險。AWS作為行業巨頭,承載著數百萬企業的運營命脈。專家們的觀點固然正確,但問題在于,能達到AWS同等規模的服務商實在寥寥無幾。
專家和學者表示,這一問題凸顯了日常數字服務的高度互聯性,以及它們對少數全球云服務提供商的依賴。一次小小的故障就可能對商業運營和日常生活造成巨大沖擊。
“這次中斷再次凸顯了我們對相對脆弱的基礎設施的依賴。”歐洲網絡安全公司ESET全球網絡安全顧問杰克·摩爾(Jake Moore)表示。
在英國,根據宕機追蹤公司Downdetector英國網站的數據,勞埃德銀行、蘇格蘭銀行,以及電信服務提供商沃達豐和英國電信均受到影響,英國稅務海關總署的網站也未能幸免。
“這個問題的主要原因在于,所有這些大公司都依賴著同一家服務提供商。”薩里大學計算機科學系研究主任尼桑·薩斯特里(Nishanth Sastry)表示。
擁有Downdetector的Ookla公司表示,此次事件導致超過400萬用戶報告了服務問題。
保險經紀公司McGill and Partners的美國網絡業務負責人瑞安·格里芬(Ryan Griffin)表示:“對大型企業而言,數小時的云服務中斷就意味著數百萬美元的生產力和收入損失。”
然而,華爾街對此反應平淡,亞馬遜股價不降反升,上漲1.6%至216.48美元。



