Cloudflare聲稱,2022年6月21日一起大規模中斷影響了其十多個數據中心和數百個主要在線平台及服務,這起中斷是由本應增強網絡彈性的變更導緻的。
Cloudflare在調查此事件後表示:“今天即2022年6月21日,Cloudflare遭遇了中斷,結果影響了我們19個數據中心的數據流量。”
“遺憾的是,這19個數據中心站點處理我們全球流量的很大一部分。
這次中斷是作為一個長時間運行的項目一部分的變更引起的,原本旨在為我們最繁忙的那些站點增強彈性。”
據用戶報告,受影響網站和服務的完整列表包括但不限于:Amazon、Twitch、AWS、Steam、Coinbase、Telegram、Discord、DoorDash和Gitlab等。
中斷影響了Cloudflare最繁忙的站點
在全球各地的客戶和用戶開始陸續報告Cloudflare網絡連接中斷後,這家公司在協調世界時(UTC)上午 6點34分開始調查此事件。
Cloudflare聲稱:“如果客戶試圖訪問受影響地區的Cloudflare站點,就會遇到500出錯信息。該事件影響了我們網絡中的所有數據平面服務。”
雖然Cloudflare的系統狀态網站上發布的事件報告沒有詳細披露導緻中斷的原因,但該公司在官方博客上分享了有關6月21日這起中斷的更多信息。
Cloudflare團隊補充道:“這次中斷是作為一個長時間運行的項目一部分的變更引起的,原本旨在為我們最繁忙的站點增強彈性。”
“這些站點處的網絡配置變更導緻了從06點27分開始的中斷。在06點58分,第一個數據中心恢複正常運行,到07點42分有數據中心恢複正常工作。用戶可能無法訪問依賴Cloudflare的網站和服務,具體看用戶所在的位置。在其他地方,Cloudflare繼續正常運行。”
雖然受影響的位置僅占Cloudflare整個網絡的4%,但它們的中斷卻影響了Cloudflare在全球處理的所有HTTP請求中的大約50%。
Cloudflare中斷影響
導緻今天中斷的變更是一個更龐大項目的一部分,該項目将把Cloudlfare最繁忙站點的數據中心轉變成更具彈性和靈活性的架構,該架構内部名為多托管入網點(Multi-Colo PoP,即MCP)。
今天這起事件中受影響的數據中心站點包括:阿姆斯特丹、亞特蘭大、阿什本、芝加哥、法蘭克福、倫敦、洛杉矶、馬德裡、曼徹斯特、邁阿密、米蘭、孟買、紐瓦克、大阪、聖保羅、聖何塞、新加坡、悉尼和東京。
故障時間表:
3點56分UTC:我們将變更部署到我們的第一個站點。我們的所有站點都沒有受到變更的影響,因為這些站點使用舊架構。
06點17分:變更部署到我們最繁忙的那些站點,但未部署到采用MCP架構的站點。
06點27分:部署範圍擴大到了采用MCP的站點,變更部署到了我們的主幹交換機。這時候此事件開始了,迅速導緻這19個站點宕機。
06點32分:宣布Cloudflare遭遇内部事件。
06點51分:先對路由器進行變更,以證實根本原因。
06點58分:找到并搞清楚了根本原因。開始恢複有問題的變更。
07點42分:最後的恢複工作已完成。由于網絡工程師相互檢查彼此的變更,恢複以前的操作,導緻這個問題偶爾再次出現,這方面的進度因此有所耽誤。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!