當地時間7月2日淩晨1點35分開始,日本運營商KDDI的移動網絡發生大規模通信故障,導緻全日本範圍内無法撥打電話、無法收發短信、數據通信變慢。
此次事故影響範圍大,持續時間長,影響用戶數量達3915萬,故障一直持續到7月4日下午才基本完全恢複,給日本全社會造成了極大的不便和損失,也是KDDI有史以來遭遇的最大一次網絡系統故障。
故障發生後,KDDI高層及時召開新聞發布會,向廣大深受影響的個人和企業用戶鞠躬緻歉,并表示考慮賠償損失。
那究竟是什麼原因造成了此次大規模通信故障?看完KDDI的報告後,發人深省。
故障原因一:
核心路由器割接失敗
7月2日淩晨,KDDI組織工程師對連接全國移動核心網和中繼網絡的一個核心路由器進行割接,将老舊的核心路由器更換為新産品。
不幸的是,通信人最擔心的噩夢發生了——割接失敗了。在更換核心路由器的過程中,新的核心路由器出現了不明原因的故障。
搞通信的夥伴們都知道,核心路由器位于網絡核心位置,是整個網絡的“交通樞紐”,不僅性能強悍、價格昂貴,且需時時刻刻保持穩定運行,否則,一旦出現問題,動辄可能影響全網數百萬甚至數千萬用戶。
正因如此,核心路由器割接好比為活人換“心髒”,是一項極具挑戰的工作,也對要更換的新産品的成熟性、穩定性、互聯互通性等能力要求極高。
但KDDI偏偏在這項要求極其謹慎的工作上掉了鍊子,接下來的後果當然就相當嚴重了——
由于新核心路由器無法将語音流量正确路由到VoLTE交換節點,直接導緻部分VoLTE語音業務中斷15分鐘。
故障原因二:
信令風暴擊潰VoLTE網絡
核心路由器割接失敗,這場景簡直不敢想象,隔着屏幕都能吓出冷汗!
怎麼辦?趕緊回退呗。KDDI的工程師們快速啟動了回退操作,于7月2日淩晨1點50分将連接重新切換回舊的核心路由器。
但更大的問題發生了。
回退後,“由于VoLTE終端每50分鐘進行一次位置注冊”,大量終端向VoLTE交換節點發起位置注冊信令,以重新連接至網絡。海量信令集中突發,很快引發VoLTE交換節點擁塞,緻使大量用戶無法進行VoLTE通信。
同時,移動網絡中有一個“用戶數據庫”,負責存儲用戶的簽約數據和位置信息,由于VoLTE交換節點擁塞,“注冊在用戶數據庫的位置信息無法反映在VoLTE交換機上”,出現數據不匹配問題,也導緻很多用戶無法通信和撥打電話。
針對此情況,KDDI于7月2日淩晨3:00後開始從無線側、VoLTE核心網側同時實施流量控制策略,以及通過斷開PGW的方式減輕用戶數據庫負荷,以緩解網絡擁塞,并在PGW采用“會話重置”措施解決用戶數據庫中的數據不一緻問題。
因為實施流量控制,接下來導緻了全國範圍内的數據通信和語音通話難以連接。
接下來,KDDI開始緊張的網絡恢複工作。7月3日上午11點,KDDI宣布日本西部基本完成網絡修複工作。下午5點30分,日本東部基本完成。但仍然有一些用戶難以進行數據通信和語音通話。
直到7月4日下午4點,距離故障發生62個小時後,KDDI表示已在全國範圍内基本恢複。
發人深省
類似的重大網絡故障在日本并不是頭一次。
2021年10月14日,日本另一家運營商NTT DoCoMo的移動網絡也發生過全國性的重大通信事故,導緻大量手機用戶無法進行通話和數據通信。
此次事故同樣因為割接失敗後回退操作,引發信令流量大爆發,導緻網絡大擁塞。
具體情況是,NTT DoCoMo在替換用于存儲物聯網終端設備的用戶和位置信息的網絡設備時出現了問題,然後立即啟動回退操作,重新倒回到舊設備。
但這一回退操作,引發了大量物聯網終端向舊設備重新發起位置注冊信息,洶湧而來的“信令風暴”快速引發了網絡擁塞,并波及3G/4G/5G網絡的語音和數據分組核心設備,導緻大量用戶無法通話和數據通信。
與NTT DoCoMo不同的是,KDDI此次是因為核心路由器割接失敗引起,而且故障持續時間要長很多。
但值得一提的是,KDDI似乎并非沒有吸取DoCoMo的教訓。
KDDI在全日本範圍内擁有6個交換中心,共18個VoLTE交換節點,且交換中心内的VoLTE交換節點是相互冗餘備份的。而本次因核心路由器割接導緻VoLTE業務中斷的隻是其中一個交換中心的VoLTE交換節點。
“我們做過壓力測試,因為有冗餘備份,即使一個交換中心範圍内的所有終端同時發起重新連接請求,也不會發生擁塞。”
KDDI表示,“但不知道什麼原因,結果還是發生了擁塞,我們還沒有完全搞清楚到底是哪裡出了問題。”
但願KDDI最終能徹底找出此次事故的所有原因。也希望通信業再也不要重蹈覆轍。因為,重大網絡故障,這六個大字,對于通信業而言,實在太可怕了。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!