tft每日頭條

 > 圖文

 > 工行數據中心基礎設施運維體系

工行數據中心基礎設施運維體系

圖文 更新时间:2024-08-14 12:33:48

文 / 新媒體記者 邝源

工行數據中心基礎設施運維體系(訪談打造智能化運維利器)1

随着金融業務類型和支付形态的快速發展,面向C端的應用場景不斷豐富,金融客戶對服務的需求和穩定性要求不斷提升;同時,IT技術的快速演進使得應用系統結構越來越龐雜,系統之間的相互關聯度随之劇增,這些來自外部和内部的需求,不斷促使金融機構積極思考、打破傳統、勇于創新,通過不斷的探索,全面加速推進自身數字化轉型。

記者通過走訪交通銀行信用卡中心,深入了解了交行卡中心運維團隊是如何在領導的信任和支持下,打破傳統運維與其他部門之間的隐形屏障,将需求、研發、測試、配置和運維等各團隊緊緊地凝聚在一起,通過轉變理念、轉型團隊、優化流程、創新平台來穩步實現智能化運維的各項成果,向着智能運維的方向,探索出一條創新之路。

工行數據中心基礎設施運維體系(訪談打造智能化運維利器)2

交通銀行信用卡中心運維團隊負責人 洪磊

工作思路的四大法寶

“我們的工作主要是圍繞‘智能運維’這個目标進行規劃和開展的,重點思路,總結為四個字,即‘道’‘法’‘術’‘器’。”交通銀行信用卡中心運維團隊負責人洪磊表示。

“道”指理念的轉變。傳統運維的弊端主要有如下幾點:一是作業方式被動,俗稱“救火隊員”,哪裡需要去哪裡,運維時效慢、效率低,質量差;二是随着雲原生、微服務等概念和技術的落地,運維的架構、技術要求變得異常複雜,傳統的工具、方式、方法已經不能滿足要求;三是傳統運維人員的價值被嚴重低估,曾被業内“調侃”為技術鄙視鍊的底端;四是傳統方式下,各機構的運維部門都是成本中心。洪磊認為,主動式的運維是必然的路徑,怎樣提升運維人員的價值,運維能否轉型為業務賦能,以及如何通過突破或創新,将運維轉變成為效益中心,這是他們對運維的深度思考。通過積極探索,交行卡中心運維團隊逐步将運維提升到技術運營的高度上來,并取得了階段性的成果。

“法”指團隊的轉型。傳統的運維主要是巡檢、故障排查、變更等一些日常問題的處理,都是比較偏流程性的工作。經過思考和探索,交行卡中心設計了運維前台和後台的梯隊結構:後台團隊負責運維的研發、打造運維的利器,提升運維的質量和效率;前台團隊負責具體運維事項,并為後台輸送炮彈。因為前台團隊對系統、技術和業務是最熟悉的,他們會思考系統可以如何更優化,并提出優化的需求,同時将這些需求反饋給後台團隊,由後台團隊負責提升運維工具的水平,以一個良性的循環來提升運維的成效。

“術”指對管理流程的優化。傳統運維是孤立的,與很多條線或部門存在類似“部門牆”的隐形屏障,通過對整個研發運維體系流程的重新梳理,通過 DevOps的理論體系、打造DevOps工具鍊,實現管理流程化、體系化、一體化,實現技術标準化、自動化、智能化,把需求、研發、測試、配置、運維等研發各個條線的團隊緊緊綁定在一起,使生産運維逐步标準化、自動化,例如統一的微服務化框架、統一的基礎運行環境,這些生産操作的對象相對來說是标準和統一的,目前交行卡中心的大部分系統都可以“一鍵發布”。洪磊表示:“未來,我們将通過生産運維的标準化、自動化,逐步向智能化演進。”

俗語說“工欲善其 事必先利其器”,交行卡中心傾力打造的“智慧運營中心”平台正是他們的運維利“器”,這是一個完全基于智能運維理論體系構建的全新的智能運維平台,涵蓋日志中心、監控中心、事件中心、用戶中心、數據中心、算法中心等各大功能模塊,旨在實現實時業務感知、業務故障發現和業務故障處理,在成本、效率、質量、安全等方面,滿足智能運維的要求。 目前該平台一期已經上線運行,通過構建運維中台能力,實現了統一的監控、告警、事件管理等,同時利用智能運維算法實現了智能的監控告警、事件壓縮合并等智能運維場景,較大地提升了運維的質量和效率。後續将繼續深耕平台建設、場景建設,持續優化平台能力。

直擊痛點,探索征途

克服困難的過程是痛苦的,也是難忘的,卻是非常值得的。據洪磊介紹:“我們面臨最大的挑戰是沒有成熟的經驗可以借鑒,隻能摸着石頭過河。我們首先是堅定信念,這很重要。我們的團隊成員都堅信智能運維這件事可以做,并且一定要做成,不遺餘力、不斷試錯。特别感謝公司和領導,給予我們充分的信任,允許我們不斷地的嘗試。我們集整個卡中心技術條線的力量,來共同打造我們的AIOps體系。 ”

關于平台建設,洪磊談到:“目前智能運維方面多聚焦于某一點,如異常檢測、動态阈值、告警壓縮收斂等,而我們在平台建設之初,就奔着運維中台的概念去建設的”。據了解,平台建設過程中交行卡中心遇到兩個痛點:第一個是做數據關聯,因為運維的數據非常多,比如拓撲、調用鍊、日志、各種維度的監控數據等,通過什麼樣的方式将各種維度的數據進行關聯?第二點是這麼多數據可能并不規範或者相對規範的數據,如何做好數據治理?迎擊痛點,最終在運維數據的構建上,運維團隊創新性的使用了圖的概念,把與運維相關的所有數據進行了關聯,為後續真正的智能化提供了一個堅實的基礎。

洪磊在談到“智慧運營中心”平台的三個主要特點時談到:“第一個特點是我們的數據很全面,我們收集了與運維相關的所有數據,在平台裡可以進行查看、分析、關聯,相當于我們對需要管理的每一個系統,從業務層到應用層,再到基礎資源層進行了一個完整的畫像,為我們分析問題和定位問題提供了非常堅實的數據基礎。第二個特點是創新性的提出了‘指标體系’這樣一個概念,傳統監控的指标都是一個一個孤立的,我們把這些指标進行立體化關聯,構建成一個體系,系統裡的每一個指标與另外一個指标通過圖的方式顯示出其關聯關系。比如我們對系統的業務層、應用層、技術運行層進行一個畫像,然後定義它的這些指标,每一種指标和指标之間可能有很多種關系,我們讓這些指标最終形成比較立體式的存在,它不再是一個冰冷的數字,通過成功地将這些指标體系化,基本上可以保障業務中發生的一些異常都可以在這裡找到。第三個特點,是我們的技術框架是比較領先。我們使用了一些在業界比較通用或者比較領先技術,如Click House、Flink、圖數據庫等,構建了統一的數據采集、ETL、數據處理與計算、海量數據存儲、算法引擎等能力。目前,平台的數據還在不斷沉澱,在發現和定位問題上,已經初具雛形。相信未來我們可以提供更多的能力。”

規劃先行,未來可期

關于交行卡中心的運維規劃,洪磊談到近期的規劃主要是着眼現有平台,持續不斷地去優化在運維中台的能力,不斷去豐富現有的運維SaaS場景的能力。比如說多指标異常檢測、基于圖的告警壓縮、自動化能力、故障恢複套餐等,通過不斷優化讓監控更加豐富、告警更加精确、故障處理能力進一步提升。

遠期規劃将圍繞着AIOps智能運維體系去構建運維知識圖譜、智能運維機器人等,通過智能化,更多地讓系統做出故障判斷或運維決策,更多地信任機器,讓機器去做決策,釋放更多的人力和時間,用于思考如何優化系統,提出反饋和建議。”

洪磊表示:“希望未來我們不再是‘背鍋俠’‘救火隊員’,早日實現‘咖啡運維’的理想”。

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关圖文资讯推荐

热门圖文资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved