it運維行業如何能有更好的發展?一、IT運維的發展IT運維是IT運營維護人員根據業務需求來規劃信息、網絡、服務,通過網絡監控、事件預警、業務調度、排障升級等手段,使IT系統處于長期穩定可用的狀态,現在小編就來說說關于it運維行業如何能有更好的發展?下面内容希望能幫助到你,我們來一起看看吧!
一、IT運維的發展
IT運維是IT運營維護人員根據業務需求來規劃信息、網絡、服務,通過網絡監控、事件預警、業務調度、排障升級等手段,使IT系統處于長期穩定可用的狀态。
早期的IT運維工作大部分是由運維人員手工完成,這種運維模式不僅低效,也消耗了大量的人力資源。利用工具來實現大規模和批量化的自動化IT運維,能極大地減少了人力成本,降低了操作風險,提高了運維效率。
但是自動化運維的本質依然是人與自動化工具相結合的運維模式,受限于人類自身的生理極限以及認識的局限,無法持續地面向大規模、高複雜性的系統提供高質量的運維服務。
智能運維(AIOps,Artificial Intelligence for IT Operations)是指通過機器學習等人工智能算法,自動地從海量運維數據中學習并總結規則,并作出決策的運維方式。
智能運維的概念最早由Gartner提出,它是将人工智能科技融入運維系統中,以大數據和機器學習為基礎,從多種數據源中采集海量數據(包括日志、業務數據、系統數據等)進行實時或離線分析,通過主動性、人性化和動态可視化,增強傳統運維的能力。
智能運維能快速分析處理海量數據,并得出有效的運維決策,執行自動化腳本以實現對系統的整體運維,能有效運維大規模系統。而在轉型發展中,傳統技術系統的運維模式面臨以下三大挑戰:
一是安全運行的挑戰。
業務對技術系統的安全穩定運行要求高,而業務功能一般涉及多個系統應用,所采用的事後處置為主的運維模式,存在異常定位困難、處理效率低等缺陷,這種被動異常響應模式已經不能滿足異常快速定位和處理的需求。
二是人力緊缺的挑戰。
目前的技術系統運維由于工作量大、工作内容重複且枯燥,運維崗位特别是值班崗位的吸引力逐漸降低。運維需求與人力資源緊缺的矛盾,已經成為技術系統發展中無法避免的矛盾。
三是遠程運維的挑戰。
從單數據中心向多數據中心發展過程中,傳統的現場運維方式也因數據中心地點偏僻、現場巡檢工作繁瑣重複等困難而導緻運維成本和壓力增大,如何實現遠程運維來解決數據中心發展的問題。
技術發展中産生的問題必須依靠技術來解決,隻有在運維領域引入新技術、新思路、新體系,才能更好地提升運維水平,更好地保障系統安全穩定高效的運行。
當前主流運維技術已從自動化運維向智能運維發展,利用人工智能來輔助甚至部分替代人工決策,可以進一步提升運維質量和效率。
因此,很多公司開展了智能運維的探索,研究如何在運維中引入人工智能,以實現事前智能預警、事後快速定位、夜間無人值守、遠程集中管理等一系列的智能運維目标,以應對新環境下的三大運維挑戰,進一步解放與發展生産力。
表1給出了手工運維、自動化運維、智能運維在運維效率、系統可用性、可靠性、學習成本、建設成本、應用範圍作了全面的比較。
二、智能運維研究與應用現狀
當前智能運維研究與應用在國内外各行業中都屬于起步階段,Gartner的報告中也做出預測:2020年,智能運維在一半以上的企業中落地并形成生産力,如下圖所示:
盡管如此,智能運維已經成為科研機構研究的熱點,并在高利潤、低成本的驅動下,互聯網公司、金融機構、IT技術公司走在了智能運維工程應用方面的前列。
(1)科研機構
科研機構一向是新技術革命的領頭羊。在智能運維研究領域,國内外科研機構不僅有先進的科研成果,也與工業界展開密切合作,從算法層面上支撐了智能運維的落地與發展。
卡内基梅隆大學與Netflix公司合作,在網絡視頻運維領域提出并應用多種人工智能方法:利用不同數據分析及統計分析方法,靈活使用可視化、相關分析、信息熵增益等工具,将雜亂無章數據轉化為直觀清晰信息,從而分析海量數據背後視頻體驗不佳的規律和瓶頸。
雙方共同設計了視頻傳輸智能優化方案,可根據客戶的網絡狀态,動态地優化視頻傳輸;通過決策樹模型建立用戶參與度的預測模型,指導關鍵性能指标的優化策略,改善用戶的體驗質量。
南京大學周志華教授團隊專注于機器學習算法的研究,所提出的isolation forest孤立森林算法可用于挖掘異常數據,檢測和分析異常。該方法已經在360公司系統運維中用以實時檢測異常,騰訊公司也将其用于檢測微信中的異常點擊。
清華大學NetMan智能運維實驗室則專注于異常檢測、分析與預測,提出了多種算法和工具。該團隊目前已經和交通銀行、阿裡巴巴、IBM等多家機構開展合作,實現了産學研相結合。
(2)互聯網行業
阿裡巴巴研發了智能故障管理平台,以業務為導向,實現了基于機器學習的業務異常檢測,準确及時發現故障。通過時間序列分析和機器學習,對未來一段時間的業務指标趨勢進行預測。
針對業務異常時間,自動調用各類型AP接口實現一鍵切換,快速恢複業務異常。并針對業務異常事件自動拆解相關維度,逐層剝離定位故障原因。
目前該平台已經在阿裡雲上成功實踐,故障發現準确率、故障發現召回率分别提升到80%和90%,每周節省因為誤報而花費的操作時間約為29小時。
百度實現了基于智能流量調度的單機房故障自愈能力,将止損過程劃分為統一的感知、決策、執行三個階段,通過策略框架支持智能化異常檢測、策略編排、流量調度,實現了單機房故障自愈能力。
京東金融實現了基于網絡拓撲的根源告警分析,結合調用鍊,通過時間相關性、權重、關聯規則算法、神經網絡算法等,将告警分類篩選,快速找到告警根源,從而縮短故障排查及恢複時間。
京東金融還在其雲計算數據中心應用了智能巡檢機器人,提升了機房及數據中心的巡檢效率和智能化管理水平,避免人工的錯檢和漏檢,對巡檢數據進行數據化管理和高效利用。
騰訊在其織雲監控平台中建設了基于機器學習的時間序列異常檢測方案,在百萬條基于時間序列的日志信息中,以少量的時間實現了異常檢測。
(3)金融行業
交通銀行通過數據中心運維大數據平台的建設,将各類日志、告警等運維數據統一集中存儲。通過關聯分析、建模預測等方式發現日志、告警信息中潛在聯系,并建設監控曆史數據分析、監控告警智能分析以及日志智能檢索分析等大數據運維應用場景,實現了事前智能預警、事後快速定位故障。
中國銀行初步形成了“運維大數據倉庫”、“運維數據分析平台”的計算框架,對系統日志、應用日志、監控數據和網絡鏡像包等全量數據進行集中存放和處理,并在異常檢測、故障快速定位、系統容量預估和動态調配等多個場景中應用。
太平洋保險在智能運維方面實現了告警收斂,将多個告警做彙聚合并和主源分析,還開展了雲腦項目以實現業務趨勢預測和容量管理功能,還開發點點2.0 APP,實現風險監測和智能交互等功能。
陽光保險利用大數據和機器學習,實現了智能巡檢、報警聚合、故障自愈及故障避免、自動發版與止損等多項功能。招商銀行在性能容量評估、故障定位與診斷方面采用智能運維的方案,以應對業務高峰的需求。
上海銀行張江數據中心啟用了智能巡檢機器人,對設備運行狀态、機房環境、機櫃微環境實時監測,保證數據中心狀态實時可視、可控及數據的準确性。
(4) 技術廠商
Splunk公司擅長大數據的搜索與可視化,該公司以splunk平台為基礎研發了智能運維管理平台,它将收集到的機器數據轉化為有運維價值的見解,讓用戶能實時了解IT系統與技術構架現狀,以便做出決策。
IBM公司認為智能運維的目标是對異常做出預警,在問題暴露前優化校正服務,以避免對業務造成影響。
為此,IBM提出了實時大數據分析驅動的新一代智能運維中心解決方案,對事件日志進行上下文曆史挖掘分析、周期性規律分析、成對成組出現分析、日志相關與因果分析。
目前該方案目前已在交通銀行得到實施與應用。不僅如此,IBM還發布了《金融行業智能運維AIOps實施建議白皮書》。
華為推出了基于大數據平台的FabricInsight數據中心網絡智能分析平台。它基于 telemetry,采集全網真實流評估網絡質量,進行網絡異常流識别和分析,實現風險主動預測。
FabricInsight将應用和網絡路徑關聯,能夠對端口級問題進行快速定位,還支持百億數據秒級檢索,并實現時延、路徑等多維度曆史數據可視。
蒙帕智能運維平台包括蒙帕MOSS智能巡檢機器人、運維大數據、監控軟件、運維管理、3D可視化機房、一體化大屏等六大模塊,目前已經成功應用于中國日報社、上海工程局等客戶的數據中心中。
三、智能運維的實施路徑
智能運維的建設是從無到有的過程,是從局部單點應用的探索到單點能力完善,再到形成解決某個局部問題的一個過程,最終将各個智能運維場景相結合,形成一體化智能運維能力。
因此智能運維的實施路徑可分為以下四個層面:
(1)運維大數據平台建設
數據是智能運維落地的基礎,首先需要建立運維大數據平台,對運維數據進行采集、分析、計算、存儲,并定義标準化的指标體系,對運維數據進行萃取,積累大量的可用的運維數據。
以性能指标體系為例,可對操作系統、數據庫、中間件等應用建立可供分析的性能指标體系,并在系統運行中獲取性能數據,以此來刻畫各應用的正常狀态、異常狀态的畫像,為後續的檢測、預測、分析等提供基礎的運維知識圖譜數據。
(2)單點智能化實踐
其次,應從實際出發,立足當前運維痛點,從單點運維場景切入,如建立時序數據智能異常發現、流量智能異常告警、數據庫智能監控、智能網絡日志分析等能力,由點到面進行智能化運維能力的建設,從而為後期進行局部智能化場景的實現打下基礎。
以數據庫智能監控能力為例,運維人員可實時獲取數據運行狀态指标,當數據庫出現異常時,運維人員可通過曆史數據回溯、數據比對等方式進行故障跟蹤、異常指标分析,從而形成标準化故障排查、分析能力和經驗,為後期的數據庫智能故障預警、異常根因分析等局部場景提供基礎支持。
(3)局部場景智能化
局部場景智能化是指對運維場景中硬件、系統、網絡、數據庫、中間件等分别實現智能監控、異常預警、故障發現、故障分析、根因分析、故障自愈等閉環場景。
以網絡異常為例,當智能運維系統檢測到網絡異常指标時,将出發告警時間,經運維人員确認故障後,智能運維系統将通過機器學習算法定位故障,然後調用自動化運維工具執行相應的修複操作,實現該場景下故障自愈。
局部場景智能化的實現,将使得故障發現、處理、排查效率得到極大的提升,有效保障業務穩定運行。同時,該能力的實現使得智能化運維具備場景化、标準化、自動化等能力。
(4)一體化智能運維
一體化智能運維是智能運維系統發展的終極目标。該階段不僅實現各運維場景智能化閉環,且智能運維能力與運維管理流程、運維組織架構、運維自動化是深入融合。
運維人員不再以發現故障、解決故障作為目标導向,轉而專注業務運行狀态,探索運維需求,定義并實現運維場景,豐富智能運維的廣度與深度。
更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!