《數據中心運行維護與管理标準》經過各方的努力終于通過審查和發布,與大家見面了。《數據中心運行維護與管理标準》 是一部面向數據中心運維管理的标準,為了讓廣大讀者準确地理解和執行标準,以“主編解讀”的方式分期分專題向大家一一講解标準條文的核心含義,幫助大家正确理解标準,做好數據中心的運維工作。
一、編制背景
在信息化的時代,無處不在的互聯網 應用、大數據、雲計算、區塊鍊以融入國民經濟、科研、教育、制造所有領域和百姓的衣食住行,這些信息的承載、處理離不開計算機,計算機運行又離不開數據中心的保障,為此數據中心建設已進入了高速發展時期。
在數據中心的全生命周期中,一般建設一個數據中心需要三年左右的時間,而大量的運行維護管理的工作将伴随數據中心的長期運行,可以說數據中心是三分建設七分運維。如何做好數據中心的運維,數據中心如何管理、需要什麼樣的組織架構、對崗位的要求、人員需要具備的素質?數據中心日常運維有哪些基本的流程、事件如何分級和響應、日常的維護工作有哪些?數據中心的文件又如何建立、分類和管理?數據中心如何做好應急事件處置和管理?數據中心的資産的管理、運維需要關注哪些運維成本和能效管控?都是每一個數據中心管理層和運維人密切關注的事情。
當今在國内的數據中心的建設中有GB50174-2017 《數據中心設計規範》、 GB50462-2015《數據中心基礎設施施工及驗收規範》、GB/T 51314-2018《數據中心基礎設施運行維護标準》、T/CECS 488-2017 《數據中心等級評定标準》 。但是《數據中心運行維護與管理标準》還處于空缺的狀态,因此在這樣的背景下,組織了互聯網、BAT、金融、企業、設計院、建設和施工的單位,還有部分産品制造廠商編制了面向數據中心運維管理的《數據中心運行維護和管理的标準》。
二、标準概要
章 |
節 |
内容 |
第一章 總則 第二章 術語 第三章 一般規定 | ||
第四章 組織架構與人員管理 |
架構;崗位、人員、培訓與考核 |
運維模式、團隊設置、崗位設置、人員技能要求、培訓與能力考核。 |
第五章 日常運行維護管理 |
運行流程文件管理環境安全質量管理 |
1、服務台、事件、問題、變更、服務請求;事件的分級原則與處理、變更的類别與管理; 2、文件的生命周期、文件的分類分級、文件的維護; 3、數據中心區域安全的劃分、訪問管理; 4、日常巡檢要求、健康性檢查與維護保養、安全評估與預防。 |
第六章 應急管理 |
架構、人員、流程和管理 |
應急組織架構; 應急事件分級; 應急處理流程; 演練與評估。 |
第七章 成本與能效管理 |
成本和能效管理 |
資産管理:資産的分類、資産的檔案、資産使用、資産的報廢; 運維成本:運維成本範圍、運維成本的預算、結算、評估和優化; 容量管理:電能、制冷和空間容量的管理; 能效管理:電能和水能消耗統計、分析、評估和優化。 |
《數據中心運行維護和管理的标準》是第一部面向各類數據中心的運行、維護和管理标準;遵循以人為本、安全運行為綱、預防為主、演練與實戰相結合的原則,安全管理和預防為主是本标準的核心。本标準将指導和幫助數據中心建立運維的管理架構,規範數據中心的運維流程,開展日常的運維,如何處置應急事件、有效的管理和控制運營的成本。
第二章、團隊、崗位和人員
一、本标準對數據中心組織架構和、崗位以及人員設置的分界與範圍
按照當前行業和功能的主流劃分,将數據中心劃分為三種類型:
互聯網數據中心(IDC--Internet Data Center)
企業數據中心 (EDC--Enterprise Data Center)
外包數據中心 (ODC--Outsourcing data center)
對IDC、EDC的數據中心都包含了基礎設施的運維和自有業務系統的運行維護,即使同一類型的數據中心各自個性化的自有系統的運行維護的要求都是有很大的差異,比如不同銀行的金融數據中心研發和測試、運行的環境、對外服務的要求都大不相同。
因此本标準僅涉及共有的基礎設施環境運維的組織架構、崗位和人員要求。
二、數據中心的組織架構的設定
數據中心如何構建數據中心的組織架構,設置運行維護和管理部門(或團隊)的數量,設定時應取決于數據中心以下的因素:
數據中心最基本的組織架構基本包括:
基礎設施運維部----負責數據中心基礎設施的運行維護
電子信息系統運維部----負責數據中心網絡系統和IT系統的運行維護
監控中心----負責數據中心基礎設施、網絡和運行系統的監視和操作
安全管理部----負責數據中心安全和質量管控
客戶服務部----負責受理客戶的需求,協調數據中心與客戶之間的關系
綜合管理部----負責數據中心的人士、财務和後勤保障
在數據中心組織架構的設立的原則是:部門(或團隊)組織方式、數量以及配備的人數應能滿足保障數據中心内各系統連續不間斷運行的要求,并為各類用戶提供及時和良好服務。因此可以根據各自運營的特點設置符合本中心數據中心運行要求的部門(團隊)。
實際上數據中心的運維還包括物業、數據中心能源保障等功能要求,其組織架構和人員的配備是通過外包的方式提供,不在本标準編制的範圍。
三、數據中心崗位的設定
基于數據中心部門(或團隊)的設定,為确保數據中心基礎設施各系統的正常運行,應設立運行與維護、監控與操作、安全與控制、綜合管理或同等功能等崗位。這些專業技術位和服務管理崗位的設定應包含:
上述崗位中電子信息系統運行和基礎設施運行崗位一線操作人員,負責日常的運維監控;電子信息系統運維和基礎設施運維崗位屬二線工程師,負責系統故障處理和維護。
對關鍵技術崗位,應對職位進行冗餘配置,并定期輪崗。
原則上上述部分崗位之間具有不兼容性,是指同一人員不能同時擔任一線和二線的崗位。
三、數據中心人員的要求
本标準給出管理人員和技術人員的要求:
1、管理人員
管理人員應具備條件有:
管理人員的入職和職位變動
應進行資格、從業經曆和業務能力的測評。對資格的确認的方式有:相關機構頒發的畢業證書、資格證書、技能證書等,也可以做能力和從業經驗的測評。
2、技術人員技術人員應具備的條件:
應具備本崗位的專業技術能力的确認同樣可采用:相關機構頒發的畢業證書、資格證書、技能證書等,也可以做能力和從業經驗的測評。
特定工作通常是指國家法定的、标準要求或客戶要求的工種或崗位。法定的是指國家或行業法律法規要求從業資格,如高壓電工作業證、職業技能水平證書等。标準要求的是指某些産品的維護标準中要求持有證書的人員進行操作。客戶要求的是指根據服務協議的要求,獲得的相關資格證書。
第三章、事件和變更流程
數據中心的運維需要建立運行、維護和管理的工作制度和流程。支撐數據中心開展正常的運維流程基本上包括:服務台、事件管理、變更管理、問題管理四部分,本講重點介紹事件、變更兩個流程的要點。
一、事件管理
事件管理是數據中心運維管理的重要流程,事件管理包含了事件的發現、事件的處理、事件的恢複和事件的回顧。在事件管理流程中應關注以下的環節:
1、什麼是事件
數據中心每天都有許多服務請求,這些請求統稱為事件,通常這些事件分為業務、工作需求和運行故障三種形式,本标準側重于運行中發生的故障事件的處理管理流程,因為這類的事件将導緻服務中斷,會引發财産的損失、用戶的利益、企業的聲譽。
2、事件的分級
在數據中心運維中,通常是按照系統來進行事件的分類,同時需要對事件進行分級,分級的目的就是針對不同等級的事件,調用相應的資源加快處理的速度和控制事件事态的升級,減少服務中斷的時間和損失。目前不同行業或單位對事件分級是有不同的方式,比如事件對服務的重要性、事件影響面、事件造成的損失、事件的持續時間、與用戶簽訂SLA協議要求等等。如何制定事件的分級,本标準給出了容忍度的分級方法論,事件的分級見下表:
采用容忍度的分級方法,可以很好地覆蓋所有的數據中心對事件的分級要求。
3、事件處理優先級
在數據中心運行中,會出現多個事件同時發生,需要優先處理重要的事件和緊急的事件因此需要制定事件處理的優先級,加快服務處理的時效和提升服務質量。事件優先級需要關注兩個維度:一是影響度,影響度是指影響用戶服務的範圍、業務的數量和造成的損失;二是緊迫性,緊迫性是指事件對應的服務級别、服務系統的重要性、事件的持續時間等。
4、事件升級
在處理事件時,會出現随着事件處理時間增加導緻事态的擴大,或者在處理事件中引發新的事件,因此需要對事件進行升級。
事件的升級分為職能性升級和結構性升級兩種:
二、變更管理流程
在數據中心運行中會有大量的變更,比如設備的維護保養、更換耗材、設備測試、新系統上線、改造或擴容、故障原因查明後的修複等等,很多系統的變更會需要撤離生産環境或停機處理,有些變更會引發系統宕機的風險,因此需要建立變更的管理流程,控制和降低變更帶來的運行風險。
1、嚴格控制變更
要求變更遵守以下原則:
2、變更類型
按照變更對運行的影響程度,本标準将變更分為緊急變更、例行變更和标準變更三類。
3、變更審批授權要求
所有的變更都需要建立審批授權機制。不同的變更類型的審批授權機制如下:
更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!