——訪中國科學院計算所高級工程師李成章
随着雲計算、大數據時代的到來,數據中心的數據來源變得無比廣泛,數據設備接入更加多樣化,數據容量變得更加龐大,數據處理需要更加快速與高效,這一切無疑對數據中心機房提出了更高的要求。數據中心機房一旦出現因供電中斷而誘發的“電氣宕機“或因空調故障而誘發的”熱宕機“問題時,将可能會造成巨大損失或不良負面社會影響,如何打造安全、可靠的數據中心機房供電系統成為業内普遍關心的問題。同時,數據中心巨大的電能消耗也使“綠色、節能”成為貫穿産品、系統設計和應用始終關注的主題。如何使數據中心的供電系統達到高可靠性、高能效性與高可維護性的最佳平衡成為設計院和生産廠商共同追求的目标。本刊有幸采訪到了中國科學院計算所高級工程師李成章老師,請他對相關問題予以解答。
電氣應用:李老師您好!數據中心一旦遇到“供電中斷“将會造成巨大的損失,請問對于數據中心供電系統解決方案您是怎樣考慮的?
李成章:在大數據、可信雲計算時代,數據中心主要承擔四方面的調控任務:數據的處理;數據的存儲;數據的交換;數據的災備。評價一個數據中心設計水平和建設水平的高低,主要有兩個指标:數據的安全可靠;節能環保。
在數據中心運行過程中,最可怕的問題就是“機房癱瘓”。據2015年的調研與統計,在能造成數據中心癱瘓的原因中,UPS供電系統故障占29%;人為失誤占24%;空調及水系統故障占15%;氣候及自然災難(注:由它所誘發的常見市電電網故障是短路或停電故障)占12%;發電機系統故障占10%;IT設備故障占5%;惡意攻擊與犯罪占2%;其他原因占2%。由此可以看出,對于數據中心機房而言,從影響數據的計算和存儲、網絡等三大要素是否安全可靠的角度來看:因供電系統故障而誘發的癱瘓故障的幾率>因空調系統故障而誘發的癱瘓故障的幾率>因IT系統故障而誘發的癱瘓故障的幾率;從影響節能環保的角度來看,因提高IT設備的效率而降低PUE的功效>因提高空調系統的效率而降低PUE的功效>因提高UPS系統的效率而降低PUE的功效。
對于數據中心的供電系統解決方案而言,應優先考慮提高它的可利用率。按照TIA-942所推薦的供電系統可利用率的分類标準,可分為Tier-4級、Tier-3級、Tier-2級和Tier-1級。Tier-4級供電系統是由兩路UPS所組成的2N型供電系統來向IT設備供電,它能确保負載”永不停電”,具備故障容錯功能,其可利用率最高,适用于中大型的高端數據中心。Tier-3級供電系統是由1路市電 1路UPS/HVDC所組成的2N型供電系統來向IT設備供電,它使負載的供電系統具有可在線維護特性,其可利用率次之,适用于中大型的中端數據中心; Tier-2級供電系統是由N 1台UPS所組成的冗餘供電系統來向IT設備供電,适用于中小型數據中心; Tier-1級供電系統是單機系統,其可利用率最低,适用于小型機房;
機房空調系統按照可用性分為A1級、A2級A3級和A4級。A1級空調系統允許溫度波動的範圍為15~32℃,濕度允許波動的範圍為20%~80%;A2級空調系統允許溫度波動的範圍為10~35℃,濕度允許波動的範圍為20%~80%;A3級空調系統允許溫度波動的範圍為5~40℃,濕度允許波動的範圍最高為85%;A4級空調系統允許溫度波動的範圍為5~45℃,濕度允許波動的範圍最高為90%。
近年來的相關運行實踐顯示:在設計數據中心機房的冷凍水空調系統時,應依據機櫃的不同的功率密度來選擇合适的方案。當機櫃功率密度為2~5 kW/機櫃時,空調系統配置方案:推薦以地闆下送風為主,列間空調為輔;機櫃功率密度為8~12 kW/機櫃時,空調系統配置方案:推薦采用“1帶多”列間冷凍水空調;機櫃功率密度為20~100 kW/機櫃時,空調系統配置方案:推薦采用水冷機櫃或“2帶1”列間冷凍水空調。
在近幾年、對于數據中心設計有一種觀點認為:某一種供電系統是最佳選擇,某一種類型的UPS産品才是最适合的。然而,相關的統計資料及運行實踐顯示:對于這樣觀點而言,存在有相當的片面性。在實際工作中,數據中心應有的可用性是由用戶所期望的數據安全性和時效性的不同級别、用戶所應承擔的不同社會責任等諸多實際需求來共同決定的,不宜主觀決定的。由于不同用戶的數據中心機房可用性級别不同,需選用不同級别的供電系統解決方案。
對于執行安全、精準、短時延以及連續不斷的數據處理與共享操作為主的數據中心而言,由于它們對”業務運行中斷”的容忍度為零,宜選用Tier-4級的工頻機UPS供電系統,A1級空調系統。典型應用行業為金融、民航、石化和軍用等領域。
對于執行海量存儲、高速信息查詢的分布式數據處理與共享操作為主的數據中心而言,由于能容忍偶發性或短暫性的業務中斷,并追求利潤最大化,宜選用Tier-3級、Tier-2級為主,Tier-4級為輔的高頻機UPS/HVDC供電系統,A1或A2級空調系統。典型應用行業為BAT、電信及托管企業。
對于執行超高速,超大容量的工程和科學計算的超算中心而言,由于允許執行“間斷性”的運算,為了降低Capex,宜選用 Tier-2級UPS或Tier-0級的市電供電系統,A1級空調系統。
對于既不允許出現“長時間的業務中斷”和追求使用便利化、又面臨維護能力較弱和地處偏遠地區的局面的中、小用戶,宜選用Tier-2級模塊化UPS供電系統,A3或A4級空調系統。
電氣應用:目前,高頻機UPS的應用逐漸增多,請問其與工頻機UPS相比在可用性上有哪些區别?
李成章:近年來,由于雲計算、大數據及互聯網 等市場需求的爆發式增長,在數據中心機房的UPS供電系統中,越來越多地選用高頻機UPS供電系統的設計方案。推動此發展趨勢的動力是:同工頻機UPS産品相比,高頻機UPS産品具有更高的效率(從94%提升到96%~97%),更高的輸入功率因數(>0.99),更低的輸入THDI(<3% ),更小的占地面積,更輕的重量,更低的生産成本等優勢。
對于采用升壓型的IGBT整流設計方案的高頻機UPS而言,為了提高它的效率,主要采取的技術措施有:
1)去掉UPS逆變器中的損耗較大的内置”輸出隔離變壓器:,從而達到提高UPS效率的目的。
2)提高UPS效率的另一技術措施是,對位于UPS的逆變器輸出端的切換開關而言,采用基本”無壓降”的接觸器來取代存在2V左右”管壓降”的SCR型的靜态開關的方法。
近年來,在各UPS生産廠商的共同努力下,通過不斷地改進高頻機UPS逆變器的SPWM的設計方案,從最初兩電平的脈寬調制到三電平的脈寬調制,再到優化三電平或四電平的脈寬調制以及提高脈寬調制頻率等技術措施,從而達到同時提高UPS的滿載和輕載運行時的效率的目的。
基于上述原因,近年來,提高UPS的效率逐漸變成各生産廠家和用戶主要關注的重點。在此背景下,近年來高頻機UPS效率的”提升速率”明顯加快,成效顯著。在此背景下,在高頻機UPS供電系統設計與選用上、容易産生這樣的誤區。即:因過于重視追求高頻機UPS的效率應更高,造價應更低而忽視更加提高産品的可靠性。
對于高頻機UPS的設計和應用而言,還可能存在另外的兩個”誤區”是:
(1)各種高頻機UPS都具備大緻相同的可靠性;
(2)對于“N 1”UPS冗餘供電系統而言,它的總并機數量可不受限制地增加。
與工頻機UPS相比,高頻機UPS其技術弱勢主要表現為:(1)故障率相對較高;(2) 由于它的輸入功率因數呈現電容性,從而導緻發電機的設計容量配比必須增大。
鑒于高頻機UPS相對于工頻機UPS可靠性較差,對于應用于金融、電力、軍用、民航空管等關鍵數據中心機房而言,建議:優選工頻機UPS産品。為說明工頻機UPS與高頻機UPS在金融IDC機房中,所呈現出的長期運行的穩定性和可靠性之間的差異,現舉例說明如下:
2014年5月,當給某金融機構供電的10KV高壓電網出現停電事故時,位于該金融機構數據中心機房内的3×300 KVA高頻機UPS并機系統中的1台UPS發生”炸機”故障,并導緻并機系統出現”輸出閃斷”事故。相關的運行資料顯示:這套高頻機UPS并機系統僅運行1年多,就發生了災難性的故障。相比之下,位于同一機房中的、由已分别運行16年和12年之久的由兩組3×800 KVA工頻機UPS并機系統所組成的2N型雙總線輸出供電系統卻一直在正常運行。由此案例可以看出,對于因供電系統故障而誘發IDC癱瘓事故,并将可能會造成重大損失或重大負面社會影響的關鍵行業的數據中心機房而言,應盡量選用可靠性更高的工頻機UPS供電系統。
電氣應用:針對高頻機UPS在可靠性方面存在的劣勢,生産廠商近期推出了2.0級高頻機UPS,請您介紹一下2.0級高頻機UPS相比于1.0級高頻機UPS技術優勢體現在哪些方面?
李成章:迄今為止,對于絕大數UPS生産廠商而言,因種種原因、尚未找到制備大功率升壓型IGBT整流器的有效技術途徑。在此背景下,為了能制備出大功率的高頻機UPS(例:300、400、500KVA UPS),常采用所謂1.0級高頻機UPS的制備技術:采用由多台三相、小功率的UPS功率模塊”并機”的技術途徑來組成、從外觀上看起來似乎是一台完整的”大功率UPS單機”的設計方案,對于這樣的、由N台三相UPS功率模塊所組成的高頻塔式機UPS和由數量更多的、更小容量的功率模塊所構成模塊化UPS而言,在它的UPS單機的内部必然存在”交流型的環流”。衆所周知:并機的數量越多,這種可能會危害并機系統安全、穩定運行的”環流”也越大、UPS發生故障的幾率必然會增高。在此背景下,如果高頻機UPS的内置功率模塊的總并機數量過多的話,發生故障的幾率就會增大,從而導緻UPS供電系統的平均無故障工作時間被大幅度地縮短。
此外,在市售的部分1.0級高頻機UPS中,由于它的電池組帶N線,對于這種高頻機UPS産品而言,當它處于電池放電工作狀态時,還可能因無法保證它的”正電池組”與”負電池組”的端電壓和内阻相等而導緻在UPS的N線上出現”直流型的環流”,從而遺留下新的故障隐患。
同單機“多功率模塊型”的高頻機UPS和模塊化UPS相比,由于在2.0級高頻機UPS中,采用了電池組“不帶N線”和單機“單功率模塊型”的新晰設計理念,使得它能在确保獲得97%高效率的前提下,還能大幅度地提高UPS冗餘并機供電系統的可利用率和平均無政障工作時間、電池組節數調節範圍的高靈活性和設備安裝的高适應性。
有關大功率的2.0級高頻機UPS與1.0級高頻機UPS之間的性能對比被示于下表中。
表1 2.0級高頻機UPS與1.0級高頻機UPS性能對比
從上表可見,我們可以通過判斷:在一台UPS單機内、是否存在“交流環流”、電池組是否帶“N線”以及當電池組放電時,在UPS的N線上、是否存在“直流偏置電流”等技術指标來判斷:一台高頻機UPS到底是1.0級産品?還是2.0級的産品?
為了更進一步地提高高頻機UPS單機的可靠性,艾默生網絡能源公司所推出的、輸出功率分别為300KVA、400KVA和500KVA 的Liebert eXL系列的2.0級大功率高頻機UPS采用一體化設計方案,在UPS單機内“無環流”。在這裡,采用了“單相功能模組”設計理念,所有的”功能性部件”均采用易拆卸的、模塊化制備工藝,使得其可裝配性和可維護性得到明顯的改善;其逆變器采用更先進的T型三電平拓撲,雙變換工作模式的效率高達97%;采用電池組不帶N線的設計方案後,不僅徹底消除在UPS的N線上出現”直流偏置電流”的故障隐患。而且,還可明顯降低電池組電纜的采購成本,有利于降低Capex。
有關Liebert eXL系列2.0級高頻塔式機UPS與1.0級高頻塔式機UPS和1.0級模塊化UPS的性能對比被列于下表中。
表2 Liebert eXL系列UPS與1.0級UPS性能對比
同在UPS單機内存在“并機環流”的多功率模塊型的、”1.0級”高頻塔式機UPS和模塊化UPS相比,對于采用電池組“不帶N線“ 單機“單模塊型”的設計理念、所制備的”2.0級”高頻塔式機UPS産品而言,它能在確保獲得97%高效率的前提下,還能獲得在UPS單機内“無環流”,并進而大幅度地提高UPS并機供電系統的可利用率、電池組配置的高靈活性和設備安裝的高适應性等技術優勢。
電氣應用:在數據中心機房供電系統中,發電機供電系統也是非常關鍵的環節,請問應如何進行設計與規劃?
李成章:首先我們先來分析一個案例。2016年4月22日11:00,當某金融機構的托管機房、在執行新舊”3 1”UPS并機系統的更換升級改造時,在發電機帶載的工況下,人工關閉3#和4#UPS,由1#和2#UPS帶載。在帶載率為90%的情況下、運行50分鐘後,因UPS過熱,導緻UPS冗餘并機系統被切換到交流旁路供電狀态。此後,在發電機組直接驅動後接的IT設備運行12分鐘後,由于發電機組因發生”失磁”故障而進入”自動關機”狀态,從而導緻UPS輸出停電,并造成部分服務器被損壞和銀行業務癱瘓7小時32分鐘的不良事故。
從這個事故案例、可以得到的經驗和教訓有:(1)對于金融機構的數據中心而言,理應選擇Tier-4級的2N型UPS雙總線輸出供電系統來向它的IT設備供電。然而,該金融機構的外包負載卻被連接在托管機房Tier-2級的”3 1”UPS冗餘供電系統中;(2)對于金融機構的數據中心而言,一旦出現故障時、所可能造成的負面影響會很大。因此,應盡可能地将維護及升級改造工作安排在夜間進行。然而,遺憾的是:卻将升級改造工作安排業務交易最繁忙的白天;(3)當UPS的輸入電源因故從市電供電轉變為發電機供電的條件下,同高頻機UPS的高達0.99的輸入功率因數相比,IT設備輸入功率因數不僅絕對值更低。而且,還呈現電容性的運行特性。這樣一來,一旦UPS轉交流旁路供電後,發電機所帶負載将會UPS轉變為IT設備。此時,由于IT設備輸入功率因數僅為0.93。在此條件下,發電機設計容量配比應≧2.45:1,由于設計時未考慮UPS在維修或損壞時,需轉交流旁路的這種運行工況,實際所配的發電機的“容量配比”隻達到2.33:1,從而導緻發電機供電系統“出故障”。有鑒于此,為了避免在今後的工作中,再出現類似情況,有必要花一定的精力來研讨發電機的帶載特性。
在設計數據中心機房的發電機供電系統時,應在能确保發電機安全帶載的前提下,盡量地降低發電機的設計容量配比。大量的運行實踐顯示:影響發電機的帶載能力的因素有:(1)用電設備的輸入功率因數的絕對值和符号(電感性?電容性?);(2)用電設備的輸入THDI;(3)發電機帶“階躍性負載”的能力;(4)發電機帶電容性負載的能力。
在設計發電機的容量配比時,我們所面臨的第一個問題是:能否清晰和正确地理解發電機的額定輸出功率(例:100KVA/80KW,2000KVA/1600KW等)的物理念義? 我們所常見的發電機的額定輸出功率值[有功輸出功率(KW)/視在輸出功率(KVA)]是在下述檢測條件下所檢測到的的技術參數:(1)負載的輸入電流諧波的THDI=0;(2)負載的相移功率因數Cosф=0.8(電感性);(3)在後接負載的加載量(δW)很小的條件下,從零逐漸增大到其額定值時所獲得的KW/KVA。
在設計時,首先需要做好發電機的選型工作。目前,可供選擇的發電機品種有:限時運行功率(LTP)型發電機和應急備用功率(ESP)型發電機,由于這兩種發電機均無法滿足持續運行的要求,因此,為确保重要和關鍵數據中心機房的供電安全,一般不推薦選用,宜優選持續功率(COP)型發電機和基本功率(PRP)型的發電機。COP型發電機和PRP型發電機之間的運行特性是差異性是:對于COP型發電機而言,允許長期滿載運行;對于PRP型發電機而言,不允許長期滿載運行,它的平均帶載率應≦70%。
此外,還需要說明的一點是,對于上述發電機來說,它們的帶載容量一般是指在後接負荷慢慢增加的情況下,才能獲得的帶載能力。相反,如果發電機的用電設備是屬于“突然增大”的階躍性負載時,則發電機的帶載能力将會明顯下降。在這裡,影響發電機帶階躍性負載能力的強弱的技術參數是:柴油發電機中的發動機的平均有效壓力。下面,将以平均有效壓力=2000KPa的10 KV 2000 KVA/1600KW的發電機為例來進行說明。當它的階躍性負載的每次增加量為50 kW時,發電機的實際輸出功率可達1500 kW(93.8%的标稱輸出功率);當它的階躍性負載的每次增加量為200 kW時,發電機的實際輸出功率為1200 KW(75%的标稱輸出功率);當它的階躍性負載的每次增加量為450 kW時,發電機的實際輸出功率僅為900kW(56.3%的标稱輸出功率)。由此可見,發電機的實際帶載能力與階躍性負載的每次增加量δW的大小密切相關。
在考慮到發電機的後接負載的相移功率因數Cosф對它的輸出功率大小的影響之後,所推薦的發電機“設計容量配比”為:
1)當用電設備的輸入THDI<5%,輸入功率因數為電感性(滞後)負載,發電機容量與用電設備的容量配比為1.3~1.4:1。
2)當用電設備的輸入功率因數為電容性(超前)負載、用電設備的輸入THDI為0的情況下,建議按表3來選擇發電機的容量配比。
表3: 當發電機帶電容性負載時,推薦的發電機容量配比
3)推薦的負載輸入電流諧波THDI的修正值
當用電設備的輸入THDI<5%時,容量配比宜在增加1.04; 當用電設備的輸入THDI<10%時,容量配比宜再增加1.1; 當用電設備的輸入THDI>25%時,容量配比宜再增加1.2~1.3。
為降低發電機設計容量匹比所推薦的發電機供電系統的設計方案有:
1)負載的輸入電流諧波治理:宜将後接負載的輸入THDI控制在≦5%以下。
2)優選輸入功率因數(PF)為電感性的UPS。對于電容性的高頻機UPS而言,宜優選輕載、輸入功率因數高的産品。
3)優選帶電容性負載能力強、帶階躍性負載能力強的發電機。
4)對于大型數據中心機房而言,優選10 KV市電 “N 1”10 KV發電機并機集中供電設計方案。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!