執(zhí)行摘要
UPS(不間斷電源系統(tǒng))在確保IT可靠性方面扮演著至關(guān)重要的角色。因此,它們自身的可靠性也同樣是一個關(guān)鍵的考量因素。一旦UPS發(fā)生故障,則執(zhí)行關(guān)鍵任務的電力負載可能會有風險。
那么,對于優(yōu)化UPS可用性,企業(yè)要采取哪些措施?根據(jù)本白皮書的內(nèi)容,對此問題的常見回答并非是最佳選擇。歸根結(jié)底,UPS的可靠性更多地有賴于電源系統(tǒng)的整體設(shè)計,而并非UPS本身的設(shè)計(如UPS是否采用在線互動式或雙轉(zhuǎn)換技術(shù))。而最終,提高UPS可用性的辦法無疑就是將包括UPS和整個電源保護方案在內(nèi)的整體修復時間縮至最短,將冗余擴至最大。
此外,在本白皮書中,我們也將顛覆“零部件越多則故障可能性越高”這一傳統(tǒng)的觀念,闡述何以模塊化UPS設(shè)計能夠提供出眾可靠性的原因。
平均無故障時間(MTBF)之惑
一直以來,MTBF(平均無故障時間)是UPS生產(chǎn)商用來測量和說明UPS可靠性的關(guān)鍵度量標準。不過,用MTBF來預測UPS的可用性實際上卻難具說服力。
為了說明這一點,我們來舉一個例子,假設(shè)一臺UPS的MTBF是200,000小時,非專業(yè)人士可能簡單地以為該設(shè)備可以無故障運行200,000小時(約為23年)。但是,事實上UPS生產(chǎn)商不可能也不會對產(chǎn)品進行為期23年的無故障運行測試。相反,他們只是根據(jù)UPS組件的預計使用壽命先行計算出一個MTBF值。然后,在其出貨量增長到具有統(tǒng)計學意義時,會根據(jù)這批設(shè)備實際的性能數(shù)據(jù)替換到某些初步的預估值。盡管這些修正后的數(shù)據(jù)可能存在誤導性。比如,假如2,500臺UPS在5年的研究期內(nèi)運行良好,那么得到的MTBF值可能會相當高。但是,如果這些系統(tǒng)中有一個組件的使用壽命只有6年,那么在5年研究期過后的一年,它們中的90%可能會發(fā)生故障。
而且,MTBF的測量至今還沒有一個通用的標準。多年來,許多的政府機構(gòu)不斷要求生產(chǎn)商根據(jù)最新版的MIL-HDBK-217F手冊提供計算數(shù)據(jù),但是許多的商業(yè)客戶卻采用Telcordia (Bellcore) SR-332標準流程。近期,經(jīng)技術(shù)行業(yè)總結(jié)發(fā)現(xiàn),這些測量方法雖然頗有用處,卻并非是制造商評定產(chǎn)品可靠性的唯一方法。也因此,如今的生產(chǎn)商逐漸將注意力放在了可靠性設(shè)計(DFR)上。過往標準主要關(guān)注單個電氣組件及其與產(chǎn)品設(shè)計中采用的電路之間的關(guān)系,而DFR則側(cè)重于產(chǎn)品在各種條件下的預定或預期用途。
不過,最終還是沒有對測量供電負載的UPS運行情況給出一個標準方案。也因而,將一家生產(chǎn)商的UPS與另一家的UPS就MTBF數(shù)值進行比較時仍很難實現(xiàn)。
用可用性來測量關(guān)鍵電源后備系統(tǒng)更加具有實質(zhì)意義。鑒于UPS在數(shù)據(jù)中心所占據(jù)的重要作用,能否快速更換舊零件或故障零件就顯得至關(guān)重要。可用性表示的是MTBF與另一度量單位MTTR(平均故障修復時間)相互之間的關(guān)系。MTTR(平均故障修復時間)是指從發(fā)現(xiàn)故障、給予響應到完全修復所需的耗時。
可用性的數(shù)值一般由多個數(shù)字9構(gòu)成的百分比數(shù)表示,表明特定系統(tǒng)在一年使用期限內(nèi)正常運行的時間比例。舉例說明,一臺UPS的MTBF是500,000小時,MTTR是4小時,那么,它的可用性為0.999992或者99.9992%(500,000 ÷ 500,004)。這也就是說,該臺UPS每年的預期宕機時間是4.2分鐘。
然而,單獨來講,盡管可用性比MTBF更能說明UPS的可靠性,但是在一些重要方面仍存在不足。具體來說,可用性無法說明例行保養(yǎng)的耗時。如果一個系統(tǒng)每年都必須安排進行檢查、重新校準或常規(guī)維護,它實際的運行可用性會比上面公式得出的數(shù)值來的低。
UPS設(shè)計和內(nèi)部電源通路
盡管UPS內(nèi)電源通路數(shù)量的增多會使成本增加,但是這可以確保一旦某些系統(tǒng)組件(譬如整流器、逆變器或內(nèi)部備用電池)發(fā)生故障,關(guān)鍵負載的供電免于中斷。
UPS從設(shè)計類型上基本分為四類:
· 當UPS檢測到停電故障時,后備式UPS可以切斷IT設(shè)備(ITE)的市電供電,為系統(tǒng)提供電源保護。不過,一些備用電源系統(tǒng)會在過壓或欠壓時提供局部的電源保護,對電池電源的使用較為有限。可見,雖然后備式UPS可提高效率和降低成本,但有時提供的電源保護并不全面。
· 在線互動式UPS通常視情況適度調(diào)節(jié)電壓之后,再對受保護設(shè)備供電。不過,在線互動式UPS必須使用電池電源來防止各種頻率異常現(xiàn)象和停電情況。
· 雙轉(zhuǎn)換UPS可以將關(guān)鍵負載與市電電源完全隔絕,從而確保為IT設(shè)備提供潔凈、可靠的電力。雙轉(zhuǎn)換UPS比后備式UPS和在線互動式UPS更耗能,因此它們在數(shù)據(jù)中心或設(shè)備間內(nèi)的散熱量更高。
· 帶有多運行模式的雙轉(zhuǎn)換UPS通常在高效模式下運行,既省錢又節(jié)能。在保證供電質(zhì)量后,它們會自動切換至雙轉(zhuǎn)換模式的更高電源保護級別。此外,大多數(shù)帶有多運行模式的雙轉(zhuǎn)換UPS使用模塊化標準部件設(shè)計,通過縮短執(zhí)行維護和維修的用時來提高系統(tǒng)的可用性。
這些UPS設(shè)計的不同之處在于其內(nèi)部的電源通路。后備式UPS通常有兩條電源通路,由一個電源開關(guān)同時控制。因此,如果電源開關(guān)故障,那么IT設(shè)備便會斷電。大多數(shù)的備用電源系統(tǒng)功率在2 kVA以下,因此故障只會對一部分的IT設(shè)備造成影響。
圖1:使用標準后備式UPS供電,一旦電源開關(guān)故障,則IT設(shè)備便會斷電。
在線互動式UPS通常有兩條完全獨立的電源通路,其中一條通路使用電源接口。如果電源接口發(fā)生故障,則UPS將由電池供電以確保將所有連接的設(shè)備從容關(guān)閉。部分頂級的在線互動式系統(tǒng)也會包含一個靜態(tài)旁路通路,可以自動旁路UPS中發(fā)生故障的組件,將IT設(shè)備直接連接至市電電源。
圖2:標準在線互動式UPS的電源通路
大多數(shù)的雙轉(zhuǎn)換UPS有兩條電源通路,一條由市電電源或發(fā)電機供電,一條則由電池電源供電,此外UPS內(nèi)還包括:
· 自動靜態(tài)旁路開關(guān)可以旁路發(fā)生故障的整流器或逆變器,并由市電電源直接供電IT設(shè)備
· 手動維護旁路設(shè)備允許技術(shù)人員在不中斷受保護負載供電的情況下對系統(tǒng)進行維修
圖3:標準雙轉(zhuǎn)換UPS的電源通路
一些帶有多運行模式的雙轉(zhuǎn)換UPS除了具備標準雙轉(zhuǎn)換UPS的兩條電源通路之外,還包括一個自動維護旁路設(shè)備,可在UPS進行維修或維護時自動旁路逆變器。此外,如果在模塊化冗余設(shè)計中使用帶有多運行模式的雙轉(zhuǎn)換UPS,它可以自動選擇是否要將負載連接旁路,確保在執(zhí)行維護時由UPS的備用電源供電系統(tǒng)。如此可以縮短MTTR,并降低維護和維修期內(nèi)宕機或意外斷電的風險。
圖4:帶有多運行模式的高效雙轉(zhuǎn)換UPS的電源通路
提高UPS電源通路可用性的策略
提高UPS電源通路的可靠性的方法有很多:
· 添加并聯(lián)電池組:使用單組串聯(lián)電池的UPS其無法正常供電負載的風險會大大加強。舉例來說,一臺大型的UPS有40個電池串聯(lián)連接(即一個電池的正極與相鄰電池的負極相連)。如果這些電池其中一個出了問題,那么整串電池組就會故障,從而導致UPS無法正常供電。如果在UPS上再額外并聯(lián)一串由40個電池正負級串聯(lián)連接的電池組的話,假設(shè)其中一串電池組發(fā)生故障,那么UPS仍可由另一串正常的電池組供電一段時間,從而有時間連接備用發(fā)電機供電或者從容關(guān)閉負載設(shè)備。
圖5:有兩串并聯(lián)電池組供電的UPS其因電池故障導致UPS無法正常供電的可能性會有所降低
· 安裝發(fā)電機:電池供電只能解決一時的燃眉之急。如果面臨長時間的斷電情況,即使使用了最長時效的電池組可能也是“有心無力”。因此,在長時間的停電情況下,使用發(fā)電機最為備用供電電源較為理想。
圖6:配有應急發(fā)電機的UPS電源通路
· 確保UPS包含一個自動靜態(tài)旁路開關(guān):在UPS內(nèi)部出現(xiàn)故障時或者由UPS供電的負載出現(xiàn)嚴重過載或短路情況時,UPS的自動靜態(tài)旁路開關(guān)會旁路整流器和逆變器,由市電電源或發(fā)電機直接向IT設(shè)備供電。在故障情況下,靜態(tài)旁路開關(guān)切換供電電源僅耗時3-8毫秒,因此不會影響IT設(shè)備的正常供電。
圖7:內(nèi)置靜態(tài)開關(guān)的UPS電源通路
通過并聯(lián)安裝UPS提高可用性
冗余的設(shè)計邏輯,不僅適用于電源保護方案,同樣亦適用于UPS設(shè)計。在電源設(shè)計中構(gòu)建多條電源通路能夠從根本上提高系統(tǒng)的可靠性。
圖8:系統(tǒng)和子系統(tǒng)可靠性。資料來源:美國國防部
從圖8中,我們可以歸納出兩個簡單卻十分重要的觀點。第一點,串聯(lián)連接的電源通路組件(比如子系統(tǒng)A、子系統(tǒng)C和子系統(tǒng)D),削弱了系統(tǒng)的整體可靠性;第二點,并聯(lián)冗余的電源通路組件(比如子系統(tǒng)B),增強了整體可用性。這是因為,如果子系統(tǒng)A、子系統(tǒng)C或者子系統(tǒng)D有一個發(fā)生故障,整條電源通路便無法正常工作。相反,由3個組件并聯(lián)的子系統(tǒng)B,如果其中一個故障,則另外兩個組件進行“接手”,確保整個系統(tǒng)如常運行。
換言之,“短板效應”同樣適用于此:電源供應鏈的最終性能受限于其最弱的一環(huán)。因此,在供應鏈的每一點上添加多個冗余可以提高其整體的可靠性。因此,最可靠的輸電系統(tǒng)通常包括了從總電源至用電負載的多條相互獨立的電源通路,相互盡可能避免重疊。采用冗余配置的電源系統(tǒng),當組件發(fā)生故障或者進行例行維護時都不會導致IT設(shè)備關(guān)閉。
圖9:市電電源到UPS間分支出多條電源通路供電IT設(shè)備,從而通過增加冗余來提高系統(tǒng)的可靠性
并聯(lián)UPS架構(gòu)
在UPS行業(yè)領(lǐng)域,系統(tǒng)并聯(lián)部署的方式有很多。最常見的兩種方式是串并聯(lián)組合部署的架構(gòu)或者是全冗余并聯(lián)部署的架構(gòu)。
圖10:正常運行(上)和存在故障運行(下)的串并聯(lián)組合部署的系統(tǒng)架構(gòu)
當需要使用兩個不同型號或者是由兩個不同廠商生產(chǎn)的UPS系統(tǒng)支持基本負載時,有時會使用串聯(lián)冗余的配置架構(gòu),它們無法在冗余配置中并聯(lián)。但是使用串并聯(lián)組合部署的架構(gòu)可以幫助你克服這種限制。
不過,采用串并聯(lián)組合部署架構(gòu)的系統(tǒng)提供的冗余十分有限,同時還要求有幾件關(guān)鍵事件發(fā)生才能在故障期間為負載提供保護。這些事件包括:
1.) 故障系統(tǒng)必須檢測到發(fā)生的故障
2.) 故障系統(tǒng)必須能夠安全切換到系統(tǒng)內(nèi)置的靜態(tài)開關(guān)
3.) 故障系統(tǒng)必須將故障組件從輸出電源總線上斷開
4.) 備用電源系統(tǒng)必須能夠應(負載供電)要求立即支持滿負載運行
此外,若采用串并聯(lián)組合部署架構(gòu)的系統(tǒng),用戶還需承擔無負載UPS的運行和維護費用。
一般來說,全冗余并聯(lián)架構(gòu)具備的可靠性更高,不過這也取決于其實施的形式。某些UPS聲稱具有并聯(lián)架構(gòu),但實際上只是有限的幾個組件進行并聯(lián)。這也就是說,雖然在一個類似的零件出現(xiàn)故障時系統(tǒng)可以提供一定的冗余,但是系統(tǒng)中沒有獨立的子系統(tǒng)。一旦子系統(tǒng)發(fā)生故障,那么整個UPS便需要關(guān)閉進行維修。
圖11:部分內(nèi)置冗余的并聯(lián)架構(gòu)
其它的UPS設(shè)計還包括帶有獨立子系統(tǒng)的UPS和帶有點對點并機能力的UPS,就是說由UPS自身進行控制,而不是使用主控制器,這就賦予了UPS最高的可靠性級別。并聯(lián)架構(gòu)的設(shè)計旨在不增加降低設(shè)計復雜程度的情況下盡可能地消除單點故障。因此,并聯(lián)架構(gòu)可以使用獨立子系統(tǒng)和點對點控制,提供最少故障點最高可靠性的系統(tǒng)設(shè)計。
圖12:每個UPS帶有點對點控制和獨立子系統(tǒng)的并聯(lián)冗余架構(gòu)
當然,組件數(shù)量和連接點較多的并聯(lián)冗余UPS配置其潛在的故障點也更多,因而MTBF較短。也因此,IT經(jīng)理時常會認為,如果并聯(lián)架構(gòu)中UPS的數(shù)量越少,那么系統(tǒng)的可靠性也就越高。雖然向UPS架構(gòu)不斷增加組件,終究會達到回報趨減的一個點,但是,相對于配置較少UPS的系統(tǒng),一個設(shè)計謹慎、包含更多UPS的系統(tǒng)必然會提供更高的可用性。
為了說明這一點,我們假定兩個采用并聯(lián)冗余設(shè)計的系統(tǒng)架構(gòu)樣本為60 kW負載提供保護。第一個架構(gòu)包含2個傳統(tǒng)的60 kW的UPS,第二個使用的是6個由模塊化標準組件構(gòu)成的12 kW的UPS。
現(xiàn)在我們假設(shè)下,如果發(fā)生硬件故障,這會對這兩種配置有何影響:
· 采用兩個60 kW UPS為負載提供保護的架構(gòu)僅可由受過培訓的專業(yè)人員進行維修。即使專業(yè)的維修人員可以承諾在4小時內(nèi)到達現(xiàn)場,系統(tǒng)宕機的總耗時可能也將達到6-8小時。而且,如果維修人員隨身未帶有需要更換的零部件,那么宕機時間可能就會延長至24小時。在這段時期內(nèi),由于缺少UPS冗余,IT設(shè)備的風險指數(shù)就會很高。
· 反觀使用6個12 kW UPS的系統(tǒng),其使用熱插拔電子組件和電池模塊,假設(shè)最終用戶手上有可更換的零部件的話,他們便可在幾分鐘內(nèi)自行更換故障的組件。
圖13:兩個使用并聯(lián)冗余為60 kW負載提供電源保護的系統(tǒng)架構(gòu)
電池方面的考量進一步提供了佐證。一般UPS電池的使用壽命是4年。因而,采用60 kW UPS配置的系統(tǒng)架構(gòu)可能會因為電池相關(guān)問題每四年至少有6個小時未能提供冗余。但是對于采用12 kW UPS配置的系統(tǒng)架構(gòu),其每四年可能約只有1個小時未能提供冗余。
對電池是如此,對風機、電容器等的電子機械組件同樣也是如此,所要考慮的一般都是UPS內(nèi)磨損零件或是消耗品。使用熱插拔件設(shè)計的UPS產(chǎn)品很少會發(fā)生宕機。因此,即使采用6個12 kW UPS配置的系統(tǒng)架構(gòu)比采用2個60 kW UPS配置的系統(tǒng)架構(gòu)的零件故障MTBF更短,但是它的MTTR也相對較短,因而最終的可用性還是相對較佳。
電池如何影響可靠性
UPS的設(shè)計理念決定了其使用電池電源的頻率,而電池使用頻率又與電池的運行時間和使用壽命直接相關(guān)。
后備式UPS會頻繁切換至電池供電模式,這會減少電池的運行時間并縮短使用壽命。而且,在頻繁切換供電模式的過程中會存在短暫的斷電,可能會使IT系統(tǒng)關(guān)閉。同時,輸出電壓調(diào)整范圍較寬,會導致IT電源關(guān)閉。
在線互動式UPS比后備式UPS能夠更好地提供電源異常保護,然而當在正常模式和調(diào)節(jié)模式之間進行轉(zhuǎn)換時或者為應對發(fā)動機啟動時的電壓不穩(wěn)定,必須依靠電池進行供電。
雙轉(zhuǎn)換UPS的電池使用則更為適度。在較寬的輸入電壓容限范圍內(nèi),UPS整流器和逆變器會共同調(diào)節(jié)輸出電壓,而不需要借助于電池進行供電。此外,從正常供電模式轉(zhuǎn)換至電池供電模式的切換時間很短,因此不必擔心IT系統(tǒng)會出現(xiàn)供電中斷的情況。
帶有多運行模式的新型高效雙轉(zhuǎn)換UPS,其使用電池的時間和頻率與雙轉(zhuǎn)換UPS相似,在某些情況下可能要來得更低。而且,這些UPS在正常運行模式下效率可高達99%。效率更高就相當于電池的運行時間更長,運行溫度更低,這兩點都有助于延長電池的使用壽命。
圖14:不同UPS設(shè)計的標準電源使用模式
總結(jié):電源系統(tǒng)可用性最大化的六個關(guān)鍵步驟
1. 高品質(zhì)UPS的標準化設(shè)計:選擇資歷出眾、擁有諸多成功案例的業(yè)界廠商。UPS的設(shè)計應當包括內(nèi)置關(guān)鍵組件冗余,采用多條電源通路,使用性能優(yōu)越的組件,同時在生產(chǎn)過程中對質(zhì)量進行嚴格把關(guān)。
2. 選擇內(nèi)置有多條電源通路的UPS:良好的UPS設(shè)計應當能提供多條電源通路進行額外冗余,包括靜態(tài)旁路開關(guān),手動維護旁路或自動維護旁路。
3. 尋找可滿足您IT設(shè)備需求的UPS:一些UPS的價格雖低,但卻無法正常支援用電負載,這就會導致IT設(shè)備被重置、數(shù)據(jù)被破壞甚至設(shè)備被關(guān)閉。帶有多運行模式的高效雙轉(zhuǎn)換UPS可以在IT設(shè)備和工業(yè)設(shè)備容許的電壓和頻率范圍內(nèi)對電源進行很好地凈化。
4. 部署冗余并聯(lián)UPS:如此可以對電源通路、電子組件和電池模塊進行冗余,從而提供最高的可靠性保護。
5. 注重可以縮短MTTR的各種特性:選擇模塊化系統(tǒng)設(shè)計,UPS應使用便于維修的零部件,比如熱插拔電池和電子組件。從根本上來說,MTTR比MTBF對可用性的影響更大。
6. 選擇使用電池可能性最小的UPS:頻繁使用電池供電的UPS,其電池的運行時間和使用壽命會相對縮減。帶有多運行模式的高效雙轉(zhuǎn)換UPS使用電池的可能性更小,有助于延長電池的使用壽命?!?/p>