文獻(xiàn)標(biāo)識碼: A
DOI:10.16157/j.issn.0258-7998.2016.03.006
中文引用格式: 王欣,張錚,張為華. 數(shù)據(jù)中心的能源管理技術(shù)研究[J].電子技術(shù)應(yīng)用,2016,42(3):20-23,27.
英文引用格式: Wang Xin,Zhang Zheng,Zhang Weihua. Power management technology of datacenters[J].Application of Electronic Technique,2016,42(3):20-23,27.
0 引言
隨著互聯(lián)網(wǎng)產(chǎn)業(yè)的發(fā)展,社交網(wǎng)絡(luò)、人工智能、電子商務(wù)、物聯(lián)網(wǎng)等等一系列新興互聯(lián)網(wǎng)業(yè)務(wù)均依賴于大規(guī)模、高流量、多功能的數(shù)據(jù)存儲與計算。而數(shù)據(jù)中心作為大規(guī)模服務(wù)器集群的組織和互聯(lián)形式,逐漸成為支撐現(xiàn)代IT產(chǎn)業(yè)的基礎(chǔ)設(shè)施。隨著數(shù)據(jù)中心規(guī)模的逐漸增大和硬件架構(gòu)的日趨多樣化,數(shù)據(jù)中心的能源管理正在逐漸成為數(shù)據(jù)中心建設(shè)和運營的一個重要問題。根據(jù)美國自然資源保護(hù)理事會(Natural Resources Defense Council)的統(tǒng)計,2013年,全美國的數(shù)據(jù)中心約消耗了910億千瓦時的電量,相當(dāng)于34個大型火力發(fā)電廠一年的發(fā)電量[1]。而根據(jù)Environmental Research Letters的預(yù)測,全球數(shù)據(jù)中心的功耗有可能每5年翻一番[2],截至2020年,全美的IT企業(yè)每年要在數(shù)據(jù)中心的供能上花費130億美元,并排放大約1億噸二氧化碳[1]。如此龐大的功耗開銷已經(jīng)成為數(shù)據(jù)中心的設(shè)計和運營過程中不可忽略的問題。同時,隨著全球氣候變暖等環(huán)境問題的出現(xiàn),龐大的能源供應(yīng)系統(tǒng)所帶來的巨額碳排放量無疑會給數(shù)據(jù)中心的運營商帶來環(huán)保方面的額外開支,如何將可再生清潔能源投入數(shù)據(jù)中心服務(wù)也必然會成為未來數(shù)據(jù)中心建設(shè)和研究的重點關(guān)切。
回顧近年來學(xué)術(shù)界關(guān)于數(shù)據(jù)中心能源管理問題的研究成果,可以發(fā)現(xiàn)當(dāng)前數(shù)據(jù)中心的能源管理系統(tǒng)主要面臨以下幾個方面的問題:
(1)功率波動與能源超額認(rèn)購(oversubscription)
隨著數(shù)據(jù)中心規(guī)模的擴大和復(fù)雜度的提高,數(shù)據(jù)中心所要處理的任務(wù)也趨向于多樣化,不同的任務(wù)所需的能源供應(yīng)差別非常大。為滿足數(shù)據(jù)中心功率理論峰值的消耗,設(shè)計者往往需要超額認(rèn)購能源供應(yīng)限額,這部分超額認(rèn)購的能源在數(shù)據(jù)中心運行的大部分時間并不需要投入工作,這就造成了大量不必要的能源認(rèn)購開銷。
(2)能源需求的非比例增長
數(shù)據(jù)中心的可擴展性是數(shù)據(jù)中心架構(gòu)設(shè)計的一個重要關(guān)切,大部分?jǐn)?shù)據(jù)中心能夠根據(jù)業(yè)務(wù)規(guī)模的擴展增加服務(wù)器和相關(guān)配套設(shè)施的數(shù)量。但是隨著計算能力的擴展,由于散熱和架構(gòu)等方面的問題,數(shù)據(jù)中心的能源消耗有可能呈現(xiàn)超比例的增加,這會讓數(shù)據(jù)中心的建設(shè)和維護(hù)成本成倍增長。
(3)散熱與制冷方面的開銷
溫度控制設(shè)備是數(shù)據(jù)中心必不可少的配套設(shè)施,而隨著數(shù)據(jù)中心發(fā)熱量的增大,散熱制冷以及熱能的循環(huán)利用,正在成為一個具有很大研究價值的問題。
(4)巨額碳排放所帶來的社會成本
隨著公眾和政府對環(huán)保問題的重視,對于高耗能企業(yè)征收碳排放稅已經(jīng)成為一種國際趨勢。而數(shù)據(jù)中心作為耗電量極高的基礎(chǔ)設(shè)施,必然會給IT企業(yè)帶來高額的環(huán)保開銷。這使得數(shù)據(jù)中心供應(yīng)商將關(guān)注點轉(zhuǎn)移到新興的可再生清潔能源上。
為應(yīng)對這些功耗問題的挑戰(zhàn),學(xué)術(shù)界和工業(yè)界提出了一系列的解決思路與研究方法,本文總結(jié)了這些能源管理技術(shù),討論了現(xiàn)有的數(shù)據(jù)中心能源管理措施的技術(shù)原理和實際效果,并展望了未來數(shù)據(jù)中心能源管理系統(tǒng)的發(fā)展趨勢。
1 面向數(shù)據(jù)中心的能耗優(yōu)化
數(shù)據(jù)中心能源管理方面所面臨的挑戰(zhàn),本質(zhì)上是由現(xiàn)有資源的低效利用和傳統(tǒng)能源的高碳排放特性所引起的,因此學(xué)術(shù)界和產(chǎn)業(yè)界的優(yōu)化方向和研究思路大約可以歸結(jié)于兩個方面:提升現(xiàn)有能源的利用效率以及開發(fā)利用清潔的可再生能源。近年來,關(guān)于數(shù)據(jù)中心能源管理系統(tǒng)的研究工作主要集中于以下幾個主題。
(1)功率封頂(Power Capping)技術(shù)
通過實時監(jiān)控數(shù)據(jù)中心的能源供應(yīng)和消耗狀況,動態(tài)調(diào)度數(shù)據(jù)中心的任務(wù)分配。并通過不間斷電源(Uninterrupted Power Supply,UPS)來調(diào)節(jié)電源供應(yīng)波動和應(yīng)對突發(fā)的功耗高峰。通過平滑功耗曲線、降低功耗峰值壓力,數(shù)據(jù)中心的供應(yīng)商可以節(jié)省一大部分能源認(rèn)購而不會影響數(shù)據(jù)中心的正常運營。
(2)應(yīng)用級別的程序分析與指令調(diào)度
隨著程序分析技術(shù)的發(fā)展,數(shù)據(jù)中心的任務(wù)調(diào)度粒度可以縮小到指令級別,改變程序指令的具體執(zhí)行時序。通過對于程序指令流的分析和預(yù)測,將執(zhí)行模式相近的指令批量執(zhí)行,可以從微觀層面降低由于任務(wù)切換而帶來的功耗開銷。
(3)新材料部件的應(yīng)用
隨著相變材料(Phase Changing Material)、熱能存儲設(shè)備(Thermal Energy Storage)、超級電容(Super Capacitor)等一系列新型材料部件投入商業(yè)化運用,數(shù)據(jù)中心運轉(zhuǎn)過程中超額的熱能和電能可以以更高的效率存儲固化并在需要的場景下釋放再生。
(4)可再生能源利用
風(fēng)能、太陽能、水利能源是低碳環(huán)保的可再生能源,是未來數(shù)據(jù)中心供能的重要來源。然而,這類可再生能源天然地具有間斷性和不穩(wěn)定性,如何利用不穩(wěn)定的可再生能源驅(qū)動數(shù)據(jù)中心穩(wěn)定持續(xù)運行,是未來數(shù)據(jù)中心功能系統(tǒng)的重要研究方向。
2 提升能源利用效率
目前,在提升數(shù)據(jù)中心對于現(xiàn)有能源的利用效率方面,主要的解決思路集中在功率封頂技術(shù)、負(fù)載分析與指令級別調(diào)度、新型材料的利用等方面。
2.1 功率封頂技術(shù)
據(jù)統(tǒng)計,數(shù)據(jù)中心每認(rèn)購1瓦特的電源供應(yīng),無論是否有效投入應(yīng)用,都會產(chǎn)生10~25美元的費用[3-4]。然而,數(shù)據(jù)中心按照理論峰值認(rèn)購的功率數(shù)額,實際運行過程中卻很少真正發(fā)生。據(jù)一項針對Google公司的數(shù)據(jù)中心功耗狀況的調(diào)查,在數(shù)據(jù)中心的運行過程中,實際功率達(dá)到理論峰值的90%的情況小于運行時間的1%(如圖 1所示,橫軸為耗電量與理論峰值的比值,縱軸為運行時間的累積分布函數(shù)??梢钥吹胶碾娏窟_(dá)到理論峰值90%的運行時間實際小于1%)[5],為這些出現(xiàn)可能性較小的情況而超額認(rèn)購能源供應(yīng)顯然會帶來很大的成本浪費。
針對數(shù)據(jù)中心的功耗波動問題,一個有效的解決思路是功率封頂技術(shù),通過協(xié)調(diào)數(shù)據(jù)中的工作負(fù)載,使數(shù)據(jù)中心的功耗曲線趨于平滑。而功率封頂技術(shù)所需解決的一個主要問題是能源消耗狀況的不確定性和不可預(yù)測性。目前解決這一問題的研究方向集中在兩個方面:
(1)離線的功耗模型理論框架與在線的啟發(fā)式能源調(diào)度算法
大型數(shù)據(jù)中心的能源供應(yīng)框架往往非常復(fù)雜,為了得到最佳能源供應(yīng)和能源利用效率的理論值,有必要針對數(shù)據(jù)中心能源系統(tǒng)的結(jié)構(gòu)設(shè)計進(jìn)行理論建模,從而得到可以在實際運行中作為參考的基線值。一般來說,數(shù)據(jù)中心使用大規(guī)模分布式的UPS來調(diào)節(jié)能源負(fù)載和應(yīng)對能源峰值[6]。在能源供應(yīng)的理論模型中,必須要考慮大規(guī)模的UPS陣列的能源存儲量、運行時間、電源壽命、效率與可擴展性等諸多因素。同時,在服務(wù)器集群中,數(shù)據(jù)中心往往通過任務(wù)調(diào)度和延遲執(zhí)行來調(diào)節(jié)集群中各個節(jié)點的功耗需求[7-8],而任務(wù)遷移的開銷(緩存缺失、網(wǎng)絡(luò)帶寬消耗、處理器流水線排空等等)也是理論模型中所必須考慮的因素。通過這些靜態(tài)參數(shù),數(shù)據(jù)中心的管理者可以將數(shù)據(jù)中心的功耗模型規(guī)約為一個線性最小化問題,這為實際運營中的功率消耗提供了可以比較的基線值[9]。然而離線的理論模型需要對各個工作任務(wù)的功率消耗有先驗的認(rèn)知,因此不能直接應(yīng)用于實際的能源管理過程。在線的啟發(fā)式能源調(diào)度策略則實時監(jiān)控數(shù)據(jù)中心運行時的各項功耗狀況,在服務(wù)器級別、集群級別、跨集群級別三個層面調(diào)節(jié)任務(wù)遷移和任務(wù)延遲,從而在功率預(yù)算的約束內(nèi)達(dá)到最高的計算資源利用效率。
(2)能源供應(yīng)的分布式設(shè)計
UPS是存儲與釋放能源的基本單位,而UPS陣列可以集中于數(shù)據(jù)中心中的一個邏輯節(jié)點,也可以分布于數(shù)據(jù)中心的各個不同位置。目前,分布式的UPS備用電源正在受到包括Google在內(nèi)的很多數(shù)據(jù)中心建設(shè)者的重視。在分布式的UPS陣列中,數(shù)據(jù)中心操作員可以比較靈活地決定哪些備用電源在何時接入電源供應(yīng)網(wǎng)絡(luò)以彌補設(shè)備電源的電力供應(yīng)缺口[10],從而利用儲備電量削減電力供應(yīng)峰值的壓力。
2.2 程序分析與指令級別調(diào)度
數(shù)據(jù)中心所運行的計算任務(wù)的功耗需求調(diào)節(jié)技術(shù)是功耗管理系統(tǒng)的重要組成部分。通過對于程序執(zhí)行基本塊(Basic Block)的分析,可以計算得出指令之間的相似程度,如果相似程度較高的指令連續(xù)執(zhí)行,就可以省去取值、譯碼、控制邏輯、多路復(fù)選器等模塊在任務(wù)轉(zhuǎn)換等方面的功耗開銷。而利用線程同步(Thread Synchronization)技術(shù)[11]可以延遲相關(guān)指令,使得相似的多條指令可以批量執(zhí)行。
Princeton大學(xué)提出的拖拽執(zhí)行(Execution Drafting)技術(shù)利用了上述的功耗特點,使用指令粒度的程序分析技術(shù)識別多個應(yīng)用間相同或相似的指令序列,利用硬件上的指令同步器(Synchronizer)延遲一些進(jìn)程或線程的指令流水線過程,從而使得相似的指令序列能夠在運行時間上對齊(Alignment)。當(dāng)?shù)谝粭l指令開始流水線過程后,后續(xù)的指令序列就可以跟隨第一條指令進(jìn)入處理器流水線。由于已知后續(xù)指令在操作碼、寄存器使用方面與第一條指令相似,處理器可以節(jié)省一部分取指、譯碼和流水線控制方面的能源開銷[12]。
2.3 新型材料部件的應(yīng)用
除了以上軟件層面的解決方案外,利用超級電容等新型材料部件的充電/放電過程平衡無規(guī)律的功耗波動,結(jié)合動態(tài)負(fù)載分配技術(shù),也能夠有效地消除能源供給與消耗之間的不匹配,達(dá)到較高的能源利用效率[13]。相比于傳統(tǒng)的化學(xué)電池,超級電容具有以下優(yōu)勢:(1)較高的能源存儲效率和極短的充放電循環(huán)周期;(2)支持快速充電和瞬時大電流放電;(3)使用壽命比傳統(tǒng)電池高出2-3個數(shù)量級。但由于現(xiàn)階段超級電容的成本依然較高,所以一般采用超級電容與傳統(tǒng)電池相結(jié)合的儲能模式。
而利用熱能存儲設(shè)備和相變材料來存儲和釋放數(shù)據(jù)中心的熱能也已經(jīng)得到了初步的驗證[14-15]。當(dāng)數(shù)據(jù)中心的負(fù)載率較高時,高額的放熱量可以通過儲熱設(shè)備和相變材料固化,當(dāng)數(shù)據(jù)中心負(fù)載率降低、冷卻能力余量較大時,將這部分存儲的熱能釋放。由于商業(yè)化運營的數(shù)據(jù)中心一般具有比較固定的負(fù)載變化曲線,這部分儲熱材料可以整合為數(shù)據(jù)中心散熱與冷卻系統(tǒng)的一部分,在一個發(fā)熱/散熱周期內(nèi)規(guī)律運轉(zhuǎn)。
3 可再生能源的利用
隨著氣候變化等環(huán)境問題越來越多地受到人們的關(guān)注,數(shù)據(jù)中心作為大規(guī)模服務(wù)器集群,其龐大的能源開支帶來的碳排放問題也將成為數(shù)據(jù)中心運營商所必須考慮的社會成本。事實上,如Google、Microsoft、Yahoo!等大型IT企業(yè)已經(jīng)在嘗試使用可再生的清潔能源驅(qū)動其部分?jǐn)?shù)據(jù)中心的運轉(zhuǎn),這些在清潔能源方面的積極舉措能夠使每個數(shù)據(jù)中心每年約減少20 000磅的二氧化碳排放。
然而,目前能實際投入運營的清潔能源主要為風(fēng)能、太陽能、水利能源等等,這些可再生能源天然地具有間斷性和不穩(wěn)定性,如何利用可再生能源驅(qū)動數(shù)據(jù)中心穩(wěn)定持續(xù)運行,依然是一個值得研究的問題。目前,學(xué)術(shù)界主要的研究方向集中于混合使用可再生能源和傳統(tǒng)能源,即利用可再生能源減少數(shù)據(jù)中心的碳排放量,同時保留較為穩(wěn)定的傳統(tǒng)能源以保證數(shù)據(jù)中心長期平穩(wěn)運行(如圖 2所示)[17]。
為克服可再生能源的不穩(wěn)定性,F(xiàn)lorida大學(xué)提出了一種能源調(diào)度模型[17],將數(shù)據(jù)中心的運行過程劃分為不同的周期(Period),在每個周期中取時間點進(jìn)行負(fù)載率采樣。假設(shè)Ui=[ui1 ui2 … uic]為數(shù)據(jù)中心中c個集群在時間點為i時的負(fù)載率,那么在過去的m個時間段內(nèi)的負(fù)載情況可以用以下矩陣表示:
如果將第k個集群中需要調(diào)整的虛擬主機數(shù)量記為Sk的話,那么對于c個集群,下一時間段內(nèi)各個主機調(diào)整的策略可以表示為S=[s1 s2 … sc]。為使因負(fù)載調(diào)度帶來的性能波動盡可能?。丛诟鱾€時間點的負(fù)載率變化盡可能?。?,這里需要計算所有集群聚合的工作負(fù)載率數(shù)列的標(biāo)準(zhǔn)差,其中聚合工作負(fù)載率由U與S矩陣相乘得出,即[aij]m×1=U×ST。根據(jù)標(biāo)準(zhǔn)差的計算公式,實際上該問題可以被規(guī)約為一個非線性最小化問題:
上述啟發(fā)式的能源管理策略在風(fēng)能、太陽能驅(qū)動的數(shù)據(jù)中心實驗中均得到了成功實踐,是一種通用而有效的能源調(diào)度模型[17-19]。
但另一方面,這些研究基本上是在微型的數(shù)據(jù)中心模型上進(jìn)行,并未經(jīng)過大規(guī)模、異構(gòu)化、高負(fù)載壓力的商業(yè)化數(shù)據(jù)中心運營驗證,因此在穩(wěn)定性、計算資源利用效率、可擴展性方面還有很多可以拓展的空間。
4 總結(jié)與展望
數(shù)據(jù)中心作為大數(shù)據(jù)時代的基礎(chǔ)設(shè)施,在未來的IT產(chǎn)業(yè)發(fā)展中會扮演越來越重要的角色。能源消耗將成為數(shù)據(jù)中心建設(shè)和運營的一項主要成本,而公眾和政府對于環(huán)保問題的重視會讓數(shù)據(jù)中心的供應(yīng)商更多地考慮可再生能源的利用。
本文中討論的對于現(xiàn)有能源的功耗管理技術(shù),如功率封頂技術(shù)、功率實時監(jiān)測與動態(tài)任務(wù)調(diào)度技術(shù)等等,均已在現(xiàn)有的商業(yè)化運營中得到長期驗證,是比較成熟的功耗控制技術(shù)。而諸如新材料、新能源的利用,則是近年來隨著學(xué)科交叉發(fā)展而帶來的嶄新的研究方向,一部分設(shè)計思路還僅僅經(jīng)過了學(xué)術(shù)界的模型研究和小規(guī)模驗證,距離實際投入商業(yè)運營還有一段距離。然而這些試驗階段的新技術(shù)無疑代表了能源管理系統(tǒng)未來的研究方向。
隨著數(shù)據(jù)中心規(guī)模的不斷擴大和功能的多樣化發(fā)展,未來超大規(guī)模、異構(gòu)平臺、分布式的數(shù)據(jù)中心架構(gòu)還必然帶來新的能源消耗問題。而可再生能源的轉(zhuǎn)化與利用技術(shù)依然處于試驗和快速發(fā)展階段,依然存在非常廣闊的挖掘空間。
參考文獻(xiàn)
[1] Natural Resources Defense Council.America's Data Centers Consuming and Wasting Growing Amounts of Energy[DB/OL][2015-12-27].http://www.nrdc.org/energy/data-centerefficiency-assessment.asp.
[2] KOOMEY J G.Worldwide electricity used in data centers[J].Environmental Research Letters,2008,3(3):034008.
[3] BARROSO L A,CLIDARAS J,H?魻LZLE U.The datacenter as a computer:An introduction to the design of warehouse-scale machines[J].Synthesis lectures on computer architecture,2013,8(3):154.
[4] HAMILTON J.Internet-scale service infrastructure efficiency[C].ACM SIGARCH Computer Architecture News,ACM,2009,37(3):232.
[5] FAN X,WEBER W D,BARROSO L A.Power provisioning for a warehouse-sized computer[C].ACM SIGARCH Computer Architecture News.ACM,2007,35(2):13-23.
[6] Google Server-level UPS for improved efficiency.http://news.cnet.com/8301-1001_3-10209580-92.html.
[7] AMUR H,CIPAR J,GUPTA V,et al.Robust and flexible power-proportional storage[C].Proceedings of the 1st ACM symposium on Cloud computing.ACM,2010:217-228.
[8] CHASE J S,ANDERSON D C,THAKAR P N,et al.Managing energy and server resources in hosting centers[C].ACM SIGOPS Operating Systems Review.ACM,2001,35(5):103-116.
[9] GOVINDAN S,WANG D,SIVASUBRAMANIAM A,et al.Leveraging stored energy for handling power emergencies in aggressively provisioned datacenters[C].ACM SIGARCH Computer Architecture News.ACM,2012,40(1):75-86.
[10] KONTORINIS V,ZHANG L E,AKSANLI B,et al.Managing distributed ups energy for effective power capping in data centers[C].Computer Architecture(ISCA),2012 39th Annual International Symposium on.IEEE,2012:488-499.
[11] RAKVIC R,CAI Q,GONZALEZ J,et al.Thread-management techniques to maximize efficiency in multicore and simultaneous multithreaded microprocessors[J].ACM Transactions on Architecture and Code Optimization(TACO),2010,7(2):9.
[12] MCKEOWN M,BALKIND J,WENTZLAFF D.Execution Drafting: Energy Efficiency Through Computation Deduplication[C].Proceedings of the 47th Annual IEEE/ACM International Symposium on Microarchitecture.IEEE Computer Society,2014:432-444.
[13] LIU L,LI C,SUN H,et al.HEB:deploying and managing hybrid energy buffers for improving datacenter efficiency and economy[C].Proceedings of the 42nd Annual International Symposium on Computer Architecture.ACM,2015:463-475.
[14] ZHENG W,MA K,WANG X.Exploiting thermal energy storage to reduce data center capital and operating expenses[C].High Performance Computer Architecture(HPCA),2014 IEEE 20th International Symposium on.IEEE,2014:132-141.
[15] SKACH M,ARORA M,HSU C H,et al.Thermal time shifting:Leveraging phase change materials to reduce cooling costs in warehouse-scale computers[C].Proceedings of the 42nd Annual International Symposium on Computer Architecture(ISCA),ser.ISCA.2015,15.
[16] LI C,QOUNEH A,LI T.iSwitch:coordinating and optimizing renewable energy powered server clusters[C].Computer Architecture(ISCA),2012 39th Annual International Symposium on.IEEE,2012:512-523.
[17] GOIRI I,KATSAK W,LE K,et al.Parasol and greenswitch: Managing datacenters powered by renewable energy[C].ACM SIGARCH Computer Architecture News.ACM, 2013,41(1):51-64.
[18] DENG W,LIU F,JIN H,et al.Multigreen:Cost-minimizing multi-source datacenter power supply with online control[C].Proceedings of the fourth international conference on Future energy systems.ACM,2013:149-160.