《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 模擬設(shè)計(jì) > 業(yè)界動(dòng)態(tài) > 基于機(jī)器學(xué)習(xí)的數(shù)據(jù)中心參數(shù)自動(dòng)優(yōu)化關(guān)鍵技術(shù)研究

基于機(jī)器學(xué)習(xí)的數(shù)據(jù)中心參數(shù)自動(dòng)優(yōu)化關(guān)鍵技術(shù)研究

2020-08-06
來源:中國信通院CAICT

  1 引言

  隨著大數(shù)據(jù)、云計(jì)算等技術(shù)的高速發(fā)展,數(shù)字經(jīng)濟(jì)已經(jīng)成為我國經(jīng)濟(jì)發(fā)展的重要戰(zhàn)略,高密度數(shù)據(jù)中心作為承載技術(shù)與產(chǎn)業(yè)的實(shí)體,是傳統(tǒng)工業(yè)向信息化轉(zhuǎn)型的關(guān)鍵“新基建”。因此,對(duì)數(shù)據(jù)中心的全方位優(yōu)化部署成為了從業(yè)者的迫切追求。衡量數(shù)據(jù)中心性能的標(biāo)準(zhǔn)即為可定義、可量化的一系列數(shù)據(jù)中心關(guān)鍵參數(shù)。本文希望研究利用機(jī)器學(xué)習(xí)算法進(jìn)行數(shù)據(jù)中心參數(shù)自動(dòng)優(yōu)化的典型關(guān)鍵技術(shù),特別是研究聚焦在“基礎(chǔ)設(shè)施層”和“服務(wù)器層”等核心參數(shù)的具體優(yōu)化方法,以形成數(shù)據(jù)中心參數(shù)自動(dòng)優(yōu)化的設(shè)計(jì)路徑。

  2 數(shù)據(jù)中心關(guān)鍵參數(shù)分析

  本文研究的關(guān)鍵參數(shù)包括:數(shù)據(jù)中心能源利用效率(Power Usage Effectiveness,PUE)、風(fēng)機(jī)水泵等基礎(chǔ)設(shè)施系統(tǒng)設(shè)備耗電量;網(wǎng)絡(luò)傳輸性能如時(shí)延、丟包率、吞吐量等;數(shù)據(jù)中心的可靠性、可用性等。

  2.1 PUE

  全球通用的數(shù)據(jù)中心核心關(guān)鍵指標(biāo)是PUE[1],該指標(biāo)最早于2007年由綠色網(wǎng)格組織(The Green Grid,TGG)提出,用來評(píng)價(jià)數(shù)據(jù)中心能源利用效率,并得到廣泛使用。

  PUE的定義為:PUE=Pall/PIT,其中Pall指的是一個(gè)數(shù)據(jù)中心的全年總體累計(jì)電能消耗,單位為kWh;PIT為整個(gè)數(shù)據(jù)中心的IT設(shè)備全年累計(jì)電能消耗,單位同樣為kWh。因此,PUE為一個(gè)沒有單位的參數(shù),且最小值為1。

  2.2 數(shù)據(jù)中心基礎(chǔ)設(shè)施耗電量分析

  隨著產(chǎn)業(yè)和規(guī)模的發(fā)展,數(shù)據(jù)中心能耗成為社會(huì)廣泛關(guān)注的問題。對(duì)于從業(yè)者而言,實(shí)現(xiàn)數(shù)據(jù)中心的綠色化發(fā)展也是體現(xiàn)技術(shù)水平的重要方面之一。因此,近年來數(shù)據(jù)中心行業(yè)對(duì)各種設(shè)備的能源消耗日益關(guān)注,基礎(chǔ)設(shè)施的耗電量成為最為關(guān)鍵的技術(shù)參數(shù)之一。

  2.2.1 冷水機(jī)組

  冷水機(jī)組是大型數(shù)據(jù)中心制冷架構(gòu)中的核心設(shè)備,其工作原理是由一個(gè)多功能的機(jī)器,通過內(nèi)部工質(zhì)的壓縮或膨脹來完成制冷循環(huán)。在制冷行業(yè)中,通常冷機(jī)可以分為風(fēng)冷式和水冷式兩種,根據(jù)壓縮機(jī)的不同種類,水冷型的冷機(jī)又分為螺桿式冷水機(jī)組和離心式冷水機(jī)組,在大型數(shù)據(jù)中心領(lǐng)域常見的是水冷型離心機(jī)組。根據(jù)調(diào)研,冷機(jī)是數(shù)據(jù)中心暖通系統(tǒng)中耗電量最大的單體設(shè)備,主要耗電部件是壓縮機(jī)。

  2.2.2 風(fēng)機(jī)

  在數(shù)據(jù)中心基礎(chǔ)設(shè)施系統(tǒng)中,風(fēng)機(jī)的功耗占據(jù)著僅次于冷水機(jī)組的耗電類設(shè)備第二大比例。在IDC制冷架構(gòu)設(shè)備中,采用風(fēng)機(jī)設(shè)備的風(fēng)冷精密空調(diào)整體耗能比水冷型高15%。因此,從空調(diào)制冷,到冷板式制冷,再到浸沒式制冷,制冷末端在逐漸向熱源逼近。液冷技術(shù)直接利用冷卻液直接/間接給IT設(shè)備芯片散熱,效率較高。

  2.2.3 水泵

  在數(shù)據(jù)中心運(yùn)維階段,通常水泵的運(yùn)行頻率對(duì)各類制冷設(shè)備整體的總能耗起關(guān)鍵作用。因此,水泵的能耗成為被關(guān)注的另一個(gè)耗電量核心參數(shù)。

  2.3 網(wǎng)絡(luò)傳輸參數(shù)

  隨著網(wǎng)絡(luò)的快速發(fā)展和普及,互聯(lián)網(wǎng)規(guī)模不斷擴(kuò)大,涌現(xiàn)出很多新型網(wǎng)絡(luò)應(yīng)用和服務(wù),例如高清視頻會(huì)議、在線游戲和網(wǎng)絡(luò)直播等。不同的數(shù)據(jù)中心應(yīng)用對(duì)以下3個(gè)指標(biāo)有不同側(cè)重點(diǎn)需求。

  (1)吞吐量:表征的是網(wǎng)絡(luò)架構(gòu)中主機(jī)之間的傳輸速率,表現(xiàn)為單位時(shí)間長度內(nèi)的傳輸數(shù)據(jù)總量,常用單位為kbit/s和Mbit/s。

 ?。?)時(shí)延:有單向時(shí)延和端到端時(shí)延兩種概念,單向時(shí)延指E1發(fā)送數(shù)據(jù)報(bào)文的時(shí)間與E2接收數(shù)據(jù)報(bào)文的時(shí)間之差,端到端時(shí)延是分組時(shí)延、單向(網(wǎng)絡(luò))時(shí)延、抖動(dòng)緩沖時(shí)延和附加固定時(shí)延(如果有)的總和。與單向時(shí)延一樣,端到端時(shí)延在端點(diǎn)之間是單向的,但擴(kuò)展到硬件,包含所有延遲因素。

 ?。?)丟包率:是丟失IP包數(shù)與所有發(fā)送的IP包數(shù)的比值,衡量網(wǎng)絡(luò)架構(gòu)性能的一個(gè)重要參數(shù)。通常數(shù)據(jù)在網(wǎng)絡(luò)傳遞中會(huì)發(fā)生丟失現(xiàn)象,經(jīng)常和網(wǎng)絡(luò)轉(zhuǎn)發(fā)質(zhì)量、末端間距等因素相關(guān)。

  2.4 數(shù)據(jù)中心可靠性和可用性

  數(shù)據(jù)中心的重要性在于支持企業(yè)應(yīng)用不間斷運(yùn)行。近年來,世界各地的數(shù)據(jù)中心經(jīng)常發(fā)生一些安全故障事件,一次次沖擊著用戶的心理防線。因此,數(shù)據(jù)中心可靠性和可用性是衡量其綜合性能的關(guān)鍵參數(shù)。

  (1)可靠性(Reliability),指某個(gè)設(shè)備或系統(tǒng)在一個(gè)指定的時(shí)間內(nèi)能夠無故障地持續(xù)穩(wěn)定運(yùn)行的可能性。人們通常用平均無故障時(shí)間(Mean Time Between Failure,MTBF)這一指標(biāo)來量化它,MTBF反映了產(chǎn)品的時(shí)間質(zhì)量。

 ?。?)可用性(Availability),指系統(tǒng)在使用過程中MTBF與總時(shí)間(MTBF+MTTR)之比(其中MTTR為平均修復(fù)時(shí)間),其計(jì)算公式是A=MTBF/(MTBF+MTTR)。可用性是衡量一個(gè)數(shù)據(jù)中心整體或者設(shè)備穩(wěn)定運(yùn)行能力的指標(biāo),比率越無限接近1.0,穩(wěn)定性越好。

  以上不同關(guān)鍵參數(shù)基本可以對(duì)一個(gè)數(shù)據(jù)中心進(jìn)行整體綜合評(píng)價(jià),這使得數(shù)據(jù)中心基礎(chǔ)設(shè)施的設(shè)計(jì)有了可量化的目標(biāo),也使得評(píng)估有了可量化的依據(jù)。

  3 針對(duì)參數(shù)優(yōu)化的機(jī)器學(xué)習(xí)算法

  在信息通信領(lǐng)域,機(jī)器學(xué)習(xí)算法技術(shù)在過去幾年越來越受到重視。這些算法的目的是找到相關(guān)參數(shù)之間的關(guān)聯(lián)程度,并以此去規(guī)劃執(zhí)行動(dòng)作,從而對(duì)目標(biāo)參數(shù)進(jìn)行集成優(yōu)化。集成優(yōu)化是指對(duì)數(shù)據(jù)中心五層架構(gòu)的統(tǒng)一調(diào)度,其中尤為重要的是風(fēng)火水電和IT軟件硬件資源之間的優(yōu)化[2]。人工智能、云計(jì)算和大數(shù)據(jù)技術(shù)的發(fā)展,催生基于海量數(shù)據(jù)進(jìn)行預(yù)測(cè)并輸出建議的機(jī)器學(xué)習(xí)算法進(jìn)展迅速。機(jī)器學(xué)習(xí)算法種類繁多,其中針對(duì)目標(biāo)參數(shù)進(jìn)行關(guān)系擬合、優(yōu)化的算法基本分為三大類。

  (1)監(jiān)督學(xué)習(xí):監(jiān)督學(xué)習(xí)問題可以分為兩類,一類是回歸,輸出結(jié)果是數(shù)字,如城市交通流量、設(shè)備運(yùn)行速度;一類是分類,輸出結(jié)果是類別,如男性或者女性、睡眠或者清醒。

 ?。?)無監(jiān)督學(xué)習(xí):無監(jiān)督學(xué)習(xí)問題可以分為3類,一類是關(guān)聯(lián),該方法是為了找出各種情況出現(xiàn)的概率,廣泛地運(yùn)用于購物車分析(電子商務(wù)領(lǐng)域)中;一類是聚類,把樣本分堆,使同一堆中的樣本之間很相似,而不同堆之間的樣本就有些差別;還有一類是降維,減少數(shù)據(jù)集中變量的個(gè)數(shù),但是仍然保留重要的信息。

 ?。?)強(qiáng)化學(xué)習(xí):通過學(xué)習(xí)那些能夠最大化獎(jiǎng)勵(lì)的行為是什么,然后根據(jù)當(dāng)前狀態(tài)來決定最優(yōu)下一步行動(dòng)。此算法通常用在機(jī)器人開發(fā)中,經(jīng)常使用試錯(cuò)的方式來學(xué)習(xí)最佳行動(dòng)。機(jī)器人可以通過在撞到障礙物后接收到的負(fù)反饋來學(xué)習(xí)如何避免碰撞。例如,在視頻游戲里,試錯(cuò)行為能發(fā)現(xiàn)那些給予玩家獎(jiǎng)勵(lì)的特定動(dòng)作。行動(dòng)主體就能用這些正向獎(jiǎng)勵(lì)來理解游戲中的最佳情形,并選擇下一步行動(dòng)。

  4 基于機(jī)器學(xué)習(xí)的數(shù)據(jù)中心參數(shù)自動(dòng)優(yōu)化關(guān)鍵技術(shù)

  機(jī)器學(xué)習(xí)算法是一個(gè)在不斷發(fā)展中的邊界不明確的技術(shù)領(lǐng)域,如基本類別監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)的算法分類目前尚存爭議[3]。機(jī)器學(xué)習(xí)界的一個(gè)最鮮明的特點(diǎn)就是算法眾多,思想各不相同,發(fā)展各有路徑。因此,業(yè)內(nèi)廣泛接受的一個(gè)事實(shí)是:沒有任何一種機(jī)器學(xué)習(xí)算法可以適用所有應(yīng)用場景,可以說是一類各方探討進(jìn)程中的典型技術(shù)。根據(jù)各類學(xué)習(xí)算法的特征優(yōu)勢(shì),數(shù)據(jù)中心領(lǐng)域展開了多種算法實(shí)踐,其中的典型參數(shù)自動(dòng)優(yōu)化算法如下。

  4.1 應(yīng)用監(jiān)督學(xué)習(xí)算法的數(shù)據(jù)中心參數(shù)自動(dòng)優(yōu)化

  監(jiān)督式學(xué)習(xí)在數(shù)據(jù)中心參數(shù)調(diào)優(yōu)中的典型技術(shù)是“運(yùn)維參數(shù)優(yōu)化”,其主要思想就是驅(qū)動(dòng)系統(tǒng)設(shè)備跟隨運(yùn)維人員從歷史數(shù)據(jù)中學(xué)習(xí),運(yùn)維人員就像是一個(gè)“師傅”,將自己的領(lǐng)域知識(shí)“教” 給系統(tǒng),然后系統(tǒng)根據(jù)“學(xué)”到的知識(shí)來自動(dòng)選擇合適的檢測(cè)器和算法參數(shù)。運(yùn)維人員首先在歷史數(shù)據(jù)中標(biāo)記出異常,接著使用十幾種不同類型的檢測(cè)器提取出上百個(gè)異常特征,此時(shí)有了人工標(biāo)記的數(shù)據(jù)和異常特征;然后,將異常檢測(cè)問題轉(zhuǎn)化成機(jī)器學(xué)習(xí)中監(jiān)督式的分類問題,分析算法中參數(shù)的分布規(guī)律和不同參數(shù)下學(xué)習(xí)效果的評(píng)估,并將此規(guī)律應(yīng)用于機(jī)器學(xué)習(xí)的模型訓(xùn)練,達(dá)到自動(dòng)選擇合適參數(shù)的目的。

  4.2 應(yīng)用無監(jiān)督學(xué)習(xí)算法的數(shù)據(jù)中心參數(shù)自動(dòng)優(yōu)化

  無監(jiān)督算法的一個(gè)應(yīng)用是對(duì)大型服務(wù)器集群內(nèi)部的故障進(jìn)行根因故障分析,以此提高數(shù)據(jù)中心的可靠性參數(shù)。目前,業(yè)界基于人工智能的運(yùn)維以告警事件、業(yè)務(wù)日志、網(wǎng)絡(luò)及業(yè)務(wù)拓?fù)涞葹檠芯抗芾韺?duì)象,通過算法智能降噪、算法智能聚類的管理過程,依托無監(jiān)督方式的機(jī)器學(xué)習(xí)算法技術(shù)來實(shí)現(xiàn)智能事件關(guān)系整合,在海量的故障事件中高速、精準(zhǔn)定位問題,解析原因,提高解決問題的速度。

  這種技術(shù)在對(duì)服務(wù)器進(jìn)行故障分析時(shí)具備典型的優(yōu)勢(shì):首先是多元IT數(shù)據(jù)接入,融合告警事件、監(jiān)控日志、流量、網(wǎng)絡(luò)拓?fù)涞榷嗑S度數(shù)據(jù)接入;其次是大數(shù)據(jù)算法降噪,通過智能算法進(jìn)行數(shù)據(jù)的降噪處理,高效的實(shí)時(shí)數(shù)據(jù)處理能力,海量數(shù)據(jù)的多維管理;第三是數(shù)據(jù)聚類和關(guān)聯(lián),通過算法進(jìn)行智能關(guān)聯(lián)性匹配并聚合歸類,產(chǎn)生新的數(shù)據(jù)模型;第四是智能根因推薦,依據(jù)IP、業(yè)務(wù)、歸屬等多維度進(jìn)行智能化語義分析,快速推薦當(dāng)前情境下的故障根因;最后是知識(shí)庫積累復(fù)用,可以構(gòu)建一套知識(shí)體系與歷史事件分析的過程,即針對(duì)過去事件與當(dāng)前告警智能提供匹配列表。

  4.3 應(yīng)用強(qiáng)化學(xué)習(xí)算法的數(shù)據(jù)中心參數(shù)自動(dòng)優(yōu)化

  用強(qiáng)化學(xué)習(xí)算法去優(yōu)化PUE是對(duì)傳統(tǒng)數(shù)據(jù)中心控制系統(tǒng)技術(shù)的突破性顛覆,也是目前機(jī)器學(xué)習(xí)算法在數(shù)據(jù)中心參數(shù)優(yōu)化的最成功實(shí)踐。這種算法運(yùn)用機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)以及模糊控制等技術(shù)和方法對(duì)數(shù)據(jù)進(jìn)行處理、對(duì)各類相關(guān)設(shè)備進(jìn)行系統(tǒng)化分析和決策,從而達(dá)到優(yōu)化數(shù)據(jù)中心整體PUE的目的。通過對(duì)當(dāng)前運(yùn)行數(shù)據(jù)的清洗、分析和挖掘,預(yù)測(cè)未來的控制動(dòng)作。整個(gè)過程采用機(jī)器學(xué)習(xí)算法的模型進(jìn)行訓(xùn)練。從強(qiáng)化學(xué)習(xí)算法用于優(yōu)化數(shù)據(jù)中心參數(shù)的成果來看,該方法收益顯著。例如,谷歌公司使用其機(jī)器學(xué)習(xí)系統(tǒng),自動(dòng)管理其數(shù)據(jù)中心的冷卻架構(gòu),并持續(xù)分析21個(gè)變量,如空氣溫度、功率負(fù)載和內(nèi)部氣壓等。2018年,谷歌公司利用機(jī)器學(xué)習(xí)算法將冷卻系統(tǒng)所需的能耗減少40%,實(shí)現(xiàn)PUE值為1.06的良好成績。

  5 結(jié)束語

  自2013年起,中國信息通信研究院云計(jì)算與大數(shù)據(jù)研究所測(cè)試過眾多數(shù)據(jù)中心的PUE,其中表現(xiàn)良好的大部分為互聯(lián)網(wǎng)和通信行業(yè)大型數(shù)據(jù)中心。測(cè)試結(jié)果顯示,參測(cè)數(shù)據(jù)中心PUE已經(jīng)由1.4~1.5區(qū)間降低到1.2~1.3區(qū)間,最佳PUE在不斷創(chuàng)新低?;跈C(jī)器學(xué)習(xí)的典型算法在數(shù)據(jù)中心的PUE等參數(shù)優(yōu)化中已經(jīng)有了不同的應(yīng)用。未來,機(jī)器學(xué)習(xí)算法將與ICT領(lǐng)域的新技術(shù)產(chǎn)生更多交集,形成更多方向、更加深入的研究課題,通過算法與實(shí)際業(yè)務(wù)的結(jié)合,實(shí)現(xiàn)更大的收益。


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請(qǐng)及時(shí)通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。