由于大部分繁重的 AI 任務(wù)都是在云端完成的,因此人們很容易忘記 AI 需要大量的計算資源及電力。
馬薩諸塞州大學(xué)阿默斯特分校去年的一項(xiàng)研究發(fā)現(xiàn),訓(xùn)練一個大型自然語言處理(BERT)AI 模型因消耗電力而產(chǎn)生的二氧化碳(CO2),相當(dāng)于跨大西洋往返航班對每個乘客所產(chǎn)生的 CO2。那只是一個模型,雖然是變換網(wǎng)絡(luò),但只需訓(xùn)練一次。開發(fā)過程中通常會對模型進(jìn)行多次調(diào)整和反復(fù)訓(xùn)練。如果將神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索(一種使用 AI 來調(diào)整模型的 AutoML 技術(shù))加入一個大小適中的轉(zhuǎn)換器中,其 CO2 總排放量將猛升到幾乎與 5 輛美國汽車的終身排放量相同。
圖 1:訓(xùn)練一個大型的自然語言處理 AI 模型時,其消耗電力所產(chǎn)生的 CO2 相當(dāng)于跨大西洋往返航班對每個乘客所產(chǎn)生的 CO2。
AI 加速器有望提高 AI 處理的計算效率。隨著 AI 處理量的不斷增加,數(shù)據(jù)中心將會采用這些新的專用加速器。
但是 AI 加速器可以節(jié)省能源嗎?究竟是總的用電量下降了,還是數(shù)據(jù)中心只不過利用同樣的電力實(shí)現(xiàn)了更多的計算?
AI 訓(xùn)練策略
“AI 計算使用的能量多少是由幾個因素決定的。”IBM Cognitive Systems 技術(shù)計算副總裁 David Turek 解釋說,“采取什么樣的策略來訓(xùn)練模型,會影響所消耗的能量。每瓦特的計算量并不是特別有用的指標(biāo),因?yàn)橛泻芏喾N不同的方法可以降低總能耗?!?/p>
他補(bǔ)充說,整個系統(tǒng)架構(gòu)和應(yīng)用環(huán)境決定了實(shí)際上需要多少能源?!皬哪P陀?xùn)練到模型部署,計算能力的不同級別直接影響其基礎(chǔ)架構(gòu),從而直接影響所消耗的能源?!?/p>
人們通常認(rèn)為,AI 系統(tǒng)中一次只訓(xùn)練一個模型,然后將其部署到其他地方進(jìn)行推理。但事實(shí)并非如此,典型的 AI 系統(tǒng)會多次訓(xùn)練很多模型,并且可能同時在多個模型上進(jìn)行推理以獲得最佳結(jié)果。
完成部署后,有時會使用聯(lián)邦學(xué)習(xí)(federated learning)之類的技術(shù),在邊緣而不是回到數(shù)據(jù)中心更新增量模型。需要消耗多少能量取決于在邊緣進(jìn)行什么處理。
換句話說,訓(xùn)練特定的 AI 模型所消耗的能量并不是直接就可以確定的?!暗珨?shù)據(jù)中心的基礎(chǔ)設(shè)施是固定的,因此調(diào)整工作流程是節(jié)省能源的最好方法。”Turek 說。
可能的方法有:將 AI 模型與傳統(tǒng)的高性能計算融合,以減少所需的總計算量;縮短完成一項(xiàng)工作所花的時間,以減少 GPU 等高能耗 AI 加速器硬件的使用;避免在數(shù)據(jù)中心使用聯(lián)邦學(xué)習(xí)之類的技術(shù)重復(fù)訓(xùn)練。
Turek 說:“這是從管理的角度來聰明地安排工作流程,利用最佳的方法為現(xiàn)有系統(tǒng)分配可用的能源。通過能源預(yù)算和能源消耗,運(yùn)營商可以在其硬件基礎(chǔ)架構(gòu)上進(jìn)行調(diào)度分配?!?/p>
在更高的溫度下運(yùn)行
服務(wù)器制造商 Supermicro 去年年底發(fā)布的數(shù)據(jù)中心環(huán)境實(shí)踐年度調(diào)查報告顯示,能源效率仍然有機(jī)會提高。Supermicro 營銷和網(wǎng)絡(luò)安全副總裁 Michael McNerney 認(rèn)為,這些機(jī)會正在流失。
McNerney 說:“我們認(rèn)為一些基本的最佳實(shí)踐可以為客戶帶來很大價值。其中的一條是,相比傳統(tǒng)的數(shù)據(jù)中心環(huán)境,我們今天構(gòu)建的系統(tǒng)可以在更高的溫度下運(yùn)行,許多長期從事數(shù)據(jù)中心運(yùn)營的人卻沒有意識到這一點(diǎn)?!?/p>
在目前的設(shè)計中,不再需要將設(shè)備冷卻到 23~25°C 來確保其性能和可靠性。一些“綠色”數(shù)據(jù)中心處于極端溫度下,即便是很小的變化,例如減少空調(diào)的使用,也可以節(jié)省能源。
圖 2:現(xiàn)代服務(wù)器和基礎(chǔ)設(shè)施可以在更高的溫度下運(yùn)行,并且切換為多節(jié)點(diǎn)系統(tǒng),從而降低了總能耗。
多節(jié)點(diǎn)系統(tǒng)是節(jié)省能源的另一種方法,其中多臺服務(wù)器在共享的基礎(chǔ)架構(gòu)上運(yùn)行。這種配置減少了所需的大型電源和風(fēng)扇數(shù)量。多節(jié)點(diǎn)系統(tǒng)具有更高的能源效率,可以在更高的溫度下運(yùn)行,并提供更高的功率密度。
Supermicro 的調(diào)查還發(fā)現(xiàn),目前每個機(jī)架的平均功率密度為 15kW,服務(wù)器進(jìn)氣入口溫度為 23.5°C,服務(wù)器每 4.1 年更換一次。而在采用高度優(yōu)化綠色設(shè)計的數(shù)據(jù)中心(占受訪者的 12%),每個機(jī)架的功率密度超過 25kW,平均入口溫度為 26.5°C,服務(wù)器每 2 至 3 年更換一次。因此,Supermicro 得出結(jié)論,大多數(shù)數(shù)據(jù)中心仍需繼續(xù)優(yōu)化能效。
令人驚訝的是,大多數(shù)受訪者并不認(rèn)為能耗是成功的關(guān)鍵指標(biāo)?!拔覀円呀?jīng)看到,公司的設(shè)施預(yù)算與硬件及系統(tǒng)的資產(chǎn)購置成本是分開的,它們與人力成本也是分開的。我認(rèn)為人們很清楚地知道這一點(diǎn),但是并不會進(jìn)行綜合考慮和優(yōu)化?!盡cNerney 說。
“較大的數(shù)據(jù)中心更了解總運(yùn)營成本,但若增加資產(chǎn)購置預(yù)算,能源預(yù)算就會減少,人們有時很難把這兩者關(guān)聯(lián)起來。”
McNerneyt 認(rèn)為整個數(shù)據(jù)中心的功耗并不會很快下降。他說:“長期的發(fā)展趨勢是,一些在線服務(wù)的能耗會隨著效率的提升而改善,然而隨著 5G 和 AI 的逐漸普及,總體功耗仍將繼續(xù)增加。”
電費(fèi)與能耗
英偉達(dá)加速計算產(chǎn)品管理總監(jiān) Paresh Kharya 表示,數(shù)據(jù)中心運(yùn)營商希望全面提高能效,因?yàn)殡娰M(fèi)占其運(yùn)營成本的 25%。
能源使用效率(PUE)是一項(xiàng)廣泛使用的用來衡量能源節(jié)約的指標(biāo),表示計算所消耗的能源與數(shù)據(jù)中心基礎(chǔ)設(shè)施消耗的總能源之比。目標(biāo)是 PUE 等級為 1。
Kharya 說:“多年來,超大規(guī)模數(shù)據(jù)中心的 PUE 接近 1 或 1.1,非常高效。企業(yè)數(shù)據(jù)中心也取得了很大進(jìn)步,大多數(shù)情況下,其 PUE 等級已經(jīng)從大于 2 降到了遠(yuǎn)遠(yuǎn)低于 2。”
超大規(guī)模數(shù)據(jù)中心采用優(yōu)化的機(jī)架和散熱設(shè)計,可以大規(guī)模運(yùn)行,其優(yōu)化和使用復(fù)雜技術(shù)的能力是大多數(shù)企業(yè)數(shù)據(jù)中心不具備的。Kharya 表示:“許多企業(yè)已開始采用這些創(chuàng)新技術(shù),能源效率得到了顯著提高?!?/p>
由于各家公司關(guān)注的是電費(fèi)而不是功耗,所以 Kharya 認(rèn)為,執(zhí)行任務(wù)所花費(fèi)的時間是一個重要因素。“例如,在一臺只有 CPU 的服務(wù)器上訓(xùn)練 ResNet-50 模型的圖像識別可能需要長達(dá)三周的時間,而配備英偉達(dá) V100 GPU 的服務(wù)器可以在一天之內(nèi)完成這一任務(wù)。”他補(bǔ)充道。
“每臺配備英偉達(dá) GPU 的服務(wù)器比配備 CPU 的服務(wù)器消耗的能源更多,但它完成任務(wù)的時間將大大縮短。因此,如果使用 GPU 加速器,用于完成 AI 處理的整體能耗將降低至原來的 20 到 25 分之一?!盞harya 強(qiáng)調(diào)。
了解數(shù)據(jù)中心工作負(fù)荷
英特爾數(shù)據(jù)平臺營銷總經(jīng)理 Allyson Klein 表示,數(shù)據(jù)中心運(yùn)營商會盡量確保所有系統(tǒng)高效運(yùn)行,讓昂貴的基礎(chǔ)架構(gòu)提供最大的計算能力。
“數(shù)據(jù)中心運(yùn)營商的主要目標(biāo)是使基礎(chǔ)架構(gòu)的性能達(dá)到最好?!盞lein 說,“性能高低取決于系統(tǒng)和機(jī)架的級別,同時還需要整個數(shù)據(jù)中心協(xié)同工作,使每瓦性能達(dá)到最高。”
因此,為了部署合適的基礎(chǔ)架構(gòu)來滿足性能和能耗要求,全面了解數(shù)據(jù)中心的工作負(fù)荷非常重要。最理想的結(jié)果是計算容量更大,功耗更低,并且不會閑置基礎(chǔ)設(shè)施而白白消耗電力。
究竟是在 CPU 中集成加速功能還是采用分立的加速器,這通常需要進(jìn)行權(quán)衡。Klein 說:“加速器會增加功耗,但如果它一直工作,則整體效率更高。如果加速器完成大量工作,利用率高,在客戶愿意投資基礎(chǔ)設(shè)施的情況下,使用分立的加速器是較好的方法。如果不能一直使用加速器,則采用 CPU 方法可能是更好的選擇,因?yàn)榧铀倨鹘?jīng)常會空閑,耗電卻不執(zhí)行任何任務(wù)?!?/p>
Klein 表示,在大多數(shù)部署中,AI 只是數(shù)十萬種不同工作負(fù)荷的一種。盡管英特爾提供了 CPU 和專用 AI 加速器(通過 Habana Labs),但由于工作負(fù)荷種類很多,從功耗和投資角度來看,Xeon Scalable(CPU)平臺可以說是最高效的產(chǎn)品。
Klein 說:“英特爾的 AI 策略建立在 Xeon Scalable 處理器的基礎(chǔ)之上,Xeon Scalable 內(nèi)部做了 AI 優(yōu)化,并針對機(jī)器學(xué)習(xí)和深度學(xué)習(xí)進(jìn)行了大量軟件優(yōu)化。”
提高效率
盡管 GPU 等 AI 加速器能耗很大,但進(jìn)行 AI 處理時,它們的高計算效率可以降低總能耗。AI 處理在數(shù)據(jù)中心所占比例越來越高,但數(shù)據(jù)中心日常處理的負(fù)荷種類仍然多種多樣。
加速器使 AI 處理受益最大,CPU 則繼續(xù)在超大規(guī)模和企業(yè)數(shù)據(jù)中心市場贏得席位,因?yàn)?CPU 應(yīng)用更加靈活。隨著 AI 應(yīng)用的不斷擴(kuò)大,以及新的 5G 應(yīng)用產(chǎn)生更多的非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)中心的能耗不太可能很快下降。