《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 人工智能 > 業(yè)界動(dòng)態(tài) > 解析AI時(shí)代兩大液冷技術(shù)差異

解析AI時(shí)代兩大液冷技術(shù)差異

2025-02-13
來(lái)源:TechSuger

如今,隨著機(jī)架功耗飆升至前所未有的水平,數(shù)據(jù)中心領(lǐng)域正在發(fā)生巨大變革。在計(jì)算密集型人工智能(AI)和高性能計(jì)算(HPC)應(yīng)用的推動(dòng)下,數(shù)據(jù)中心已迅速?gòu)闹恍璨捎蔑L(fēng)冷策略為10至20千瓦的機(jī)架散熱,轉(zhuǎn)變成為配備英偉達(dá)Grace Blackwell超級(jí)芯片的120千瓦機(jī)架散熱——而這僅針對(duì)單個(gè)機(jī)柜的散熱需求!

傳統(tǒng)風(fēng)冷技術(shù)根本無(wú)法有效應(yīng)對(duì)如此高的散熱需求,這為新型液冷技術(shù)的發(fā)展鋪平了道路。當(dāng)前主流液冷方案主要分為兩大類(lèi)別:"直觸芯片式"與"浸沒(méi)式"。與傳統(tǒng)氣體冷卻方式不同,這些技術(shù)通過(guò)水或絕緣液體等液態(tài)介質(zhì)來(lái)為設(shè)備散熱。

隨著行業(yè)向可持續(xù)AI未來(lái)邁進(jìn),為滿(mǎn)足持續(xù)增長(zhǎng)的計(jì)算需求而建立的AI工廠正在興起,液冷技術(shù)必將成為數(shù)據(jù)中心應(yīng)對(duì)散熱管理、能耗控制及空間利用等核心挑戰(zhàn)的關(guān)鍵賦能技術(shù)。事實(shí)上,面對(duì)新一代GPU高達(dá)1200瓦的功耗水平,液冷技術(shù)已從“錦上添花”演變?yōu)椤敖^對(duì)剛需”。隨著全球?qū)@項(xiàng)技術(shù)需求的激增,Mordor Intelligence等機(jī)構(gòu)預(yù)測(cè),到2029年,液冷技術(shù)市場(chǎng)的規(guī)模將達(dá)到148億美元。

那浸沒(méi)式與直觸芯片式液冷的技術(shù)差異有哪些呢??jī)煞N方案均包含單相與雙相兩種技術(shù)路線。本文將從可持續(xù)性、能耗表現(xiàn)、易用性、風(fēng)險(xiǎn)控制、擴(kuò)展能力及成本效益(見(jiàn)圖1)等維度系統(tǒng)分析各方案的優(yōu)劣勢(shì)。

1.png

圖1:市場(chǎng)細(xì)分顯示直觸芯片式與浸沒(méi)式液冷方案下的技術(shù)變體。

沉浸式液冷技術(shù):全浸沒(méi)組件

浸沒(méi)式液冷技術(shù)將服務(wù)器及其他電子組件完全浸沒(méi)于絕緣液體中。設(shè)備運(yùn)行時(shí)產(chǎn)生的熱量被傳導(dǎo)至周?chē)鋮s介質(zhì)。受熱后的冷卻介質(zhì)上升至液面,隨后被輸送至冷卻系統(tǒng)進(jìn)行熱量消散,最后回流至設(shè)備所在的初始儲(chǔ)液槽中。

沉浸式液冷有兩種類(lèi)型:

單相浸沒(méi)

該技術(shù)方案將所有服務(wù)器及其他IT設(shè)備浸沒(méi)于絕緣液體中。當(dāng)CPU或GPU溫度升高時(shí),流體吸收其產(chǎn)生的熱量。隨后,這些受熱流體被泵送至熱交換單元進(jìn)行冷卻,冷卻后的流體重新回流至設(shè)備所在的儲(chǔ)液槽中(見(jiàn)圖2)。

2.png

圖2:?jiǎn)蜗嘟](méi)式液冷:設(shè)備完全浸沒(méi)于絕緣液體中。


優(yōu)點(diǎn):

能完全吸收服務(wù)器產(chǎn)生的熱量,這意味著服務(wù)器(GPU、CPU、內(nèi)存模塊等)散發(fā)的所有熱量都能被收集并冷卻;

采用絕緣液體,確保組件與服務(wù)器不會(huì)發(fā)生短路。

缺點(diǎn):

熱設(shè)計(jì)功耗(TDP)受限。當(dāng)GPU的TDP超過(guò)700瓦時(shí),單相浸沒(méi)式方案難以提供有效散熱;

需要對(duì)數(shù)據(jù)中心基礎(chǔ)設(shè)施改造進(jìn)行大量投資,因需配置大型重型儲(chǔ)液槽來(lái)容納設(shè)備。該技術(shù)更適用于新建數(shù)據(jù)中心,或具備充足空間且可進(jìn)行大規(guī)模改造的現(xiàn)有設(shè)施,同時(shí)需確保建筑結(jié)構(gòu)能夠承載額外重量;

浸沒(méi)槽內(nèi)所有設(shè)備(包括服務(wù)器、連接器、印刷電路板等)必須與絕緣液體兼容,以避免被液體損壞。這通常需要選用專(zhuān)用設(shè)備或?qū)Ψ?wù)器進(jìn)行改造;

由于服務(wù)器部分組件(如光纖連接器)無(wú)法在浸沒(méi)環(huán)境下正常工作,需對(duì)服務(wù)器進(jìn)行機(jī)械重構(gòu);

所用含碳?xì)浠衔锏牧黧w具有易燃易爆特性,若數(shù)據(jù)中心發(fā)生火災(zāi)可能導(dǎo)致災(zāi)難性后果;

服務(wù)器維護(hù)困難,任何維護(hù)操作均需使用起重機(jī)將單個(gè)服務(wù)器吊出儲(chǔ)液槽,并需等待30分鐘滴液時(shí)間后方可開(kāi)始維修;

流體若受到污染(例如混入水),需排空并清洗儲(chǔ)液槽,可能導(dǎo)致長(zhǎng)達(dá)一整天的停機(jī)時(shí)間。

雙相浸沒(méi)

與單相浸沒(méi)類(lèi)似,該技術(shù)方案同樣將服務(wù)器及IT設(shè)備完全浸沒(méi)于絕緣液體中。然而,當(dāng)電路板上的組件溫度升高時(shí),會(huì)使流體沸騰產(chǎn)生蒸汽,這些蒸汽從液體中上升至儲(chǔ)液槽頂部。儲(chǔ)液槽頂部設(shè)有冷卻水管網(wǎng)絡(luò),當(dāng)槽內(nèi)蒸汽接觸冷卻管時(shí)發(fā)生冷凝,重新液化為液體滴回槽內(nèi);同時(shí),冷卻管中的水溫升高,通過(guò)熱水將熱量帶出設(shè)備,最終從數(shù)據(jù)中心排出(見(jiàn)圖3)。

3.png

圖3:兩相浸沒(méi):服務(wù)器設(shè)備浸沒(méi)于絕緣液體中。

優(yōu)點(diǎn):

能完全吸收服務(wù)器產(chǎn)生的熱量,這意味著服務(wù)器(GPU、CPU、內(nèi)存模塊等)散發(fā)的所有熱量都能被收集并冷卻;

能夠支持非常高的熱設(shè)計(jì)功耗(TDP);

使用絕緣液體,確保組件與服務(wù)器不會(huì)發(fā)生短路。

缺點(diǎn):

浸沒(méi)槽內(nèi)所有設(shè)備(包括服務(wù)器、連接器、印刷電路板等)必須與絕緣液體兼容,以避免被液體損壞。這通常需要選用專(zhuān)用設(shè)備或?qū)Ψ?wù)器進(jìn)行改造;


作為流體沸騰過(guò)程的一部分,強(qiáng)烈的氣蝕現(xiàn)象會(huì)損壞信息技術(shù)部件、印刷電路板及焊接點(diǎn);


需要對(duì)數(shù)據(jù)中心基礎(chǔ)設(shè)施改造進(jìn)行大量投資,因需配置大型重型儲(chǔ)液槽來(lái)容納設(shè)備,并加強(qiáng)建筑結(jié)構(gòu)以承載額外重量;


由于液槽和浸沒(méi)設(shè)備的重量,維護(hù)工作通常需要使用起重機(jī),導(dǎo)致長(zhǎng)時(shí)間停機(jī)。


每次開(kāi)槽維護(hù)時(shí),含全氟烷基物質(zhì)(PFAS)的蒸汽會(huì)釋放到環(huán)境中,每年造成約10%的液體損耗(數(shù)百升),并向大氣中釋放大量PFAS蒸汽。

直觸芯片式液冷技術(shù)原理

與將整個(gè)服務(wù)器及其他IT設(shè)備浸沒(méi)于液體中的浸沒(méi)式液冷不同,直觸芯片式液冷將冷卻液輸送至直接放置在高熱流密度組件(如CPU和GPU)上方的冷板中。冷卻液通過(guò)冷板吸收組件產(chǎn)生的熱量,并始終封閉在冷板內(nèi)部,不會(huì)直接接觸芯片或服務(wù)器設(shè)備。

直觸芯片式液冷被廣泛認(rèn)為比其他冷卻方式更快、更高效,因?yàn)樗軌蚓珳?zhǔn)針對(duì)主要發(fā)熱區(qū)域進(jìn)行散熱。事實(shí)上,在近期Omdia分析師峰會(huì)上,他們的分析師指出:“當(dāng)機(jī)柜功率超過(guò)50千瓦時(shí),直觸芯片式技術(shù)將占據(jù)主導(dǎo)地位?!?/p>

由于冷板主要安裝在高熱流密度組件上,因此服務(wù)器仍需配備風(fēng)扇以排出低熱流密度組件產(chǎn)生的多余熱量。

直觸芯片式液冷也有兩種類(lèi)型:

單相直觸芯片式液冷

該液冷方法使用水作為冷板中的冷卻介質(zhì)。水始終保持液態(tài),其散熱能力取決于水流量——熱量越高,所需的水流量越大。

優(yōu)點(diǎn):

憑借高流量的冷水,它能夠?yàn)楦邿嵩O(shè)計(jì)功耗(TDP)組件散熱;

數(shù)據(jù)中心基礎(chǔ)設(shè)施和服務(wù)器架構(gòu)與風(fēng)冷方案高度兼容,僅需微小改動(dòng)即可集成冷板冷卻系統(tǒng)。

缺點(diǎn):

由于使用普通水而非絕緣液體,一旦發(fā)生泄漏,不僅可能損毀價(jià)值30萬(wàn)美元的服務(wù)器,還會(huì)引發(fā)腐蝕、發(fā)霉、殘留物沉積、生物污染及其他環(huán)境問(wèn)題;

隨著水流速和壓力提升,需要采用防泄漏性能更強(qiáng)的管路組件。

同時(shí)需配備更大功率的水泵來(lái)維持系統(tǒng)持續(xù)水循環(huán)。

兩相直觸芯片式液冷

與使用水的直觸芯片式液冷不同,兩相方案采用對(duì)IT設(shè)備100%安全的絕緣冷卻液。GPU和CPU產(chǎn)生的熱量在低溫下使絕緣冷卻液沸騰,利用高效的相變物理現(xiàn)象吸收熱量,從而使芯片保持恒溫。其原理類(lèi)似于沸水使鍋底維持在100°C,只是工作溫度更低。

絕緣液體從液態(tài)變?yōu)闅鈶B(tài),然后再回到液態(tài)的過(guò)程是在一個(gè)完全封閉的循環(huán)系統(tǒng)中完成的。即使熱量增加三倍(比如GPU和CPU溫度更高),冷板內(nèi)的液體也不會(huì)超過(guò)沸點(diǎn)。因此,這種技術(shù)具有高度可擴(kuò)展性,能夠適應(yīng)未來(lái)更高功率芯片的冷卻需求。

這與單相直觸芯片冷卻方式形成鮮明對(duì)比,后者依賴(lài)于大量水的流動(dòng)來(lái)冷卻芯片。舉例來(lái)說(shuō),一個(gè)使用兩相直觸芯片冷卻技術(shù)的100千瓦機(jī)架,所需的絕緣液體不到4加侖,而浸沒(méi)式冷卻每機(jī)架則需要超過(guò)100加侖的冷卻液。

優(yōu)點(diǎn):

無(wú)水直接芯片液冷:采用對(duì)IT設(shè)備100%安全的絕緣液體,即使發(fā)生泄漏(極不可能),也不會(huì)損壞服務(wù)器;

提升計(jì)算密度:支持單機(jī)架功率超過(guò)150千瓦;

面向未來(lái):可支持單芯片功率高達(dá)2500瓦甚至更高;

與風(fēng)冷相比,可節(jié)省高達(dá)80%的功耗;

由于液體保持恒溫,服務(wù)器產(chǎn)生的熱量可回收再利用,例如為鄰近辦公室、數(shù)據(jù)中心其他區(qū)域,甚至附近的學(xué)校和辦公樓供暖;

幾乎無(wú)需對(duì)數(shù)據(jù)中心基礎(chǔ)設(shè)施進(jìn)行改造,前期投資成本低,安裝過(guò)程簡(jiǎn)單;

維護(hù)需求低:絕緣液體無(wú)需更換,且與浸沒(méi)式液冷不同,在服務(wù)器和機(jī)架維護(hù)期間,這種冷卻液不會(huì)釋放到大氣中。所用液體的臭氧消耗潛能(ODP)為0,全球變暖能值(GWP)極低;

即使下一代GPU的熱量增加,仍可維持1U服務(wù)器規(guī)格。

缺點(diǎn):

液冷僅用于CPU/GPU散熱,其他組件(如內(nèi)存、I/O等)仍需風(fēng)冷。

條條大路通液冷

人工智能的未來(lái)發(fā)展很大程度上取決于數(shù)據(jù)中心擴(kuò)容的能力,這將使數(shù)據(jù)中心內(nèi)部的熱量達(dá)到前所未有的水平。正如本文所述,目前有多種液冷技術(shù)可用于散熱,但每種技術(shù)都有其優(yōu)缺點(diǎn)。

數(shù)據(jù)中心和超大規(guī)模數(shù)據(jù)中心運(yùn)營(yíng)商需要根據(jù)成本、功耗、易用性、可擴(kuò)展性和可持續(xù)性等因素,選擇最適合自身的解決方案。只有這樣,行業(yè)才能實(shí)現(xiàn)真正的人工智能可持續(xù)發(fā)展。


Magazine.Subscription.jpg

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題,請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。