《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 人工智能 > 業(yè)界動(dòng)態(tài) > 英偉達(dá)詳解GPU集群可選追蹤技術(shù)

英偉達(dá)詳解GPU集群可選追蹤技術(shù)

可遠(yuǎn)程查看功耗、溫度等,不具備后門、終止開(kāi)關(guān)
2025-12-15
來(lái)源:IT之家
關(guān)鍵詞: 英偉達(dá) GPU 監(jiān)控

12 月 14 日消息,英偉達(dá)官方本周(12 月 10 日)在官網(wǎng)發(fā)布博文,詳細(xì)介紹正在開(kāi)發(fā)的可視化 GPU 集群監(jiān)控方案,可幫助云服務(wù)合作伙伴計(jì)算 GPU 的正常運(yùn)行時(shí)間。

援引官方新聞稿,該方案由用戶自愿選擇、客戶自行安裝,可用于監(jiān)控 GPU 的使用情況、配置以及錯(cuò)誤信息,內(nèi)含開(kāi)源的客戶端軟件代理,旨在幫助客戶充分發(fā)揮 GPU 系統(tǒng)的價(jià)值。

這套軟件能進(jìn)行以下操作:

追蹤功耗峰值,在控制能耗預(yù)算的同時(shí)最大化每瓦性能

監(jiān)控整個(gè) GPU 集群的利用率、內(nèi)存帶寬以及互聯(lián)狀況

盡早發(fā)現(xiàn)熱控制問(wèn)題,避免因過(guò)熱出現(xiàn)降頻、組件老化等風(fēng)險(xiǎn)

確認(rèn)軟件配置與設(shè)置的一致性,確保結(jié)果可復(fù)現(xiàn)、運(yùn)行可靠

識(shí)別錯(cuò)誤與異常,提早發(fā)現(xiàn)潛在故障部件

官方表示,這套軟件可幫助企業(yè)和云服務(wù)提供商直觀了解其 GPU 集群運(yùn)行狀況,解決系統(tǒng)瓶頸,優(yōu)化生產(chǎn)力,整套服務(wù)通過(guò)實(shí)時(shí)監(jiān)控實(shí)現(xiàn),每個(gè) GPU 系統(tǒng)會(huì)與外部云服務(wù)通信并共享 GPU 指標(biāo)。

format,f_avif.avif (7).jpg

同時(shí)英偉達(dá)強(qiáng)調(diào),他們的 GPU 不包含任何硬件追蹤技術(shù)、遠(yuǎn)程終止開(kāi)關(guān)或后門。

此外,英偉達(dá)計(jì)劃將客戶端軟件代理開(kāi)源,提供更高的透明度和可審計(jì)性,整套軟件可提供企業(yè) GPU 資產(chǎn)的可視化信息,無(wú)法修改 GPU 配置或底層運(yùn)作方式,只能夠提供只讀的遙測(cè)數(shù)據(jù),交由客戶自行管理并可按需定制。


subscribe.jpg

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題,請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。