《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 人工智能 > 業(yè)界動(dòng)態(tài) > 英偉達(dá)CUDA重大更新

英偉達(dá)CUDA重大更新

2025-08-22
來(lái)源:EETOP
關(guān)鍵詞: 英偉達(dá) CUDA

日前,Nvidia 發(fā)布了其 CUDA 工具包的最新更新,Ver. 13 引入了重大的性能更新。


CUDA 13 版本特性概述

CUDA 13 版本引入了全新 CPU 資源支持、統(tǒng)一 Arm 平臺(tái)架構(gòu),并新增了多個(gè)操作系統(tǒng)適配。
英偉達(dá)已發(fā)布 CUDA 工具包的最新更新版本,13 版本帶來(lái)了顯著的性能升級(jí)。

11.jpg


CUDA Toolkit 版本 13 現(xiàn)在支持最新的 Blackwell GPU 系列

升級(jí)后的工具包增強(qiáng)了程序員使用便利性、兼容性及語(yǔ)言加速能力。13 版本還首次在英偉達(dá)生態(tài)中引入基于分塊的編程模型,進(jìn)一步降低開發(fā)者工作量。


什么是 CUDA?

圖形處理器(GPU)針對(duì)含多個(gè)小型處理核心的高度并行運(yùn)算進(jìn)行了優(yōu)化,但其本身難以直接用于非圖形計(jì)算場(chǎng)景的編程。CUDA 是英偉達(dá)開發(fā)的計(jì)算環(huán)境,支持圖形渲染以外的高性能計(jì)算應(yīng)用。該平臺(tái)作為 GPU 與通用應(yīng)用程序之間的中間層,可賦能需要并行運(yùn)算的程序,同時(shí)包含豐富的庫(kù)、編譯器指令及語(yǔ)言適配功能。
AI 大語(yǔ)言模型開發(fā)與應(yīng)用、科學(xué)分析及密碼學(xué)等復(fù)雜場(chǎng)景,均能從 GPU 及多 GPU 系統(tǒng)提供的大規(guī)模并行計(jì)算中獲益。CUDA 的設(shè)計(jì)目標(biāo)即讓廣泛的應(yīng)用開發(fā)者能夠利用這些計(jì)算場(chǎng)景。


13 版本關(guān)鍵更新

CUDA 13 新增對(duì)英偉達(dá)最新 Blackwell GPU、Jetson Thor 高級(jí) AI 與機(jī)器人 GPU,以及 DGX Spark “桌面超級(jí)計(jì)算機(jī)” 的支持。其支持范圍覆蓋至當(dāng)前所有架構(gòu)的英偉達(dá) GPU(不再支持 7.5 之前的架構(gòu)),并針對(duì) Blackwell 架構(gòu)更新了 32 字節(jié)對(duì)齊的向量類型以提升性能。

該工具包統(tǒng)一了 Arm 平臺(tái)的開發(fā)者體驗(yàn),提供覆蓋服務(wù)器與嵌入式應(yīng)用的單一工具鏈,同時(shí)更新了操作系統(tǒng)與平臺(tái)支持,包括紅帽企業(yè) Linux 10、Debian 12.10、Fedora 42,以及 Rocky Linux 10.0 和 9.6。此外,NVIDIA Nsight 開發(fā)工具得到更新以優(yōu)化依賴檢查,CUDA 數(shù)學(xué)庫(kù)(如 cuBLAS、cuSPARSE、cuSOLVER 及 cuFFT)也完成升級(jí)。

NVCC 編譯器現(xiàn)支持 GCC 15 與 Clang 20,并引入新語(yǔ)言特性以改善應(yīng)用二進(jìn)制接口(ABI)集成。用戶還將獲得加速的 Python 核心與開發(fā)者友好的封裝方式,Wheel 包與 CUDA 核心計(jì)算庫(kù)(CCCL)也優(yōu)化了庫(kù)結(jié)構(gòu)。


統(tǒng)一服務(wù)器與嵌入式開發(fā)工具鏈

在 13 版本之前,CUDA 幾乎可視為兩個(gè)獨(dú)立產(chǎn)品:開發(fā)者需分別安裝服務(wù)器級(jí)項(xiàng)目與嵌入式項(xiàng)目的工具鏈。兩者語(yǔ)法與操作雖高度相似,但針對(duì)服務(wù)器與嵌入式目標(biāo)的庫(kù)、頭文件及其他開發(fā)組件存在差異。

13 版本打破了這一限制:現(xiàn)在單一工具鏈可同時(shí)適配兩種目標(biāo)場(chǎng)景,生成的二進(jìn)制文件會(huì)針對(duì)開發(fā)者使用的 GPU 自動(dòng)優(yōu)化,無(wú)需因部署場(chǎng)景切換工具鏈。
新版本還整合了與 GPU 部署配套的 Arm 代碼 ——Arm 二進(jìn)制文件兼容所有 Arm 目標(biāo)設(shè)備(僅 Orin sm_87 除外)及仿真平臺(tái),而舊版本需要為仿真與部署使用不同工具鏈。

12.jpg


基于分塊的并行編程

分塊編程(或基于數(shù)組的編程)支持對(duì)數(shù)組或矩陣中的所有數(shù)據(jù)點(diǎn)同時(shí)執(zhí)行指令。并行編程常需對(duì)多個(gè)數(shù)據(jù)塊同時(shí)執(zhí)行相同操作,而分塊編程可自動(dòng)為開發(fā)者處理并行邏輯:只需編寫單個(gè)函數(shù),底層智能層會(huì)處理所有低級(jí)細(xì)節(jié)以實(shí)現(xiàn)并行運(yùn)算。

比較塊級(jí)編程與基于圖塊的編程。

編譯器與運(yùn)行時(shí)系統(tǒng)負(fù)責(zé)在線程與核心間分配負(fù)載,該抽象層在大幅降低編碼負(fù)擔(dān)的同時(shí)實(shí)現(xiàn)了性能最大化。


免費(fèi)獲取

英偉達(dá) CUDA 工具包 13 版本現(xiàn)已開放免費(fèi)下載,支持 Linux x86_64 與 arm64-sbsa 多發(fā)行版,以及 Windows 10、11、Server 2022 和 Server 2025 的 x86_64 平臺(tái)。


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題,請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。