日前,Nvidia 發(fā)布了其 CUDA 工具包的最新更新,Ver. 13 引入了重大的性能更新。
CUDA 13 版本特性概述
CUDA 13 版本引入了全新 CPU 資源支持、統(tǒng)一 Arm 平臺(tái)架構(gòu),并新增了多個(gè)操作系統(tǒng)適配。
英偉達(dá)已發(fā)布 CUDA 工具包的最新更新版本,13 版本帶來(lái)了顯著的性能升級(jí)。
CUDA Toolkit 版本 13 現(xiàn)在支持最新的 Blackwell GPU 系列
升級(jí)后的工具包增強(qiáng)了程序員使用便利性、兼容性及語(yǔ)言加速能力。13 版本還首次在英偉達(dá)生態(tài)中引入基于分塊的編程模型,進(jìn)一步降低開發(fā)者工作量。
什么是 CUDA?
圖形處理器(GPU)針對(duì)含多個(gè)小型處理核心的高度并行運(yùn)算進(jìn)行了優(yōu)化,但其本身難以直接用于非圖形計(jì)算場(chǎng)景的編程。CUDA 是英偉達(dá)開發(fā)的計(jì)算環(huán)境,支持圖形渲染以外的高性能計(jì)算應(yīng)用。該平臺(tái)作為 GPU 與通用應(yīng)用程序之間的中間層,可賦能需要并行運(yùn)算的程序,同時(shí)包含豐富的庫(kù)、編譯器指令及語(yǔ)言適配功能。
AI 大語(yǔ)言模型開發(fā)與應(yīng)用、科學(xué)分析及密碼學(xué)等復(fù)雜場(chǎng)景,均能從 GPU 及多 GPU 系統(tǒng)提供的大規(guī)模并行計(jì)算中獲益。CUDA 的設(shè)計(jì)目標(biāo)即讓廣泛的應(yīng)用開發(fā)者能夠利用這些計(jì)算場(chǎng)景。
13 版本關(guān)鍵更新
CUDA 13 新增對(duì)英偉達(dá)最新 Blackwell GPU、Jetson Thor 高級(jí) AI 與機(jī)器人 GPU,以及 DGX Spark “桌面超級(jí)計(jì)算機(jī)” 的支持。其支持范圍覆蓋至當(dāng)前所有架構(gòu)的英偉達(dá) GPU(不再支持 7.5 之前的架構(gòu)),并針對(duì) Blackwell 架構(gòu)更新了 32 字節(jié)對(duì)齊的向量類型以提升性能。
該工具包統(tǒng)一了 Arm
平臺(tái)的開發(fā)者體驗(yàn),提供覆蓋服務(wù)器與嵌入式應(yīng)用的單一工具鏈,同時(shí)更新了操作系統(tǒng)與平臺(tái)支持,包括紅帽企業(yè) Linux 10、Debian
12.10、Fedora 42,以及 Rocky Linux 10.0 和 9.6。此外,NVIDIA Nsight
開發(fā)工具得到更新以優(yōu)化依賴檢查,CUDA 數(shù)學(xué)庫(kù)(如 cuBLAS、cuSPARSE、cuSOLVER 及 cuFFT)也完成升級(jí)。
NVCC 編譯器現(xiàn)支持 GCC 15 與 Clang 20,并引入新語(yǔ)言特性以改善應(yīng)用二進(jìn)制接口(ABI)集成。用戶還將獲得加速的 Python 核心與開發(fā)者友好的封裝方式,Wheel 包與 CUDA 核心計(jì)算庫(kù)(CCCL)也優(yōu)化了庫(kù)結(jié)構(gòu)。
統(tǒng)一服務(wù)器與嵌入式開發(fā)工具鏈
在 13 版本之前,CUDA 幾乎可視為兩個(gè)獨(dú)立產(chǎn)品:開發(fā)者需分別安裝服務(wù)器級(jí)項(xiàng)目與嵌入式項(xiàng)目的工具鏈。兩者語(yǔ)法與操作雖高度相似,但針對(duì)服務(wù)器與嵌入式目標(biāo)的庫(kù)、頭文件及其他開發(fā)組件存在差異。
13 版本打破了這一限制:現(xiàn)在單一工具鏈可同時(shí)適配兩種目標(biāo)場(chǎng)景,生成的二進(jìn)制文件會(huì)針對(duì)開發(fā)者使用的 GPU 自動(dòng)優(yōu)化,無(wú)需因部署場(chǎng)景切換工具鏈。
新版本還整合了與 GPU 部署配套的 Arm 代碼 ——Arm 二進(jìn)制文件兼容所有 Arm 目標(biāo)設(shè)備(僅 Orin sm_87 除外)及仿真平臺(tái),而舊版本需要為仿真與部署使用不同工具鏈。
基于分塊的并行編程
分塊編程(或基于數(shù)組的編程)支持對(duì)數(shù)組或矩陣中的所有數(shù)據(jù)點(diǎn)同時(shí)執(zhí)行指令。并行編程常需對(duì)多個(gè)數(shù)據(jù)塊同時(shí)執(zhí)行相同操作,而分塊編程可自動(dòng)為開發(fā)者處理并行邏輯:只需編寫單個(gè)函數(shù),底層智能層會(huì)處理所有低級(jí)細(xì)節(jié)以實(shí)現(xiàn)并行運(yùn)算。
比較塊級(jí)編程與基于圖塊的編程。
編譯器與運(yùn)行時(shí)系統(tǒng)負(fù)責(zé)在線程與核心間分配負(fù)載,該抽象層在大幅降低編碼負(fù)擔(dān)的同時(shí)實(shí)現(xiàn)了性能最大化。
免費(fèi)獲取
英偉達(dá) CUDA 工具包 13 版本現(xiàn)已開放免費(fèi)下載,支持 Linux x86_64 與 arm64-sbsa 多發(fā)行版,以及 Windows 10、11、Server 2022 和 Server 2025 的 x86_64 平臺(tái)。