123,123

英特尔AutoRound算法正式落地支持英伟达CUDA及自家GPU

Crescent Island显卡将原生支持FP8/MXFP4

日期： 2025-12-10

來源：IT之家

關(guān)鍵詞： 英特尔 AutoRound GPU 英伟达 CUDA

12 月 9 日消息，當(dāng)?shù)貢r間 12 月 8 日，英特爾宣布將 AutoRound 算法集成到 LLM Compressor，以提升低比特量化大模型的性能與效率。

該算法可在保持模型準(zhǔn)確度的前提下，實(shí)現(xiàn)更快、更輕量的推理，同時兼容包括英特爾自家 GPU 與英偉達(dá) CUDA 在內(nèi)的多硬件平臺。

此外，英特爾未來推出的“Crescent Island”系列數(shù)據(jù)中心 GPU 將原生支持 FP8 / MXFP8 / MXFP4 等格式，使量化模型能夠直接利用這些數(shù)據(jù)類型帶來的硬件加速優(yōu)勢。

format,f_avif.avif (1).jpg

英特爾表示，AutoRound 是面向大語言模型（LLM）與視覺語言模型（VLM）的先進(jìn)后訓(xùn)練量化（PTQ）算法，通過為每個量化張量引入三個可訓(xùn)練參數(shù)（v、α、β），配合逐層處理和符號梯度下降方法，實(shí)現(xiàn)更精準(zhǔn)的舍入和裁剪優(yōu)化，從而減少輸出誤差。

AutoRound 通過三項(xiàng)核心技術(shù)實(shí)現(xiàn)低比特量化優(yōu)化：

每張量引入三個可訓(xùn)練參數(shù)：v（舍入偏移量）、α 與 β（動態(tài)裁剪范圍控制）；

逐層序列處理：采用帶符號梯度下降法聯(lián)合優(yōu)化舍入與裁剪策略；

最小化分塊輸出重建誤差：在百步級輕量調(diào)優(yōu)下實(shí)現(xiàn)更高精度。

官方透露，AutoRound 的主要優(yōu)勢包括：

在低比特量化條件下維持較高準(zhǔn)確度；

支持 W4A16、MXFP8、MXFP4、FP8、NVFP4 等多種數(shù)據(jù)類型；

可進(jìn)行混合比特與按層精度搜索，提供靈活的精度與效率平衡方案；

零額外推理開銷，量化模型可直接通過 vLLM 框架部署；

適用于 LLM 與 VLM 的量化場景。

format,f_avif.avif (2).jpg

英特爾稱，AutoRound 生成的量化模型可在多個英特爾硬件平臺上加速推理，包括 Xeon 處理器、Gaudi 加速器、英特爾數(shù)據(jù)中心 GPU、Arc B 系列顯卡，以及 CUDA 生態(tài)的 GPU。

此次集成通過 LLM Compressor 中新增的 AutoRoundModifier 完成，能夠生成可直接在 vLLM 上部署的 W4A16 量化模型。當(dāng)前已支持 Llama、Qwen 等主流密集 LLM，并提供輕量的調(diào)優(yōu)流程（僅需數(shù)百步），不增加推理開銷。

英特爾表示，未來將繼續(xù)擴(kuò)展更多量化方案（注：包括 FP8 與 MXFP 系列）、自動混合比特搜索、更多模型族（如 MoE），并加強(qiáng)與 LLM Compressor 其他壓縮算法的協(xié)同，以形成更完整的多策略組合方案。官方也邀請開發(fā)者在社區(qū)討論區(qū)提交反饋，用于制定后續(xù)路線圖。

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

英特尔AutoRound算法正式落地 支持英伟达CUDA及自家GPU

日期： 2025-12-10

來源：IT之家

相關(guān)內(nèi)容

英特尔AutoRound算法正式落地支持英伟达CUDA及自家GPU