《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 模拟设计 > 业界动态 > 英特尔AutoRound算法正式落地 支持英伟达CUDA及自家GPU

英特尔AutoRound算法正式落地 支持英伟达CUDA及自家GPU

Crescent Island显卡将原生支持FP8/MXFP4
2025-12-10
來(lái)源:IT之家
關(guān)鍵詞: 英特尔 AutoRound GPU 英伟达 CUDA

12 月 9 日消息,當(dāng)?shù)貢r(shí)間 12 月 8 日,英特爾宣布將 AutoRound 算法集成到 LLM Compressor,以提升低比特量化大模型的性能與效率。

該算法可在保持模型準(zhǔn)確度的前提下,實(shí)現(xiàn)更快、更輕量的推理,同時(shí)兼容包括英特爾自家 GPU英偉達(dá) CUDA 在內(nèi)的多硬件平臺(tái)。

此外,英特爾未來(lái)推出的“Crescent Island”系列數(shù)據(jù)中心 GPU 將原生支持 FP8 / MXFP8 / MXFP4 等格式,使量化模型能夠直接利用這些數(shù)據(jù)類(lèi)型帶來(lái)的硬件加速優(yōu)勢(shì)。

format,f_avif.avif (1).jpg

英特爾表示,AutoRound 是面向大語(yǔ)言模型(LLM)與視覺(jué)語(yǔ)言模型(VLM)的先進(jìn)后訓(xùn)練量化(PTQ)算法,通過(guò)為每個(gè)量化張量引入三個(gè)可訓(xùn)練參數(shù)(v、α、β),配合逐層處理和符號(hào)梯度下降方法,實(shí)現(xiàn)更精準(zhǔn)的舍入和裁剪優(yōu)化,從而減少輸出誤差。

AutoRound 通過(guò)三項(xiàng)核心技術(shù)實(shí)現(xiàn)低比特量化優(yōu)化:

每張量引入三個(gè)可訓(xùn)練參數(shù):v(舍入偏移量)、α 與 β(動(dòng)態(tài)裁剪范圍控制);

逐層序列處理:采用帶符號(hào)梯度下降法聯(lián)合優(yōu)化舍入與裁剪策略;

最小化分塊輸出重建誤差:在百步級(jí)輕量調(diào)優(yōu)下實(shí)現(xiàn)更高精度。

官方透露,AutoRound 的主要優(yōu)勢(shì)包括:

在低比特量化條件下維持較高準(zhǔn)確度;

支持 W4A16、MXFP8、MXFP4、FP8、NVFP4 等多種數(shù)據(jù)類(lèi)型;

可進(jìn)行混合比特與按層精度搜索,提供靈活的精度與效率平衡方案;

零額外推理開(kāi)銷(xiāo),量化模型可直接通過(guò) vLLM 框架部署;

適用于 LLM 與 VLM 的量化場(chǎng)景。

format,f_avif.avif (2).jpg

英特爾稱,AutoRound 生成的量化模型可在多個(gè)英特爾硬件平臺(tái)上加速推理,包括 Xeon 處理器、Gaudi 加速器、英特爾數(shù)據(jù)中心 GPU、Arc B 系列顯卡,以及 CUDA 生態(tài)的 GPU。

此次集成通過(guò) LLM Compressor 中新增的 AutoRoundModifier 完成,能夠生成可直接在 vLLM 上部署的 W4A16 量化模型。當(dāng)前已支持 Llama、Qwen 等主流密集 LLM,并提供輕量的調(diào)優(yōu)流程(僅需數(shù)百步),不增加推理開(kāi)銷(xiāo)。

英特爾表示,未來(lái)將繼續(xù)擴(kuò)展更多量化方案(注:包括 FP8 與 MXFP 系列)、自動(dòng)混合比特搜索、更多模型族(如 MoE),并加強(qiáng)與 LLM Compressor 其他壓縮算法的協(xié)同,以形成更完整的多策略組合方案。官方也邀請(qǐng)開(kāi)發(fā)者在社區(qū)討論區(qū)提交反饋,用于制定后續(xù)路線圖。


subscribe.jpg

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題,請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。