12 月 9 日消息,當(dāng)?shù)貢r(shí)間 12 月 8 日,英特爾宣布將 AutoRound 算法集成到 LLM Compressor,以提升低比特量化大模型的性能與效率。
該算法可在保持模型準(zhǔn)確度的前提下,實(shí)現(xiàn)更快、更輕量的推理,同時(shí)兼容包括英特爾自家 GPU 與英偉達(dá) CUDA 在內(nèi)的多硬件平臺(tái)。
此外,英特爾未來推出的“Crescent Island”系列數(shù)據(jù)中心 GPU 將原生支持 FP8 / MXFP8 / MXFP4 等格式,使量化模型能夠直接利用這些數(shù)據(jù)類型帶來的硬件加速優(yōu)勢。

英特爾表示,AutoRound 是面向大語言模型(LLM)與視覺語言模型(VLM)的先進(jìn)后訓(xùn)練量化(PTQ)算法,通過為每個(gè)量化張量引入三個(gè)可訓(xùn)練參數(shù)(v、α、β),配合逐層處理和符號(hào)梯度下降方法,實(shí)現(xiàn)更精準(zhǔn)的舍入和裁剪優(yōu)化,從而減少輸出誤差。
AutoRound 通過三項(xiàng)核心技術(shù)實(shí)現(xiàn)低比特量化優(yōu)化:
每張量引入三個(gè)可訓(xùn)練參數(shù):v(舍入偏移量)、α 與 β(動(dòng)態(tài)裁剪范圍控制);
逐層序列處理:采用帶符號(hào)梯度下降法聯(lián)合優(yōu)化舍入與裁剪策略;
最小化分塊輸出重建誤差:在百步級(jí)輕量調(diào)優(yōu)下實(shí)現(xiàn)更高精度。
官方透露,AutoRound 的主要優(yōu)勢包括:
在低比特量化條件下維持較高準(zhǔn)確度;
支持 W4A16、MXFP8、MXFP4、FP8、NVFP4 等多種數(shù)據(jù)類型;
可進(jìn)行混合比特與按層精度搜索,提供靈活的精度與效率平衡方案;
零額外推理開銷,量化模型可直接通過 vLLM 框架部署;
適用于 LLM 與 VLM 的量化場景。

英特爾稱,AutoRound 生成的量化模型可在多個(gè)英特爾硬件平臺(tái)上加速推理,包括 Xeon 處理器、Gaudi 加速器、英特爾數(shù)據(jù)中心 GPU、Arc B 系列顯卡,以及 CUDA 生態(tài)的 GPU。
此次集成通過 LLM Compressor 中新增的 AutoRoundModifier 完成,能夠生成可直接在 vLLM 上部署的 W4A16 量化模型。當(dāng)前已支持 Llama、Qwen 等主流密集 LLM,并提供輕量的調(diào)優(yōu)流程(僅需數(shù)百步),不增加推理開銷。
英特爾表示,未來將繼續(xù)擴(kuò)展更多量化方案(注:包括 FP8 與 MXFP 系列)、自動(dòng)混合比特搜索、更多模型族(如 MoE),并加強(qiáng)與 LLM Compressor 其他壓縮算法的協(xié)同,以形成更完整的多策略組合方案。官方也邀請(qǐng)開發(fā)者在社區(qū)討論區(qū)提交反饋,用于制定后續(xù)路線圖。

