近日,DeepSeek宣布其新一代模型DeepSeek-V3.1采用了UE8M0 FP8 Scale參數(shù)精度,并明確指出該精度標準是針對即將發(fā)布的下一代國產(chǎn)芯片設(shè)計。這一消息迅速在資本市場引發(fā)強烈反應(yīng),寒武紀等芯片類上市企業(yè)股價集體拉升。
不過,在近兩日舉辦的2025算力大會上,據(jù)《科創(chuàng)板日報》記者的現(xiàn)場采訪和觀察來看,大家在聚焦國產(chǎn)算力時,DeepSeek的FP8精度標準雖被討論,但業(yè)內(nèi)人士的情緒顯然沒有資本市場那么高亢。技術(shù)派更關(guān)注FP8在模型訓(xùn)練、推理及生態(tài)標準化上的實際價值與挑戰(zhàn)。
FP8是什么,有哪些提升?
在AI訓(xùn)練與推理過程中,為提升計算效率,數(shù)值精度的降低是一個常見的技術(shù)路徑。
摩爾線程AI Infra總監(jiān)陳志向《科創(chuàng)板日報》記者稱,過去,大模型訓(xùn)練推理普遍使用FP32(32位浮點數(shù)),隨后逐步過渡到FP16(16位浮點數(shù))混合精度,以減少存儲和通信開銷,F(xiàn)P8則進一步將數(shù)據(jù)寬度壓縮至8位。
“FP8最直接的優(yōu)勢是算力效率翻倍,另一個好處是降低降低訓(xùn)練和推理過程中網(wǎng)絡(luò)帶寬的通信量。”陳志稱,比如原本傳輸一個FP32數(shù)值需4字節(jié),現(xiàn)在僅需FP8僅需要1字節(jié),雖然網(wǎng)絡(luò)物理帶寬本身未必擴大,但單位時間內(nèi)可傳輸信息是增加的,同時也讓存儲要求降低。這意味著在相同功耗下,AI芯片可訓(xùn)練更大的模型或縮短訓(xùn)練時間。
不過,F(xiàn)P8也不是萬能的。
在2025算力大會現(xiàn)場,另一名不愿具名的國產(chǎn)芯片廠商從業(yè)人員告訴《科創(chuàng)板日報》記者,用類似FP8低精度訓(xùn)練推理雖然快,但也容易因數(shù)值范圍太小導(dǎo)致計算出錯。而且,不同計算對精度要求不同,像矩陣乘法這類操作對精度不敏感,可以用較低的精度(如FP8)計算;而像累加或某些函數(shù)則需要較高精度。因此,業(yè)內(nèi)通常采用“混合精度訓(xùn)練”,根據(jù)計算類型動態(tài)選擇不同的精度,兼顧效率與準確。
Deepseek能否推動新標準
DeepSeek-V3.1使用UE8M0 FP8 Scale 的參數(shù)精度,被視為國產(chǎn)AI芯片即將邁入新階段的信號。受此刺激,寒武紀等芯片類上市公司股價大幅上漲,但產(chǎn)業(yè)界人士態(tài)度更為審慎。
在業(yè)內(nèi)看來,DeepSeek此舉無疑給了國內(nèi)算力廠商的機會,F(xiàn)P8代表了算力優(yōu)化的正確方向,大模型訓(xùn)練推理不只是堆砌硬件,但它也并非“靈丹妙藥”,更需要關(guān)注的是實際落地效果。此外DeepSeek的這一動作,后續(xù)是否會成為大模型訓(xùn)練與推理的新標準。
在陳志看來,大模型對精度的容忍度越來越高,從FP32到FP16,再到FP8,是整個行業(yè)逐步驗證過的路徑。DeepSeek這次驗證了FP8在大規(guī)模模型上的可行性,未來在FP8這一標準乃至更高精度上去做研究或者做訓(xùn)練也是一個很重要的方向。
當然,這一趨勢也意味著,國產(chǎn)算力生態(tài)需要同步升級,包括芯片、框架、算力平臺到應(yīng)用層的閉環(huán)適配。
陳志表示,精度標準一旦變化,上下游廠商也需要聯(lián)動優(yōu)化。摩爾線程已提前布局FP8研究,既是技術(shù)儲備,也是為了在生態(tài)調(diào)整中占據(jù)主動。
他進一步說到,大模型訓(xùn)練推理的核心瓶頸不僅是算力規(guī)模,還包括能耗、穩(wěn)定性和集群利用,“國內(nèi)萬卡規(guī)模集群已有部署,但還要向大智算集群演進,解決效率與容錯問題,確保集群可靠性。簡單‘堆卡’并不能完全滿足需求,提高單卡效率與集群調(diào)度優(yōu)化同樣關(guān)鍵”。