12月1日晚,DeepSeek又上新了兩款新模型,DeepSeek-V3.2和DeepSeek-V3.2-Speciale,在推理能力上全球領(lǐng)先。

兩款模型有著不同的定位。DeepSeek-V3.2的目標(biāo)是平衡推理能力與輸出長(zhǎng)度,適合日常使用,例如問(wèn)答場(chǎng)景和通用智能體任務(wù)場(chǎng)景。9月底DeepSeek發(fā)布了實(shí)驗(yàn)版V3.2-Exp,此次是正式版更新。在公開推理測(cè)試中,V3.2達(dá)到了GPT-5的水平,僅略低于谷歌的Gemini3 Pro。
DeepSeek-V3.2-Speciale則是此次的重頭戲,其目標(biāo)是“將開源模型的推理能力推向極致,探索模型能力的邊界”。據(jù)介紹,Speciale是V3.2的長(zhǎng)思考增強(qiáng)版,同時(shí)結(jié)合了DeepSeek-Math-V2的定理證明能力,該模型具備出色的指令跟隨、嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)證明與邏輯驗(yàn)證能力。
據(jù)DeepSeek公布的數(shù)據(jù),Speciale在多個(gè)推理基準(zhǔn)測(cè)試中超越谷歌最先進(jìn)的Gemini3 Pro。具體來(lái)看,在美國(guó)數(shù)學(xué)邀請(qǐng)賽、哈佛MIT數(shù)學(xué)競(jìng)賽、國(guó)際奧林匹克數(shù)學(xué)競(jìng)賽等測(cè)試中,V3.2-Speciale都超過(guò)了Gemini3 Pro,但在編程、理工科博士生測(cè)試中略遜于谷歌。

DeepSeek-V3.2系列與其他模型在各類數(shù)學(xué)、代碼與通用領(lǐng)域評(píng)測(cè)集上的得分(括號(hào)內(nèi)為消耗 Tokens 總量約數(shù))
同時(shí),Speciale模型斬獲了IMO(國(guó)際數(shù)學(xué)奧林匹克)、ICPC World Finals(國(guó)際大學(xué)生程序設(shè)計(jì)競(jìng)賽全球總決賽)及IOI(國(guó)際信息學(xué)奧林匹克)金牌。其中,ICPC 與 IOI 成績(jī)分別達(dá)到了人類選手第二名與第十名的水平。
盡管取得了這些成就,但在技術(shù)報(bào)告中,DeepSeek承認(rèn),與Gemini3 Pro等前沿閉源模型相比,自家模型仍存在一定的局限性。首先,V3.2的世界知識(shí)廣度仍落后于領(lǐng)先的專有模型,其次在令牌(Token)效率方面,V3.2通常需要更多的令牌才能達(dá)到像Gemini3 Pro這樣的模型輸出質(zhì)量。在解決復(fù)雜任務(wù)方面也不如前沿模型。
DeepSeek稱,團(tuán)隊(duì)計(jì)劃在未來(lái)通過(guò)增加預(yù)訓(xùn)練計(jì)算量來(lái)填補(bǔ)知識(shí)空白,并專注于優(yōu)化模型推理鏈的智能密度以提高效率,進(jìn)一步改進(jìn)基礎(chǔ)模型和訓(xùn)練后方案。
值得一提的是,在技術(shù)報(bào)告中,DeepSeek還談到當(dāng)前開源與閉源模型的差距在拉大。
DeepSeek表示,推理模型的發(fā)布是大模型發(fā)展的關(guān)鍵轉(zhuǎn)折點(diǎn),推動(dòng)了整體性能的大幅躍升。自這一里程碑事件以來(lái),大模型能力在快速發(fā)展。然而,過(guò)去幾個(gè)月中出現(xiàn)了明顯的分化:盡管開源圈持續(xù)取得進(jìn)步,但閉源專有模型如海外谷歌、OpenAI、Anthropic的性能增長(zhǎng)速度卻顯著更快。
“閉源模型與開源模型之間的性能差距并未縮小,反而日益擴(kuò)大,專有系統(tǒng)在復(fù)雜任務(wù)中展現(xiàn)出越來(lái)越強(qiáng)的優(yōu)勢(shì)。”DeepSeek認(rèn)為,其中有三個(gè)關(guān)鍵的缺陷。
一方面,在架構(gòu)層面,對(duì)標(biāo)準(zhǔn)注意力機(jī)制的過(guò)度依賴嚴(yán)重制約了長(zhǎng)序列處理的效率;其次,在資源分配方面,開源模型在后訓(xùn)練階段的計(jì)算投入不足,限制了模型在高難度任務(wù)上的表現(xiàn);最后,在AI智能體領(lǐng)域,開源模型在泛化能力和指令遵循能力上與專業(yè)模型相比存在明顯差距,影響實(shí)際部署效果。
為了突破這些限制,DeepSeek在9月底發(fā)布實(shí)驗(yàn)版V3.2-Exp時(shí),提出了稀疏注意力機(jī)制(DSA),希望大幅降低計(jì)算復(fù)雜度。在經(jīng)過(guò)兩個(gè)月的實(shí)驗(yàn)后,DeepSeek確認(rèn)了稀疏注意力機(jī)制的有效性,并表示,在不犧牲長(zhǎng)上下文性能的前提下,團(tuán)隊(duì)解決了關(guān)鍵的計(jì)算復(fù)雜性問(wèn)題。
此次發(fā)布的兩款模型均引入了這一機(jī)制。據(jù)DeepSeek,除了在多個(gè)推理基準(zhǔn)測(cè)試中,V3.2的性能大幅提升外,在智能體場(chǎng)景中,V3.2也成為一種具有成本效益的替代方案,不僅縮小了開源模型與前沿專有模型之間的性能差距,成本也顯著降低。
目前,DeepSeek的官方網(wǎng)頁(yè)端、App 和 API 均已更新為正式版 DeepSeek-V3.2,但增強(qiáng)的Speciale版本目前僅以臨時(shí)API服務(wù)形式開放,供社區(qū)評(píng)測(cè)與研究。
在海外社媒上,有網(wǎng)友認(rèn)為,DeepSeek 此次發(fā)布是了不起的成就,“匹配 GPT-5和Gemini3 Pro的開源模型出現(xiàn)了,差距正式消除。”DeepSeek不斷證明,嚴(yán)謹(jǐn)?shù)墓こ淘O(shè)計(jì)可以超越單純的參數(shù)規(guī)模。但如同DeepSeek所述的那樣,我們?nèi)孕枵曢_源與閉源在整體性能上的差距,不斷突破開源的邊界。

