《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 人工智能 > 業(yè)界動態(tài) > DeepSeek上新模型硬剛谷歌 承認(rèn)開源與閉源差距拉大

DeepSeek上新模型硬剛谷歌 承認(rèn)開源與閉源差距拉大

2025-12-02
來源:鳳凰網(wǎng)科技
關(guān)鍵詞: Deepseek AI推理 大模型

12月1日晚,DeepSeek又上新了兩款新模型,DeepSeek-V3.2和DeepSeek-V3.2-Speciale,在推理能力上全球領(lǐng)先。

_url=http%3A%2F%2Fcms-bucket.ws.126.net%2F2025%2F1201%2F32c24b8ep00t6l8ti001pc000zk00juc.jpg

兩款模型有著不同的定位。DeepSeek-V3.2的目標(biāo)是平衡推理能力與輸出長度,適合日常使用,例如問答場景和通用智能體任務(wù)場景。9月底DeepSeek發(fā)布了實驗版V3.2-Exp,此次是正式版更新。在公開推理測試中,V3.2達到了GPT-5的水平,僅略低于谷歌的Gemini3 Pro。

DeepSeek-V3.2-Speciale則是此次的重頭戲,其目標(biāo)是“將開源模型的推理能力推向極致,探索模型能力的邊界”。據(jù)介紹,Speciale是V3.2的長思考增強版,同時結(jié)合了DeepSeek-Math-V2的定理證明能力,該模型具備出色的指令跟隨、嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)證明與邏輯驗證能力。

據(jù)DeepSeek公布的數(shù)據(jù),Speciale在多個推理基準(zhǔn)測試中超越谷歌最先進的Gemini3 Pro。具體來看,在美國數(shù)學(xué)邀請賽、哈佛MIT數(shù)學(xué)競賽、國際奧林匹克數(shù)學(xué)競賽等測試中,V3.2-Speciale都超過了Gemini3 Pro,但在編程、理工科博士生測試中略遜于谷歌。

_url=http%3A%2F%2Fdingyue.ws.126.net%2F2025%2F1202%2Fb1170da4j00t6llsw00bbd000rs00jrg.jpg

DeepSeek-V3.2系列與其他模型在各類數(shù)學(xué)、代碼與通用領(lǐng)域評測集上的得分(括號內(nèi)為消耗 Tokens 總量約數(shù))

同時,Speciale模型斬獲了IMO(國際數(shù)學(xué)奧林匹克)、ICPC World Finals(國際大學(xué)生程序設(shè)計競賽全球總決賽)及IOI(國際信息學(xué)奧林匹克)金牌。其中,ICPC 與 IOI 成績分別達到了人類選手第二名與第十名的水平。

盡管取得了這些成就,但在技術(shù)報告中,DeepSeek承認(rèn),與Gemini3 Pro等前沿閉源模型相比,自家模型仍存在一定的局限性。首先,V3.2的世界知識廣度仍落后于領(lǐng)先的專有模型,其次在令牌(Token)效率方面,V3.2通常需要更多的令牌才能達到像Gemini3 Pro這樣的模型輸出質(zhì)量。在解決復(fù)雜任務(wù)方面也不如前沿模型。

DeepSeek稱,團隊計劃在未來通過增加預(yù)訓(xùn)練計算量來填補知識空白,并專注于優(yōu)化模型推理鏈的智能密度以提高效率,進一步改進基礎(chǔ)模型和訓(xùn)練后方案。

值得一提的是,在技術(shù)報告中,DeepSeek還談到當(dāng)前開源與閉源模型的差距在拉大。

DeepSeek表示,推理模型的發(fā)布是大模型發(fā)展的關(guān)鍵轉(zhuǎn)折點,推動了整體性能的大幅躍升。自這一里程碑事件以來,大模型能力在快速發(fā)展。然而,過去幾個月中出現(xiàn)了明顯的分化:盡管開源圈持續(xù)取得進步,但閉源專有模型如海外谷歌、OpenAI、Anthropic的性能增長速度卻顯著更快。

“閉源模型與開源模型之間的性能差距并未縮小,反而日益擴大,專有系統(tǒng)在復(fù)雜任務(wù)中展現(xiàn)出越來越強的優(yōu)勢?!盌eepSeek認(rèn)為,其中有三個關(guān)鍵的缺陷。

一方面,在架構(gòu)層面,對標(biāo)準(zhǔn)注意力機制的過度依賴嚴(yán)重制約了長序列處理的效率;其次,在資源分配方面,開源模型在后訓(xùn)練階段的計算投入不足,限制了模型在高難度任務(wù)上的表現(xiàn);最后,在AI智能體領(lǐng)域,開源模型在泛化能力和指令遵循能力上與專業(yè)模型相比存在明顯差距,影響實際部署效果。

為了突破這些限制,DeepSeek在9月底發(fā)布實驗版V3.2-Exp時,提出了稀疏注意力機制(DSA),希望大幅降低計算復(fù)雜度。在經(jīng)過兩個月的實驗后,DeepSeek確認(rèn)了稀疏注意力機制的有效性,并表示,在不犧牲長上下文性能的前提下,團隊解決了關(guān)鍵的計算復(fù)雜性問題。

此次發(fā)布的兩款模型均引入了這一機制。據(jù)DeepSeek,除了在多個推理基準(zhǔn)測試中,V3.2的性能大幅提升外,在智能體場景中,V3.2也成為一種具有成本效益的替代方案,不僅縮小了開源模型與前沿專有模型之間的性能差距,成本也顯著降低。

目前,DeepSeek的官方網(wǎng)頁端、App 和 API 均已更新為正式版 DeepSeek-V3.2,但增強的Speciale版本目前僅以臨時API服務(wù)形式開放,供社區(qū)評測與研究。

在海外社媒上,有網(wǎng)友認(rèn)為,DeepSeek 此次發(fā)布是了不起的成就,“匹配 GPT-5和Gemini3 Pro的開源模型出現(xiàn)了,差距正式消除?!盌eepSeek不斷證明,嚴(yán)謹(jǐn)?shù)墓こ淘O(shè)計可以超越單純的參數(shù)規(guī)模。但如同DeepSeek所述的那樣,我們?nèi)孕枵曢_源與閉源在整體性能上的差距,不斷突破開源的邊界。


subscribe.jpg

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。