4月24日訊今日,Deepseek宣布,其全新系列模型DeepSeek-V4的預覽版本正式上線并同步開源。
DeepSeek-V4模型按大小分為Deepseek-V4-Pro(專家模式)和Deepseek-V4-Flash(快速模式)兩個版本,均擁有百萬字超長上下文,且同時支持非思考模式與思考模式。

據(jù)介紹,DeepSeek-V4-Pro的知識儲備和推理能力優(yōu)秀。其在世界知識測評中,大幅領先其他開源模型,僅稍遜于頂尖閉源模型Gemini-Pro-3.1;在數(shù)學、STEM、競賽型代碼的測評中,DeepSeek-V4-Pro超越當前所有已公開評測的開源模型,取得了比肩世界頂級閉源模型的優(yōu)異成績。
相比DeepSeek-V4-Pro,DeepSeek-V4-Flash在世界知識儲備方面稍遜一籌,但展現(xiàn)出了接近的推理能力。而由于模型參數(shù)和激活更小,相較之下V4-Flash能夠提供更加快捷、經(jīng)濟的API服務。
據(jù)官方介紹,DeepSeek-V4預覽版具備兩大亮點——
Agent能力大幅提高:相比前代模型,DeepSeek-V4-Pro的Agent能力顯著增強。在Agentic Coding評測中,V4-Pro已達到當前開源模型最佳水平,并在其他Agent相關評測中同樣表現(xiàn)優(yōu)異。下圖為V4-Pro在某Agent框架下生成的PPT內頁示例:

目前DeepSeek-V4已成為公司內部員工使用的Agentic Coding模型,據(jù)評測反饋使用體驗優(yōu)于Sonnet 4.5,在代碼任務、文檔生成任務等方面表現(xiàn)均有提升,交付質量接近Opus 4.6非思考模式,但仍與Opus 4.6思考模式存在一定差距。

結構創(chuàng)新和超高上下文效率:
DeepSeek-V4開創(chuàng)了一種全新的注意力機制,在token維度進行壓縮,結合DSA稀疏注意力(DeepSeek Sparse Attention),實現(xiàn)了全球領先的長上下文能力,并且相比于傳統(tǒng)方法大幅降低了對計算和顯存的需求。從現(xiàn)在開始,1M(一百萬)上下文將是DeepSeek所有官方服務的標配。

DeepSeek-V4和DeepSeek-V3.2的計算量和顯存容量隨上下文長度的變化
目前,DeepSeek API已同步上線V4-Pro與V4-Flash,支持OpenAI Chat Completions接口與Anthropic接口。兩版本價格如下:

DeepSeek官方在發(fā)布說明中提到了V4的性能,相比前代模型DeepSeek-V4-Pro的 Agent能力顯著增強。
在 Agentic Coding 評測中,V4-Pro已達到當前開源模型最佳水平,并在其他Agent相關評測中同樣表現(xiàn)優(yōu)異。
目前 DeepSeek-V4已成為公司內部員工使用的Agentic Coding模型,據(jù)評測反饋使用體驗優(yōu)于Sonnet 4.5,交付質量接近Opus 4.6非思考模式,但仍與Opus 4.6 思考模式存在一定差距。

除了官方評測,現(xiàn)在網(wǎng)上已經(jīng)有很多網(wǎng)友自己的實測及AI排行榜的評測結果出來了,這里做個匯總,大家可以對比來看V4的性能。
首先是arena.ai上的榜單,主要看text文本和code編程能力吧,圖像、視覺之類的因為V4不支持多模態(tài)也沒得比。

文本能力上位列20名,開了thinking之后反而更低一些。

Code編程能力位列14,這方面國產(chǎn)最強的是GLM-5.1,位列第5名。

在vals.ai的榜單中,V4是開源第一,全球第九的水平,不過從分數(shù)上來看跟前三差距還有點大。

還有很多榜單還沒收錄V4的成績,Linux.do社區(qū)上有大佬自己的評測中,V4 Pro的表現(xiàn)甚至要比GLM-5.1還要差一些,跟TOP3依然差距較大。
從這些結果來看,DeepSeek-V4確實如官方所說,編程能力比前代大幅提升了,表現(xiàn)優(yōu)于Sonnet 4.5,接近Opus 4.6,但距離后者的推理模式下還有差距。
整體對比下來,DeepSeek-V4在AI編程上有提升但談不上驚喜,距離御三家的TOP模型還有不少差距要追趕,而且Pro目前的價格雖然比御三家便宜,但總體不算便宜了(主要是Pro),F(xiàn)lash倒是保持了性價比優(yōu)勢。
在過去的15個月中,DeepSeek面臨的壓力顯然是超過外界想象的,一方面有美國不斷的制裁封鎖,算力資源上跟御三家肯定是差距極大的,而且DeepSeek現(xiàn)在肩負起了適配國產(chǎn)AI算力的重任,這顯然也會影響他們的開發(fā)進度。
DeepSeek-V4現(xiàn)在總算發(fā)布了,而且性能不俗,只不過在過去的15個月中,不論是美國的AI巨頭還是國內的Kimi、GLM、MiniMax,都在飛速進步,產(chǎn)品迭代了好幾輪了,而且這些公司要么本身就很有資源,要么就是上市之后有融資的支持,這方面DeepSeek也會吃虧的。
現(xiàn)在只能期待DeepSeek后續(xù)解決V4的算力及成本問題,并且不斷優(yōu)化,在4.1或者4.2版本迭代之后展現(xiàn)更驚人的能力。
同時希望下一代的DeepSeek-V5不要在等15個月了,爭取今年底之前問世吧。

