《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 人工智能 > 业界动态 > DeepSeek新论文首爆V4架构 直击Transformer致命缺陷

DeepSeek新论文首爆V4架构 直击Transformer致命缺陷

2026-01-13
來源:新智元
關(guān)鍵詞: Deepseek 大模型 稀疏模型

DeepSeek 節(jié)前開始蓄力!

最新論文直接給 Transformer 加上“條件記憶”(Conditional Memory),補(bǔ)上了原生缺乏的知識查找機(jī)制。

結(jié)論中明寫道:我們將條件記憶視為下一代稀疏模型不可或缺的建模原語。

format,f_avif.avif (1).jpg

還是梁文鋒署名,并與北京大學(xué)王選所趙東巖、張輝帥團(tuán)隊合作。

format,f_avif.avif (2).jpg

論文中不僅提出了條件記憶這個全新范式,并給出了具體實(shí)現(xiàn)方案 Engram 模塊,實(shí)驗(yàn)中讓 27B 參數(shù)碾壓同規(guī)模純 MoE 模型,甚至變相提升了大模型的推理能力:

讓原來 Transformer 要用 6 層注意力才能干的簡單任務(wù)壓縮到 1-2 層搞定,省出來的資源就可以用于更難的推理任務(wù)了。

條件記憶的原理其實(shí)也非?!霸肌保翰豢坑嬎?,回歸查表,用上了傳統(tǒng) N-gram 方法。

給大模型一個巨大的詞表,專門存那些固定的實(shí)體名稱和兩三個詞的短語,不管詞表多大,找信息都是 O (1) 速度。

關(guān)鍵就在于,如此前大模型時代的玩法,DeepSeek 如何解決傳統(tǒng) N-gram 模型存儲爆炸和多義性問題,又是讓它和現(xiàn)代 Transformer 結(jié)合起來的?

讓注意力干“苦力活”太浪費(fèi)了

團(tuán)隊的核心觀察是,語言建模其實(shí)包含兩種性質(zhì)完全不同的任務(wù),一種是需要深度動態(tài)計算的組合推理,另一種則是檢索靜態(tài)知識。

問題在于,現(xiàn)有的 Transformer 架構(gòu)缺乏原生的知識查找機(jī)制。

當(dāng)模型需要識別一個實(shí)體時,它得消耗好幾層注意力和前饋網(wǎng)絡(luò),逐層拼湊特征,最終才能完成。

論文中引用了一個具體案例:”Diana, Princess of Wales”

模型需要經(jīng)過 6 層才能完成這個識別過程,前幾層還在糾結(jié)”Wales 是英國的一個地區(qū)”、”Princess of Wales 是某種頭銜”這些中間狀態(tài),最終才能“想起來”這是指戴安娜王妃。

format,f_avif.avif (3).jpg

本質(zhì)上是在用昂貴的運(yùn)行時計算來重建一個靜態(tài)查找表,那些本可以用于更高層推理的網(wǎng)絡(luò)深度,被浪費(fèi)在了識別概念這種“苦力活”上。

回歸查表,回歸 N-gram

Engram 的設(shè)計思路相當(dāng)直接:既然經(jīng)典的 N-gram 模型就能用 O (1) 的時間復(fù)雜度捕獲這些局部依賴,那為什么不把這個能力直接嵌入 Transformer?

具體實(shí)現(xiàn)上,團(tuán)隊在原有的 Transformer 層之間插入 Engram 模塊。每個位置的輸入會觸發(fā)一次哈希查找:把當(dāng)前 token 和前面幾個 token 組成的 N-gram 映射到一個巨大的嵌入表中,直接取出對應(yīng)的向量。

format,f_avif.avif (4).jpg

為了處理哈希沖突和多義性問題,團(tuán)隊引入了上下文感知的門控機(jī)制,用當(dāng)前的隱藏狀態(tài)作為 Query,檢索到的記憶作為 Key 和 Value,計算一個 0 到 1 之間的標(biāo)量門控值。

如果檢索到的內(nèi)容和當(dāng)前上下文不匹配,門控值就趨近于零,相當(dāng)于自動屏蔽噪聲。

下圖中,顏色越深說明 Engram 越判斷當(dāng)前文本片段是“固定靜態(tài)模式”,傾向于調(diào)用記憶庫中的對應(yīng)信息。

顏色越淺代表這段文本越動態(tài)靈活,主要靠模型的注意力機(jī)制處理。

比如只看到“張”是一個常見姓氏,但是“張仲景”三個字湊一起就是固定歷史人物實(shí)體了。

format,f_avif.avif (5).jpg

接下來還要解決傳統(tǒng) N-gram 模型的兩個痛點(diǎn)。

語義重復(fù),同一個詞的不同形式(比如 Apple、apple、?pple)被當(dāng)成不同 token,浪費(fèi)存儲。

存儲爆炸,所有可能的 N-gram(比如 2 詞、3 詞組合)數(shù)量太多,比如 128k 詞表就要存 128k^3 種組合,直接存儲根本存不下。

DeepSeek 團(tuán)隊首先壓縮 tokenizer,把語義相同但形式不同的 token 歸為一類,128k 詞表的有效規(guī)模直接減少 23%,相同語義的 token 聚在一起,查找更高效。

再用多個哈希函數(shù)把 N-gram 映射成 embedding 表的索引,

這既解決了存儲爆炸:不管有多少種 N-gram,都通過哈希函數(shù)映射到一個固定大小的 embedding 表里,表的大小是質(zhì)數(shù)。

又減少查找沖突:給每種 N-gram 階數(shù)(比如 2-gram、3-gram)配 K 個不同的哈希頭,每個哈希頭對應(yīng)一個獨(dú)立的 embedding 表,把所有 N-gram 階數(shù)、所有哈希頭取出來的 embedding 向量拼在一起,形成最終的“記憶向量”e?,供后續(xù)模塊使用。

format,f_avif.avif (6).jpg

format,f_avif.avif (7).jpg

U 型曲線:MoE 和記憶的最優(yōu)配比

論文最核心的部分是對”稀疏性分配問題”的系統(tǒng)研究。

團(tuán)隊設(shè)計了一個嚴(yán)格的實(shí)驗(yàn)框架:固定總參數(shù)量和每 token 的激活參數(shù)量(也就是計算量),然后在 MoE 專家和 Engram 記憶之間重新分配”閑置參數(shù)”預(yù)算。

分配比例 ρ 從 100%(純 MoE)逐步降到 40%,實(shí)驗(yàn)結(jié)果畫出了一條清晰的 U 型曲線:

format,f_avif.avif (8).jpg

純 MoE 反而不是最優(yōu)解,把大約 20% 到 25% 的稀疏參數(shù)預(yù)算分給 Engram 記憶時,模型驗(yàn)證集 loss 達(dá)到最低點(diǎn)。

在 100 億參數(shù)規(guī)模下,最優(yōu)配置比純 MoE 基線的 loss 降低了 0.0139。

更重要的是,這個最優(yōu)分配點(diǎn)在不同計算預(yù)算下都相當(dāng)穩(wěn)定,大約在 ρ=75% 到 80% 之間。

團(tuán)隊解釋了 U 型曲線兩端的含義:

MoE 主導(dǎo)時,模型缺乏靜態(tài)模式的專用記憶,被迫通過網(wǎng)絡(luò)深度和大量計算來低效重建。

Engram 主導(dǎo)時,模型丟失了條件計算能力,在需要動態(tài)推理的任務(wù)上表現(xiàn)下降。

總之,記憶無法替代計算,計算也無法高效模擬記憶。

27B 規(guī)模驗(yàn)證:推理能力提升超預(yù)期

按照 U 型曲線的指導(dǎo),團(tuán)隊把 Engram 擴(kuò)展到更大參數(shù)規(guī)模進(jìn)行驗(yàn)證,并對比純 MoE 模型和純密集模型。

所有模型訓(xùn)練條件一致,激活參數(shù)量都是 38 億,訓(xùn)練 token 都是 2620 億,差異僅在“稀疏能力分配”。

Dense-4B:純密集模型。

MoE-27B:純混合專家模型,72 個路由專家 +2 個共享專家,所有稀疏參數(shù)都給 MoE。

Engram-27B:MoE+Engram 混合模型,55 個路由專家 +2 個共享專家,把 5.7B 稀疏參數(shù)分配給 Engram 記憶模塊。

Engram-40B:進(jìn)一步擴(kuò)展 Engram 模塊,保持專家數(shù)量不變,Engram 記憶參數(shù)增至 18.5B,總參數(shù) 39.5B。

format,f_avif.avif (9).jpg

結(jié)果 MoE-27B 和 Engram-27B 對比,知識密集型任務(wù)的提升在預(yù)期之內(nèi):比如 MMLU 提升 3 分,CMMLU 提升 4.0 分,TriviaQA 提升 1.9 分。

但出乎意料的是,通用推理和代碼數(shù)學(xué)領(lǐng)域的提升幅度也很大:BBH 大幅提升 5.0 分,ARC-Challenge 提升 3.7 分,DROP 提升 3.3 分,HumanEval 提升 3.0 分,MATH 提升 2.4 分,GSM8K 提升 2.2 分。

format,f_avif.avif (10).jpg

團(tuán)隊用 LogitLens 和 CKA 分析揭示了原因。

Engram 讓模型的早期層不再需要做特征組合的“苦力活”,KL 散度曲線顯示 Engram 模型的預(yù)測收斂速度明顯更快。更直觀的證據(jù)來自 CKA 相似度矩陣,Engram-27B 第 5 層的表征,和 MoE 基線第 12 層的表征最為相似。

這意味著 Engram 實(shí)際上“加深”了網(wǎng)絡(luò)的有效深度,省下來的層數(shù)被用于更復(fù)雜的推理任務(wù)。

format,f_avif.avif (11).jpg

Engram-40B 進(jìn)一步增加記憶參數(shù)后,大部分任務(wù)性能持續(xù)提升,且訓(xùn)練后期損失仍在下降,說明記憶容量還未飽和,后續(xù)可繼續(xù)擴(kuò)大。

另外長上下文場景的提升尤為顯著。

在 RULER 測試集上,Multi-Query NIAH 從 84.2 躍升到 97.0,Variable Tracking 從 77.0 提升到 89.0。

format,f_avif.avif (12).jpg

論文解釋說,Engram 把局部依賴建模卸載給了查找操作,釋放了注意力容量去關(guān)注全局上下文。

百億參數(shù)表放 CPU 上,延遲幾乎沒影響

接下來又到了喜聞樂見的軟硬結(jié)合工程優(yōu)化環(huán)節(jié)。

在訓(xùn)練階段,詞表規(guī)模會高達(dá) 100B 參數(shù),單個 GPU 存不下,必須拆分到多個 GPU 上,需要 All-to-All 通信機(jī)制,讓所有 GPU 之間互相傳遞需要的記憶片段。

在推理階段把詞表卸載到 CPU 內(nèi)存,同時又不能讓記憶調(diào)用拖慢計算節(jié)奏。

format,f_avif.avif (13).jpg

和 MoE 的動態(tài)路由不同,Engram 的查找索引只取決于輸入 token 序列,完全可以提前計算。

這個確定性讓團(tuán)隊能夠把巨大的嵌入表放到 CPU 內(nèi)存里,用 PCIe 異步預(yù)取,讓通信和前面層的計算重疊。

具體通過把 Engram 模塊插在 Transformer 網(wǎng)絡(luò)的特定層,GPU 計算前一層的同時,CPU 預(yù)取當(dāng)前層需要的 Engram 記憶,等 GPU 算完前一層,所需的記憶也已經(jīng)傳輸?shù)轿弧?/p>

實(shí)驗(yàn)直接把一個 1000 億參數(shù)的 Engram 表放到 CPU 內(nèi)存,在 H800 上跑推理。4B 密集模型的吞吐量從 9031 token/s 降到 8858 token/s,8B Dense 模型從 6315 token/s 降到 6140 token/s,額外開銷都在 3% 以內(nèi)。

format,f_avif.avif.jpg

自然語言 N-gram 天然遵循 Zipfian 分布,極少數(shù)高頻模式占據(jù)絕大多數(shù)訪問量。這意味著可以設(shè)計多級緩存:高頻嵌入放 GPU 顯存,中頻放 CPU 內(nèi)存,長尾放 NVMe SSD,把有效延遲進(jìn)一步壓縮。

DeepSeek 團(tuán)隊在結(jié)論中寫道:

Engram 將“硬件感知效率”確立為核心設(shè)計原則:其確定性尋址機(jī)制支持存儲與計算的解耦,能夠?qū)⒑A繀?shù)表卸載至主機(jī)內(nèi)存,且推理開銷可忽略不計。我們認(rèn)為,條件記憶將成為下一代稀疏模型中不可或缺的建?;?。

DeepSeek 的下一代稀疏模型,已被曝光將在春節(jié)前發(fā)布,敬請期待。


subscribe.jpg

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。