《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 人工智能 > 业界动态 > 谷歌发布新型AI内存压缩技术 内存需求得解

谷歌发布新型AI内存压缩技术 内存需求得解

2026-03-26
來源:快科技
關(guān)鍵詞: 谷歌 内存 TurboQuant 大语言模型

3月26日消息,谷歌研究院推出全新AI內(nèi)存壓縮技術(shù)TurboQuant,精準破解AI推理的內(nèi)存瓶頸。

該技術(shù)可在不損失精度的前提下,將大語言模型緩存內(nèi)存占用至少縮減6倍,推理速度最高提升8倍。

AI模型運行時有一種“工作內(nèi)存”,即KV緩存(Key-Value Cache)。每當模型處理信息、生成回答時,KV緩存便會迅速膨脹,且上下文窗口越長,緩存占用的內(nèi)存越大。

這已成為制約AI系統(tǒng)效率與成本的核心瓶頸,并非模型不夠智能,而是運行時的內(nèi)存難以支撐。

1.png

TurboQuant采用向量量化的方法對緩存進行壓縮,使AI在占用更少內(nèi)存的同時記住更多信息,且保持準確性。實現(xiàn)這一效果的關(guān)鍵在于兩項技術(shù):名為PolarQuant的量化方法,以及名為QJL的訓練與優(yōu)化手段。研究團隊計劃在下個月的ICLR 2026會議上正式發(fā)布相關(guān)成果。

研究團隊在Gemma和Mistral等開源大模型上進行了嚴格的基準測試。實驗數(shù)據(jù)顯示,TurboQuant無需任何預訓練或微調(diào),即可將鍵值緩存高效壓縮至3比特,在“大海撈針”等長上下文測試中實現(xiàn)零精度損失,內(nèi)存占用降至原來的六分之一。

此外,在H100 GPU加速器上,4比特TurboQuant的運行速度較未量化的32比特基準提升了高達8倍。

2.png

3.png

4.png


內(nèi)存需求會降低,還是會帶來更大需求?

針對TurboQuant技術(shù)會引發(fā)了整個市場對于內(nèi)存需求斷崖式下跌的擔憂,產(chǎn)業(yè)專家與研究機構(gòu)也給出了截然不同的看法:

富國銀行(Wells Fargo)分析師Andrew Rocha指出:“當context window(上下文窗口)越來越大,KV Cache的爆炸性成長原本是推升內(nèi)存需求的保證。但TurboQuant正在直接攻擊這條成本曲線,一旦被廣泛采用,數(shù)據(jù)中心對內(nèi)存容量的規(guī)格要求將被打上大問號。”

不過,知名投行摩根士丹利(Morgan Stanley)和研究機構(gòu)Lynx Equity Strategies則給出了截然不同的觀點,

摩根士丹利認為市場可能忽視了“效率提升帶動總量增長”的經(jīng)濟規(guī)律。當AI計算所需的內(nèi)存成本降低到原本的1/6,這將會使得原本因內(nèi)存太貴而無法上線的AI應(yīng)用(如長文本翻譯、復雜代碼生成)需求大規(guī)模爆發(fā),反而會填補、甚至超越被壓縮掉的內(nèi)存缺口。

這就是杰文斯悖論(Jevon's paradox),即當技術(shù)進步提高了使用資源的效率(減少任何一種使用所需的數(shù)量),但成本降低導致需求增加,令資源消耗的速度不減反增。

摩根士丹利分析師約瑟夫·摩爾(Joseph Moore)及其團隊在周四發(fā)布的投資者報告中指出: “有報道稱谷歌的TurboQuant會導致內(nèi)存使用量減少了到原來的1/6,但這忽略了他們僅僅指的是KV Cache,而不是整體內(nèi)存使用量。

“值得注意的是,谷歌的 Gemini 3 和 2.5 Pro 模型都擁有 100 萬個Token的上下文窗口,但谷歌曾透露,他們使用 Gemini 1.5 Pro 測試過高達 1000 萬個Token的上下文窗口,并取得了非常好的結(jié)果,但由于推理成本較高,他們最終沒有發(fā)布該模型,”摩爾說道?!耙虼?,我們預計,隨著此類創(chuàng)新以及其他技術(shù)的出現(xiàn),成本將會降低,這項技術(shù)將被用于服務(wù)于更智能、計算密集型的產(chǎn)品?!?/span>

摩根士丹利進一步指出,TurboQuant主要優(yōu)化的是“推理階段”的緩存,并非“訓練階段”的模型權(quán)重。因此,對于支撐AI核心訓練的HBM(高頻寬內(nèi)存)采購邏輯影響相對有限。

相比之下,TurboQuant對手機、筆記本電腦等終端設(shè)備的人工智能部署更具意義。由于移動設(shè)備的內(nèi)存有限,這類高效壓縮技術(shù)能讓更強大的AI模型在手機端運行,這反而會刺激各類終端裝置進行內(nèi)存規(guī)格的全面換代。

Lynx Equity Strategies 的觀點認為,雖然人工智能提供商需要創(chuàng)新來解決推理中隨著Token上下文長度增加而出現(xiàn)的瓶頸問題,但由于供應(yīng)限制,這在未來三到五年內(nèi)并不會減少對內(nèi)存和閃存的需求。

2.jpg

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。