123,123,123

谷歌发布新型AI内存压缩技术内存需求得解

日期： 2026-03-26

來源：快科技

關(guān)鍵詞： 谷歌内存 TurboQuant 大语言模型

3月26日消息，谷歌研究院推出全新AI內(nèi)存壓縮技術(shù)TurboQuant，精準破解AI推理的內(nèi)存瓶頸。

該技術(shù)可在不損失精度的前提下，將大語言模型緩存內(nèi)存占用至少縮減6倍，推理速度最高提升8倍。

AI模型運行時有一種“工作內(nèi)存”，即KV緩存（Key-Value Cache）。每當模型處理信息、生成回答時，KV緩存便會迅速膨脹，且上下文窗口越長，緩存占用的內(nèi)存越大。

這已成為制約AI系統(tǒng)效率與成本的核心瓶頸，并非模型不夠智能，而是運行時的內(nèi)存難以支撐。

TurboQuant采用向量量化的方法對緩存進行壓縮，使AI在占用更少內(nèi)存的同時記住更多信息，且保持準確性。實現(xiàn)這一效果的關(guān)鍵在于兩項技術(shù)：名為PolarQuant的量化方法，以及名為QJL的訓練與優(yōu)化手段。研究團隊計劃在下個月的ICLR 2026會議上正式發(fā)布相關(guān)成果。

研究團隊在Gemma和Mistral等開源大模型上進行了嚴格的基準測試。實驗數(shù)據(jù)顯示，TurboQuant無需任何預訓練或微調(diào)，即可將鍵值緩存高效壓縮至3比特，在“大海撈針”等長上下文測試中實現(xiàn)零精度損失，內(nèi)存占用降至原來的六分之一。

此外，在H100 GPU加速器上，4比特TurboQuant的運行速度較未量化的32比特基準提升了高達8倍。

內(nèi)存需求會降低，還是會帶來更大需求？

針對TurboQuant技術(shù)會引發(fā)了整個市場對于內(nèi)存需求斷崖式下跌的擔憂，產(chǎn)業(yè)專家與研究機構(gòu)也給出了截然不同的看法：

富國銀行（Wells Fargo）分析師Andrew Rocha指出：“當context window（上下文窗口）越來越大，KV Cache的爆炸性成長原本是推升內(nèi)存需求的保證。但TurboQuant正在直接攻擊這條成本曲線，一旦被廣泛采用，數(shù)據(jù)中心對內(nèi)存容量的規(guī)格要求將被打上大問號。”

不過，知名投行摩根士丹利（Morgan Stanley）和研究機構(gòu)Lynx Equity Strategies則給出了截然不同的觀點，

摩根士丹利認為市場可能忽視了“效率提升帶動總量增長”的經(jīng)濟規(guī)律。當AI計算所需的內(nèi)存成本降低到原本的1/6，這將會使得原本因內(nèi)存太貴而無法上線的AI應(yīng)用（如長文本翻譯、復雜代碼生成）需求大規(guī)模爆發(fā)，反而會填補、甚至超越被壓縮掉的內(nèi)存缺口。

這就是杰文斯悖論（Jevon's paradox），即當技術(shù)進步提高了使用資源的效率（減少任何一種使用所需的數(shù)量），但成本降低導致需求增加，令資源消耗的速度不減反增。

摩根士丹利分析師約瑟夫·摩爾（Joseph Moore）及其團隊在周四發(fā)布的投資者報告中指出： “有報道稱谷歌的TurboQuant會導致內(nèi)存使用量減少了到原來的1/6，但這忽略了他們僅僅指的是KV Cache，而不是整體內(nèi)存使用量。

“值得注意的是，谷歌的 Gemini 3 和 2.5 Pro 模型都擁有 100 萬個Token的上下文窗口，但谷歌曾透露，他們使用 Gemini 1.5 Pro 測試過高達 1000 萬個Token的上下文窗口，并取得了非常好的結(jié)果，但由于推理成本較高，他們最終沒有發(fā)布該模型，”摩爾說道?！耙虼?，我們預計，隨著此類創(chuàng)新以及其他技術(shù)的出現(xiàn)，成本將會降低，這項技術(shù)將被用于服務(wù)于更智能、計算密集型的產(chǎn)品?！?/span>

摩根士丹利進一步指出，TurboQuant主要優(yōu)化的是“推理階段”的緩存，并非“訓練階段”的模型權(quán)重。因此，對于支撐AI核心訓練的HBM（高頻寬內(nèi)存）采購邏輯影響相對有限。

相比之下，TurboQuant對手機、筆記本電腦等終端設(shè)備的人工智能部署更具意義。由于移動設(shè)備的內(nèi)存有限，這類高效壓縮技術(shù)能讓更強大的AI模型在手機端運行，這反而會刺激各類終端裝置進行內(nèi)存規(guī)格的全面換代。

Lynx Equity Strategies 的觀點認為，雖然人工智能提供商需要創(chuàng)新來解決推理中隨著Token上下文長度增加而出現(xiàn)的瓶頸問題，但由于供應(yīng)限制，這在未來三到五年內(nèi)并不會減少對內(nèi)存和閃存的需求。

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當措施，避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

谷歌发布新型AI内存压缩技术 内存需求得解

日期： 2026-03-26

來源：快科技

相關(guān)內(nèi)容

谷歌发布新型AI内存压缩技术内存需求得解