123,123

英伟达发明新技术KVTC 内存使用量缩减20倍

日期： 2026-03-23

來源：快科技

關(guān)鍵詞： 英伟达 KVTC AI芯片内存芯片大型语言模型

3月22日消息，NVIDIA研究人員推出一項全新技術(shù)KVTC（KV快取轉(zhuǎn)換編碼），能把大型語言模型（LLM）追蹤對話歷史的內(nèi)存用量，最高縮減20倍，而且不用修改模型本身。

這一突破有望解決大型語言模型長對話推理時的內(nèi)存不夠用問題，大大降低企業(yè)使用AI的硬件成本，同時還能把模型首次生成回應(yīng)的時間，最高提速8倍。

簡單來說，KVTC技術(shù)的核心就是壓縮大型語言模型背后的KV緩存——它相當(dāng)于AI模型的“短期記憶”。我們可以把KV緩存理解成學(xué)生記筆記：模型處理對話時，會把關(guān)鍵信息（也就是Key和Value）記下來，下次生成回應(yīng)時，不用從頭重新計算整段對話，響應(yīng)速度就能大幅提升。

但問題是，對話越長，這份“筆記”就越大，甚至?xí)蛎浀綆讉€GB，占用大量GPU內(nèi)存，反而拖慢模型運行、限制其處理能力。

NVIDIA資深深度學(xué)習(xí)工程師Adrian Lancucki表示：“大型語言模型進(jìn)行推論時，性能瓶頸往往不在運算能力，而在GPU內(nèi)存。”那些暫時不用的KV緩存，會一直占用寶貴的GPU資源，逼得系統(tǒng)只能把它們轉(zhuǎn)移到CPU內(nèi)存或硬盤里，這樣不僅會增加數(shù)據(jù)傳輸?shù)呢?fù)擔(dān)，還可能出現(xiàn)新的卡頓問題，這些額外成本最終也會體現(xiàn)在企業(yè)的使用費用中。

和現(xiàn)有壓縮技術(shù)相比，KVTC沒有那些明顯的局限，它借鑒了我們熟悉的JPEG圖片壓縮思路，通過“主成分分析、自適應(yīng)量化、熵編碼”三個簡單步驟，就能實現(xiàn)高效壓縮。

更方便的是，這項技術(shù)不用改動模型的核心設(shè)置和代碼，屬于“非侵入式”設(shè)計，企業(yè)拿來就能快速部署。它的核心優(yōu)勢是，能抓住KV緩存“數(shù)據(jù)高度相關(guān)”的特點，在保留關(guān)鍵信息的同時，去掉冗余數(shù)據(jù)，而且解壓時可以分塊、逐層進(jìn)行，不會影響模型實時回應(yīng)。

多輪測試顯示，KVTC的表現(xiàn)遠(yuǎn)超現(xiàn)有主流方法。在參數(shù)量從15億到700億的多種模型（包括Llama 3系列、R1-Qwen 2.5等）上，即便將內(nèi)存壓縮20倍，模型準(zhǔn)確率也幾乎不受影響，損失不到1%，與未壓縮時相差無幾；而傳統(tǒng)壓縮方法僅壓縮5倍，就會出現(xiàn)明顯的準(zhǔn)確率下降。

另外，在H100 GPU上處理8000個Token的提示時，不使用KVTC需要3秒才能生成第一個回應(yīng)，使用后僅需380毫秒，提速整整8倍。

需要注意的是，KVTC更適合長對話、多輪互動場景，比如編程助手、迭代式代理推理等，若對話較短，很難發(fā)揮其壓縮價值。

目前，NVIDIA正計劃將這項技術(shù)整合進(jìn)Dynamo框架的KV塊管理器，使其能與vLLM等主流開源推論引擎兼容。

業(yè)內(nèi)人士認(rèn)為，隨著大型語言模型可處理的對話長度不斷增加，KVTC這類標(biāo)準(zhǔn)化壓縮技術(shù)，未來可能會像視頻壓縮一樣普及，助力AI更廣泛地落地應(yīng)用。

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

英伟达发明新技术KVTC 内存使用量缩减20倍

日期： 2026-03-23

來源：快科技

相關(guān)內(nèi)容