9月11日消息,據(jù)韓國(guó)媒體Thelec報(bào)導(dǎo),韓國(guó)科學(xué)技術(shù)院(KAIST)電機(jī)工程系教授 Kim Joung-ho(在韓國(guó)媒體中被譽(yù)為“HBM 之父”)表示,高帶寬閃存(High Bandwidth Flash,HBF)有望成為下一代 AI 時(shí)代的重要存儲(chǔ)技術(shù),將與高帶寬內(nèi)存(HBM)并行發(fā)展,共同推動(dòng)芯片大廠的業(yè)績(jī)成長(zhǎng)。
HBF 的設(shè)計(jì)概念與 HBM 相似,均通過硅通孔(TSV)技術(shù)將多層芯片堆疊連接。 差別在于HBM以DRAM為核心,而HBF則采用NAND Flash閃存進(jìn)行堆棧,具備“容量更大、成本更具優(yōu)勢(shì)”的特點(diǎn)。
Kim Joung-ho指出,雖然NAND Flash的速度不及DRAM,但容量往往高出10倍以上,若以數(shù)百層乃至數(shù)千層堆疊方式構(gòu)建,將能有效滿足AI模型對(duì)龐大儲(chǔ)存的需求,可望成為NAND Flash版本的HBM。
目前生成式 AI 模型正急速擴(kuò)張,單一模型的輸入 Token 已達(dá)百萬級(jí)別,需要處理TB 級(jí)數(shù)據(jù)。 在每秒數(shù)千次的讀寫過程中,若存儲(chǔ)帶寬不足,就會(huì)出現(xiàn)瓶頸,導(dǎo)致 ChatGPT、Google Gemini 等大型語言模型(LLM)的反應(yīng)速度明顯下降。
Kim Joung-ho 強(qiáng)調(diào),這種限制來自現(xiàn)行的馮諾依曼架構(gòu),由于 GPU 與內(nèi)存是分離設(shè)計(jì),數(shù)據(jù)傳輸帶寬決定了效能上限,“即便將 GPU 規(guī)模擴(kuò)大一倍,如果帶寬不足也毫無意義”。
他預(yù)測(cè),未來GPU將同時(shí)搭載HBM與HBF,形成互補(bǔ)架構(gòu):HBM做為高速快取,負(fù)責(zé)即時(shí)運(yùn)算數(shù)據(jù),而HBF則承擔(dān)大容量?jī)?chǔ)存,直接存放完整的AI模型。 這將有助于突破存儲(chǔ)瓶頸,使 GPU 能處理更龐大的生成式 AI,甚至涵蓋長(zhǎng)篇視頻等復(fù)雜內(nèi)容。 Kim Joung-ho 表示:“未來 AI 將不僅限于文字與圖像,而能生成如電影般的長(zhǎng)片,屆時(shí)所需的內(nèi)存容量將是現(xiàn)有的 1,000 倍以上?!?/p>
之前也有消息顯示,存儲(chǔ)芯片大廠Sandisk正在聯(lián)手SK海力士開發(fā)用于 AI 系統(tǒng)的HBF規(guī)范。HBF能夠以與DRAM型HBM相當(dāng)?shù)某杀竞蛶?,提供高達(dá)DRAM型HBM約8到16倍的容量。并且,與需要恒定功率來保存數(shù)據(jù)的 DRAM 不同,NAND 是非易失性的,因此能夠以更低的能耗實(shí)現(xiàn)持久存儲(chǔ)。
Sandisk 的目標(biāo)是在 2026 年下半年交付其 HBF 閃存的第一批樣品,首款集成該技術(shù)的 AI 推理硬件預(yù)計(jì)將于 2027 年初推出。