近日,阿里達摩院近日成功研發(fā)新型架構(gòu)芯片。該芯片是全球首款基于DRAM的3D鍵合堆疊存算一體AI芯片,可突破馮·諾依曼架構(gòu)的性能瓶頸,滿足人工智能等場景對高帶寬、高容量內(nèi)存和極致算力的需求。在特定AI場景中,該芯片性能提升10倍以上,能效比提升高達300倍。
所謂“存算一體AI芯片”,是指將傳統(tǒng)以計算為中心的架構(gòu)轉(zhuǎn)變?yōu)橐詳?shù)據(jù)為中心的架構(gòu),其直接利用存儲器進行數(shù)據(jù)處理,從而把數(shù)據(jù)存儲與計算融合在同一芯片中,極大提高計算并行度與能量效率,特別適用于深度學習神經(jīng)網(wǎng)絡(luò)領(lǐng)域,如可穿戴設(shè)備、移動設(shè)備、智能家居等場景。
這一技術(shù)最早可追溯至20世紀60年代,斯坦福研究所的Kautz等人于1969年提出了存算一體計算機概念,后續(xù)研究主要圍繞芯片電路、計算架構(gòu)、操作系統(tǒng)、系統(tǒng)應(yīng)用等層面展開,如加州大學伯克利分校Patterson等人成功把處理器集成在DRAM內(nèi)存芯片當中,實現(xiàn)智能存算一體的計算架構(gòu)。但受限于芯片設(shè)計復(fù)雜度與制造成本問題,以及缺少大數(shù)據(jù)應(yīng)用驅(qū)動,早期的存算一體僅停留在研究階段,并未得到實際應(yīng)用。
此次阿里達摩院研發(fā)的存算一體芯片集成了多個創(chuàng)新型技術(shù),是全球首款使用混合鍵合3D堆疊技術(shù)實現(xiàn)存算一體的芯片。該芯片內(nèi)存單元采用異質(zhì)集成嵌入式DRAM(SeDRAM),擁有超大帶寬、超大容量等特點;計算單元方面,達摩院研發(fā)設(shè)計了流式的定制化加速器架構(gòu),對推薦系統(tǒng)進行“端到端”的加速,包括匹配、粗排序、神經(jīng)網(wǎng)絡(luò)計算、細排序等任務(wù)。
得益于整體架構(gòu)的創(chuàng)新,達摩院存算一體芯片同時實現(xiàn)了高性能和低系統(tǒng)功耗。在實際推薦系統(tǒng)應(yīng)用中,相比傳統(tǒng)CPU計算系統(tǒng),存算一體芯片的性能提升10倍以上,能效提升超過300倍。該技術(shù)的研究成果已被芯片領(lǐng)域頂級會議ISSCC 2022收錄,未來可應(yīng)用于VR/AR、無人駕駛、天文數(shù)據(jù)計算、遙感影像數(shù)據(jù)分析等場景。
國內(nèi)外研究進展如何?
近年來,隨著物聯(lián)網(wǎng)、人工智能等應(yīng)用領(lǐng)域的興起,技術(shù)得到國內(nèi)外學術(shù)界與產(chǎn)業(yè)界的廣泛研究與應(yīng)用。2016年,美國加州大學圣塔芭芭拉分校(UCSB)的謝源教授團隊提出利用RRAM構(gòu)建基于存算一體架構(gòu)的深度學習神經(jīng)網(wǎng)絡(luò)(PRIME),受到業(yè)界的廣泛關(guān)注。測試結(jié)果表明,與基于馮·諾依曼計算架構(gòu)的傳統(tǒng)方案相比,PRIME可以實現(xiàn)功耗降低約20倍、速度提高約50倍。該方案可以高效地實現(xiàn)向量-矩陣乘法運算,在深度學習神經(jīng)網(wǎng)絡(luò)加速器領(lǐng)域具有廣闊的應(yīng)用前景。此外,杜克大學、普渡大學、斯坦福大學、馬薩諸塞大學、新加坡南洋理工大學、惠普、英特爾、鎂光等國際知名大學及企業(yè)均開展了相關(guān)研究工作,并發(fā)布了測試芯片原型。
我國在這方面的研究也取得一系列成果,如中科院微電子所劉明教授團隊、北京大學黃如教授與康晉鋒教授團隊、清華大學楊華中教授與吳華強教授團隊、中科院上海微系統(tǒng)所宋志棠教授團隊、華中科技大學繆向水教授團隊等,相繼發(fā)布相關(guān)器件和芯片原型,并通過圖像/語音識別等應(yīng)用進行了測試驗證。
在當前摩爾定律逐漸放緩的背景下,存算一體成為解決計算機性能瓶頸的關(guān)鍵技術(shù)。