最近,內(nèi)存內(nèi)計(jì)算成了熱門關(guān)鍵詞。今年早些時(shí)候,IBM發(fā)布了基于相變內(nèi)存(PCM)的內(nèi)存內(nèi)計(jì)算,在此之后基于Flash內(nèi)存內(nèi)計(jì)算的初創(chuàng)公司Mythic獲得了來自軟銀領(lǐng)投的高達(dá)4000萬美元的B輪融資,而在中國,初創(chuàng)公司知存科技也在做內(nèi)存內(nèi)計(jì)算的嘗試。本文將對(duì)內(nèi)存內(nèi)計(jì)算的原理以及其市場(chǎng)前景做一些分析。
馮諾伊曼架構(gòu)之痛
馮諾伊曼架構(gòu)是計(jì)算機(jī)的經(jīng)典架構(gòu),同時(shí)也是目前計(jì)算機(jī)以及處理器芯片的主流架構(gòu)。在馮諾伊曼架構(gòu)中,計(jì)算/處理單元與內(nèi)存是兩個(gè)完全分離的單元:計(jì)算/處理單元根據(jù)指令從內(nèi)存中讀取數(shù)據(jù),在計(jì)算/處理單元中完成計(jì)算/處理,并存回內(nèi)存。
馮諾伊曼架構(gòu)是經(jīng)典的計(jì)算機(jī)體系架構(gòu),也構(gòu)成了過去近一個(gè)世紀(jì)的計(jì)算機(jī)科學(xué)的基礎(chǔ)。然而,馮諾伊曼架構(gòu)在構(gòu)建之初只是一個(gè)理論模型,在建立該模型時(shí)做了一個(gè)合理的假設(shè)就是處理器和內(nèi)存的速度很接近。當(dāng)然,馮諾伊曼在當(dāng)時(shí)沒有辦法預(yù)測(cè)到未來集成電路發(fā)展對(duì)于計(jì)算機(jī)造成的深遠(yuǎn)變化。計(jì)算機(jī)處理器的性能隨著摩爾定律高速發(fā)展,其性能隨著晶體管特征尺寸的縮小而直接提升,因此在過去數(shù)十年中其性能提升可謂是天翻地覆,現(xiàn)在一顆手機(jī)中處理器的性能已經(jīng)比30年前超級(jí)計(jì)算機(jī)中的處理器還要強(qiáng)。另一方面,計(jì)算機(jī)的主要內(nèi)存使用的是DRAM方案,DRAM是基于電容充放電實(shí)現(xiàn)的高密度存儲(chǔ)方案,其性能(速度)取決于兩方面,即內(nèi)存中電容充放電的讀?。瘜懭胨俣纫约癉RAM與處理器之間的接口帶寬。DRAM電容充放電的讀取/寫入速度隨著摩爾定律有一定提升,但是速度并不如處理器這么快,另一方面DRAM與處理器之間的接口屬于混合信號(hào)電路,其帶寬提升速度主要是受到PCB板上走線的信號(hào)完整性所限制,因此從摩爾定律晶體管尺寸縮小所獲得的益處并不大。這也造成了DRAM的性能提升速度遠(yuǎn)遠(yuǎn)慢于處理器速度,目前DRAM的性能已經(jīng)成為了整體計(jì)算機(jī)性能的一個(gè)重要瓶頸,即所謂阻礙性能提升的“內(nèi)存墻”。
除了性能之外,內(nèi)存對(duì)于能效比的限制也成了傳統(tǒng)馮諾伊曼體系計(jì)算機(jī)的一個(gè)瓶頸。這個(gè)瓶頸在人工智能應(yīng)用快速普及的今天尤其顯著。這一代人工智能基于的是神經(jīng)網(wǎng)絡(luò)模型,而神經(jīng)網(wǎng)絡(luò)模型的一個(gè)重要特點(diǎn)就是計(jì)算量大,而且計(jì)算過程中涉及到的數(shù)據(jù)量也很大,使用傳統(tǒng)馮諾伊曼架構(gòu)會(huì)需要頻繁讀寫內(nèi)存。目前的DRAM一次讀寫32bit數(shù)據(jù)消耗的能量比起32bit數(shù)據(jù)計(jì)算消耗的能量要大兩到三個(gè)數(shù)量級(jí),因此成為了總體計(jì)算設(shè)備中的能效比瓶頸。如果想讓人工智能應(yīng)用也走入對(duì)于能效比有嚴(yán)格要求的移動(dòng)端和嵌入式設(shè)備以實(shí)現(xiàn)“人工智能無處不在”,那么內(nèi)存訪問瓶頸就是一個(gè)不得不解決的問題。
內(nèi)存內(nèi)計(jì)算的原理
為了解決“內(nèi)存墻”問題,一個(gè)最近得到越來越多關(guān)注的思路就是做內(nèi)存內(nèi)計(jì)算。2018年的國際固態(tài)半導(dǎo)體會(huì)議(ISSCC,全球最頂尖的芯片設(shè)計(jì)會(huì)議,發(fā)表最領(lǐng)先的芯片設(shè)計(jì)成果,稱為“芯片界的奧林匹克”)有專門一個(gè)議程,其中的論文全部討論內(nèi)存內(nèi)計(jì)算;到了2019年,根據(jù)最新發(fā)布的ISSCC 2019預(yù)覽,也有5篇關(guān)于內(nèi)存內(nèi)計(jì)算的論文,不過分散在不同的議程中。內(nèi)存計(jì)算的主要改進(jìn)就是把計(jì)算嵌入到內(nèi)存里面去,這樣內(nèi)存就不僅僅是一個(gè)存儲(chǔ)器,還是一個(gè)計(jì)算器。這樣一來,在存儲(chǔ)/讀取數(shù)據(jù)的時(shí)候就同時(shí)完成了運(yùn)算,因此大大減少了計(jì)算過程中的數(shù)據(jù)存取的耗費(fèi)。
內(nèi)存內(nèi)計(jì)算現(xiàn)在還處于探索階段,有很多種具體實(shí)現(xiàn)方式。舉一個(gè)ISSCC 2018年論文中的例子。這個(gè)內(nèi)存內(nèi)計(jì)算的電路由MIT的研究組提出,主要用途是加速卷積計(jì)算。我們知道,卷積計(jì)算可以展開成帶權(quán)重的累加計(jì)算,從另一個(gè)角度來看其實(shí)就是多個(gè)數(shù)的加權(quán)平均。因此,該電路實(shí)現(xiàn)的就是電荷域的加權(quán)平均,其中權(quán)重(1-bit)儲(chǔ)存在SRAM中,輸入數(shù)據(jù)(7-bit數(shù)字信號(hào))經(jīng)過DAC成為模擬信號(hào),而根據(jù)SRAM中的對(duì)應(yīng)權(quán)重,DAC的輸出在模擬域被乘以1或者-1,然后在模擬域做平均,最后由ADC讀出成為數(shù)字信號(hào)。具體來說,由于乘法的權(quán)重是1-bit(1或-1),因此可以簡單地用一個(gè)開關(guān)加差分線來控制,如果是權(quán)重是1就讓差分線一邊的電容充電到DAC輸出值,反之則讓差分線另一邊充到這個(gè)值。平均也很簡單,幾條差分線簡單地連到一起就是在電荷域做了平均了。
當(dāng)然,內(nèi)存內(nèi)計(jì)算的電路并不止于一種,其計(jì)算的精度也并不限于1-bit計(jì)算。但是,從以上的例子我們可以看出內(nèi)存內(nèi)計(jì)算的核心思想,一般是把計(jì)算都轉(zhuǎn)化為帶權(quán)重加和計(jì)算,把權(quán)重存在內(nèi)存單元中,然后在內(nèi)存的核心電路(如讀出電路)上做修改,從而讓讀出的過程就是輸入數(shù)據(jù)和權(quán)重在模擬域做點(diǎn)乘的過程,相當(dāng)于實(shí)現(xiàn)了輸入的帶權(quán)重累加,即卷積。因?yàn)榫矸e是人工智能以及其他計(jì)算的核心組成部分,因此內(nèi)存內(nèi)計(jì)算可以被廣泛使用在這類應(yīng)用中。內(nèi)存內(nèi)計(jì)算會(huì)使用模擬電路做計(jì)算,這也是它和傳統(tǒng)使用數(shù)字邏輯做計(jì)算的不同之處。
內(nèi)存內(nèi)計(jì)算的兩大推動(dòng)力以及市場(chǎng)前景
人們十幾年之前就認(rèn)識(shí)到了“內(nèi)存墻”的問題,但是為什么內(nèi)存內(nèi)計(jì)算在這兩年才火起來呢?我們認(rèn)為,最近內(nèi)存內(nèi)計(jì)算興起的背后有兩大動(dòng)力。
第一個(gè)動(dòng)力是基于神經(jīng)網(wǎng)絡(luò)的人工智能的興起,尤其是人工智能希望能普及到移動(dòng)端和嵌入式設(shè)備中,這樣能效比很高的內(nèi)存內(nèi)計(jì)算就獲得了關(guān)注。另外,神經(jīng)網(wǎng)絡(luò)的一個(gè)特點(diǎn)是對(duì)于計(jì)算精度的誤差擁有較高的容忍度,因此內(nèi)存內(nèi)計(jì)算的模擬計(jì)算中引入的誤差往往可以被神經(jīng)網(wǎng)絡(luò)所接受,也可以說內(nèi)存內(nèi)計(jì)算和人工智能(尤其是嵌入式人工智能)可謂是天作之合。
第二個(gè)動(dòng)力是新的存儲(chǔ)器。對(duì)于內(nèi)存內(nèi)計(jì)算來說,存儲(chǔ)器的特性往往決定了內(nèi)存內(nèi)計(jì)算的效率,因此當(dāng)帶有新特性的存儲(chǔ)器出現(xiàn)時(shí),往往會(huì)帶動(dòng)內(nèi)存內(nèi)計(jì)算的發(fā)展。舉例來說,最近很火的ReRAM使用電阻調(diào)制來實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ),因此每一位的讀出使用的是電流信號(hào)而非傳統(tǒng)的電荷信號(hào)。這樣一來,由于電流做累加運(yùn)算是非常自然而然的操作(把幾路電流直接組合在一起就實(shí)現(xiàn)了電流的加和,甚至無需額外電路),因此ReRAM非常適合內(nèi)存內(nèi)計(jì)算,也確實(shí)有不少研究組已經(jīng)在做相關(guān)的研究并發(fā)表了論文。從存儲(chǔ)器推廣的角度,新的存儲(chǔ)器也愿意搭上人工智能的風(fēng)潮,因此新存儲(chǔ)器廠商也樂于看到有人做基于自家存儲(chǔ)器的內(nèi)存內(nèi)計(jì)算加速人工智能,也會(huì)幫助一起推廣內(nèi)存內(nèi)計(jì)算。
因?yàn)閮?nèi)存內(nèi)計(jì)算的兩大推力是人工智能和新存儲(chǔ)器,因此我們看到的新存儲(chǔ)器產(chǎn)品在人工智能和新存儲(chǔ)器這兩個(gè)關(guān)鍵詞上至少會(huì)有一個(gè),也有不少內(nèi)存內(nèi)計(jì)算項(xiàng)目會(huì)同時(shí)橫跨兩個(gè)關(guān)鍵詞。
內(nèi)存內(nèi)計(jì)算的芯片產(chǎn)品預(yù)計(jì)會(huì)有兩種形式。第一種形式是作為一種帶有計(jì)算功能的存儲(chǔ)器IP出售。這樣的帶內(nèi)存內(nèi)計(jì)算功能的存儲(chǔ)器IP可能是傳統(tǒng)的SRAM,也可能是eFlash,ReRAM,MRAM,PCM這樣的新存儲(chǔ)器。這樣的存儲(chǔ)器IP往往是一家做內(nèi)存內(nèi)計(jì)算的公司和一家做存儲(chǔ)器的公司(如TSMC或SMIC)聯(lián)合做推廣。
第二種形式是直接做基于內(nèi)存內(nèi)計(jì)算的人工智能加速芯片。例如Mythic就計(jì)劃流片做基于Flash存儲(chǔ)器的PCIe加速卡,通過PCIe接口和主CPU做通信,Mythic的內(nèi)存芯片上存儲(chǔ)了權(quán)重?cái)?shù)據(jù),這樣當(dāng)數(shù)據(jù)送到Mythic的IPU上后就可以直接讀出計(jì)算結(jié)果。這樣一來就省去了權(quán)重?cái)?shù)據(jù)的讀取開銷。
那么內(nèi)存內(nèi)計(jì)算對(duì)于人工智能芯片市場(chǎng)會(huì)有什么影響呢?首先,我們看到內(nèi)存內(nèi)計(jì)算本質(zhì)上會(huì)使用模擬計(jì)算,因此其計(jì)算精度會(huì)受到模擬計(jì)算低信噪比的影響,通常精度上限在8bit左右,而且只能做定點(diǎn)數(shù)計(jì)算,難以做浮點(diǎn)數(shù)計(jì)算。所以,需要高計(jì)算精度的人工智能訓(xùn)練市場(chǎng)并不適合內(nèi)存內(nèi)計(jì)算,換句話說內(nèi)存內(nèi)計(jì)算的主戰(zhàn)場(chǎng)是在人工智能推理市場(chǎng)。即使在人工智能推理市場(chǎng),由于精度的限制,內(nèi)存內(nèi)計(jì)算對(duì)于精度要求較高的邊緣服務(wù)器計(jì)算等市場(chǎng)也并不適合,而更適合嵌入式人工智能等對(duì)于能效比有高要求而對(duì)于精確度有一定容忍的市場(chǎng)。此外,內(nèi)存內(nèi)計(jì)算其實(shí)最適合本來就需要大存儲(chǔ)器的場(chǎng)合。舉例來說,F(xiàn)lash在IoT等場(chǎng)景中本來就一定需要,那么如果能讓這塊Flash加上內(nèi)存內(nèi)計(jì)算的特性就相當(dāng)合適,而在那些本來存儲(chǔ)器并不是非常重要的場(chǎng)合,為了引入內(nèi)存內(nèi)計(jì)算而加上一塊大內(nèi)存就未必合適?;谶@樣的分析,我們認(rèn)為內(nèi)存內(nèi)計(jì)算有望成為未來嵌入式人工智能(如智能IoT)的重要組成部分。
結(jié)語
隨著人工智能和新存儲(chǔ)器的興起,內(nèi)存內(nèi)計(jì)算也成為了新的熱點(diǎn)。內(nèi)存內(nèi)計(jì)算利用存儲(chǔ)器的獨(dú)特特性,結(jié)合模擬計(jì)算直接在存儲(chǔ)器中完成計(jì)算,從而大大減少人工智能計(jì)算中的內(nèi)存讀寫操作。由于內(nèi)存內(nèi)計(jì)算的精度受到模擬計(jì)算的限制,因此它最適合追求能效比且能接受一定精確度損失的嵌入式人工智能應(yīng)用。