目前,有許多用于各種機(jī)器學(xué)習(xí)模型的硬件加速器,日前瑞薩電子已經(jīng)提出了一種基于SRAM的三進(jìn)制系統(tǒng)來加速卷積神經(jīng)網(wǎng)絡(luò)(CNN)計算,也就是通常所說的存算一體化。采用該加速器的瑞薩測試芯片實(shí)現(xiàn)了8.8 TOPS/W的功率效率,這是業(yè)界最高級別的功率效率。瑞薩加速器基于內(nèi)存處理(PIM)架構(gòu),這是一種越來越流行的AI技術(shù)方法,其中當(dāng)從該存儲器讀出數(shù)據(jù)時,在存儲器電路中執(zhí)行乘法和累加運(yùn)算。
機(jī)器學(xué)習(xí)的挑戰(zhàn)之一是圍繞輸入和輸出的數(shù)據(jù)以及計算中涉及的權(quán)重進(jìn)行優(yōu)化。瑞薩此次采用的是三進(jìn)制方式,通過使用兩個單比特存儲單元實(shí)現(xiàn)-1,0或1的數(shù)據(jù)結(jié)構(gòu)。

瑞薩的硬件可以利用存儲值為-1,0或1的三進(jìn)制存儲單元。
基本的三進(jìn)制存儲可以組合成多位解決方案,從而可以實(shí)現(xiàn)不同的精度,允許用戶優(yōu)化精度和功耗之間的平衡。

硬件可以將三進(jìn)制計算結(jié)合到多位操作中
傳統(tǒng)存儲器使用模數(shù)轉(zhuǎn)換器(ADC)讀取內(nèi)容。這是一種經(jīng)典的方法,但它需要空間用于ADC和電源。瑞薩將1位讀出放大器比較器與復(fù)制單元相結(jié)合,可以靈活地控制電流,從而開發(fā)出高精度的存儲器數(shù)據(jù)讀出電路。

當(dāng)檢測到MAC結(jié)果等于零的狀態(tài)時,“零檢測器”可以停止比較器的操作
該策略意思是:通過神經(jīng)網(wǎng)絡(luò)操作激活的節(jié)點(diǎn)(神經(jīng)元)的數(shù)量非常小,約為1%,可以通過停止未激活神經(jīng)元的電路,從而實(shí)現(xiàn)低功耗操作,同時顯著降低功耗。
由于制造過程中的工藝變化,導(dǎo)致SRAM結(jié)構(gòu)中位線電流值產(chǎn)生誤差,從而造成存儲器讀取數(shù)據(jù)時出現(xiàn)錯誤。為解決這個問題,瑞薩在芯片內(nèi)部覆蓋了多個SRAM計算電路模塊,由制造工藝變化最小的模塊執(zhí)行計算任務(wù)。由于激活節(jié)點(diǎn)只是所有節(jié)點(diǎn)中的一小部分,因此激活節(jié)點(diǎn)被有選擇地分配給制造過程變化最小的SRAM計算電路模塊執(zhí)行計算。從而將計算誤差降至幾乎可忽略的水平。

通過多個SRAM計算塊以解決由于工藝問題導(dǎo)致的計算誤差。
在VLSI會議上,瑞薩展示了內(nèi)存處理(PIM)架構(gòu)的芯片,該芯片采用12nm技術(shù),包含四個集群,每個集群均包含了PIM、邏輯以及傳統(tǒng)的SRAM存儲器。每個集群可以獨(dú)立運(yùn)行,因此,該系統(tǒng)一次可以管理多達(dá)四個CNN模型。該芯片最多可處理128個CNN層。PIM存儲量為4.74 Mb,SRAM存儲量為12.58 Mb。

瑞薩展示的具有四個cluster的三進(jìn)制PIM
瑞薩推出了以下三種技術(shù)。一是可執(zhí)行大規(guī)模CNN計算的三進(jìn)制(-1,0,1)SRAM結(jié)構(gòu)PIM技術(shù)。二是與比較器配合使用的SRAM電路,可在低功耗下讀取存儲器數(shù)據(jù)。三是能夠防止在制造過程中因工藝變化而導(dǎo)致的計算錯誤。將以上技術(shù)結(jié)合,既能縮短深度學(xué)習(xí)處理中的存儲器訪問時間,又可降低乘法和累加運(yùn)算所需的功率。因此,當(dāng)通過手寫字符識別測試(MNIST)進(jìn)行評估時,新加速器在保持99%以上準(zhǔn)確率的同時,達(dá)到了業(yè)界最高能效等級。
盡管該芯片目前只是原型階段,但它的確證實(shí)了通過新架構(gòu),可在降低功耗的同時顯著提高產(chǎn)品性能。
