《電子技術應用》
您所在的位置:首頁 > 模拟设计 > 业界动态 > 瑞萨电子展示三进制存储器的存算一体化AI加速器

瑞萨电子展示三进制存储器的存算一体化AI加速器

2019-06-27

  目前,有許多用于各種機器學習模型的硬件加速器,日前瑞薩電子已經提出了一種基于SRAM的三進制系統(tǒng)來加速卷積神經網絡(CNN)計算,也就是通常所說的存算一體化。采用該加速器的瑞薩測試芯片實現了8.8 TOPS/W的功率效率,這是業(yè)界最高級別的功率效率。瑞薩加速器基于內存處理(PIM)架構,這是一種越來越流行的AI技術方法,其中當從該存儲器讀出數據時,在存儲器電路中執(zhí)行乘法和累加運算。

  機器學習的挑戰(zhàn)之一是圍繞輸入和輸出的數據以及計算中涉及的權重進行優(yōu)化。瑞薩此次采用的是三進制方式,通過使用兩個單比特存儲單元實現-1,0或1的數據結構。

  

1561539093499978.png

  瑞薩的硬件可以利用存儲值為-1,0或1的三進制存儲單元。

  基本的三進制存儲可以組合成多位解決方案,從而可以實現不同的精度,允許用戶優(yōu)化精度和功耗之間的平衡。

  

2.png

  硬件可以將三進制計算結合到多位操作中

  傳統(tǒng)存儲器使用模數轉換器(ADC)讀取內容。這是一種經典的方法,但它需要空間用于ADC和電源。瑞薩將1位讀出放大器比較器與復制單元相結合,可以靈活地控制電流,從而開發(fā)出高精度的存儲器數據讀出電路。

  

3.png

  當檢測到MAC結果等于零的狀態(tài)時,“零檢測器”可以停止比較器的操作

  該策略意思是:通過神經網絡操作激活的節(jié)點(神經元)的數量非常小,約為1%,可以通過停止未激活神經元的電路,從而實現低功耗操作,同時顯著降低功耗。

  由于制造過程中的工藝變化,導致SRAM結構中位線電流值產生誤差,從而造成存儲器讀取數據時出現錯誤。為解決這個問題,瑞薩在芯片內部覆蓋了多個SRAM計算電路模塊,由制造工藝變化最小的模塊執(zhí)行計算任務。由于激活節(jié)點只是所有節(jié)點中的一小部分,因此激活節(jié)點被有選擇地分配給制造過程變化最小的SRAM計算電路模塊執(zhí)行計算。從而將計算誤差降至幾乎可忽略的水平。

  

4.png

  通過多個SRAM計算塊以解決由于工藝問題導致的計算誤差。

  在VLSI會議上,瑞薩展示了內存處理(PIM)架構的芯片,該芯片采用12nm技術,包含四個集群,每個集群均包含了PIM、邏輯以及傳統(tǒng)的SRAM存儲器。每個集群可以獨立運行,因此,該系統(tǒng)一次可以管理多達四個CNN模型。該芯片最多可處理128個CNN層。PIM存儲量為4.74 Mb,SRAM存儲量為12.58 Mb。

  

5.png

  瑞薩展示的具有四個cluster的三進制PIM

  瑞薩推出了以下三種技術。一是可執(zhí)行大規(guī)模CNN計算的三進制(-1,0,1)SRAM結構PIM技術。二是與比較器配合使用的SRAM電路,可在低功耗下讀取存儲器數據。三是能夠防止在制造過程中因工藝變化而導致的計算錯誤。將以上技術結合,既能縮短深度學習處理中的存儲器訪問時間,又可降低乘法和累加運算所需的功率。因此,當通過手寫字符識別測試(MNIST)進行評估時,新加速器在保持99%以上準確率的同時,達到了業(yè)界最高能效等級。

  盡管該芯片目前只是原型階段,但它的確證實了通過新架構,可在降低功耗的同時顯著提高產品性能。


本站內容除特別聲明的原創(chuàng)文章之外,轉載內容只為傳遞更多信息,并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創(chuàng)文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經濟損失。聯系電話:010-82306118;郵箱:aet@chinaaet.com。

相關內容