一款理想的神經(jīng)網(wǎng)絡芯片是什么樣的?按照工程師的說法,最重要的是在芯片本身上擁有大量的存儲空間。這是因為數(shù)據(jù)傳輸(從主內(nèi)存到處理器芯片)通常消耗最多的能量,并且會產(chǎn)生大部分的系統(tǒng)滯后,即使與AI計算本身相比也是如此。
有鑒于此,Cerebras Systems通過制造一臺幾乎完全由一個包含18 GB內(nèi)存的大型芯片組成的計算機,解決了這些問題(統(tǒng)稱為內(nèi)存墻)。
但是法國,硅谷和新加坡的研究人員提出了另一種方法。
一家稱為Illusion的公司使用在硅邏輯之上構建的3D堆棧中使用由電阻性RAM存儲器構建的處理器來執(zhí)行相關操作,因此花費很少的精力或時間來獲取數(shù)據(jù)。
僅憑其本身,還不夠,因為神經(jīng)網(wǎng)絡的規(guī)模越來越大,無法容納在一個芯片中。因此,該方案還需要多個此類混合處理器以及一種算法,該算法既可以智能地對處理器之間的網(wǎng)絡進行分割,還可以知道何時在閑置時迅速關閉處理器。
在測試中,八芯片版本的Illusion的能耗和延遲約為“理想”處理器的3-4%,該處理器在一塊芯片上具有所有需要的內(nèi)存和處理能力。
該研究團隊(其中包括來自法國CEA-Leti研究實驗室,F(xiàn)acebook,新加坡南洋理工大學,圣何塞州立大學和斯坦福大學的貢獻)受到了神經(jīng)網(wǎng)絡規(guī)模不斷擴大這一事實的推動。
負責這項研究的斯坦福大學電氣工程和計算機科學教授Subhasish Mitra說:“從某種意義上講,這種理想的芯片永遠無法使用,因為它是一個不斷發(fā)展的目標?!?他說:“神經(jīng)網(wǎng)絡變得越來越快,其速度超過了摩爾定律。”
因此,他們設法設計一種系統(tǒng),使它實際上是由多個混合處理器組成,它也會產(chǎn)生一個帶有大量片上存儲器的單個處理器的錯覺(illusion),因此他們將其命名為為項目名)。這樣,Illusin就可以輕松擴展以適應不斷增長的神經(jīng)網(wǎng)絡。
Mishra解釋說,這樣的系統(tǒng)需要做到三件事:
首先是芯片上的大量內(nèi)存,可以快速訪問而幾乎不消耗能量。這就是集成3D的RRAM發(fā)揮功效的地方。他們選擇了RRAM,“因為它是密集的,3D集成的,并且可以在掉電狀態(tài)下快速訪問,并且因為它在斷電時不會丟失數(shù)據(jù), ” 斯坦福大學電氣工程學教授,該項目的合作者Philip Wong說。
但是RRAM確實有一個缺點。像Flash存儲器一樣,它被覆蓋過多次后就會損耗。在Flash中,軟件會跟蹤每個存儲單元塊發(fā)生了多少次覆蓋,并試圖保持該數(shù)量,即使在芯片中的所有單元中也是如此。斯坦福大學理論計算機科學家 Mary Wootters 領導團隊為RRAM發(fā)明了類似的東西。結果稱為Distributed Endurer,這增加了確保寫入時的磨損甚至跨越多個芯片的負擔。
即使使用Endurer混合RRAM和處理器芯片,但強大的神經(jīng)網(wǎng)絡(例如當今使用的自然語言處理器)仍然太大,讓我們無法將其容納在一個芯片中。然而使用多個混合芯片意味著在它們之間傳遞消息,消耗能量并浪費時間。
Illusion團隊的解決方案是其技術的第二部分,其解決方案是以使消息傳遞最小化的方式來切割神經(jīng)網(wǎng)絡。神經(jīng)網(wǎng)絡本質(zhì)上是一組計算發(fā)生的節(jié)點以及連接它們的邊。每個網(wǎng)絡將具有某些節(jié)點或節(jié)點的整個層,它們具有大量的連接。
但是網(wǎng)絡中也將存在阻塞點,即在節(jié)點之間必須傳遞少量消息的地方。在這些阻塞點上劃分大型神經(jīng)網(wǎng)絡,并將每個部分映射到單獨的芯片上,可確保從一個芯片到另一個芯片的數(shù)據(jù)傳輸量最少。Mitra說,Illusion映射算法“自動識別切割神經(jīng)網(wǎng)絡的理想位置,以最小化這些消息。”
但是像這樣切割的東西有其自身的后果。
不可避免地,一種芯片會先于另一種芯片來完成其業(yè)務,這會拖延系統(tǒng)并浪費功耗。其他嘗試運行超大型神經(jīng)網(wǎng)絡的多芯片系統(tǒng),則以使所有芯片持續(xù)忙碌的方式來劃分網(wǎng)絡,但這是以在它們之間傳輸更多數(shù)據(jù)為代價的。
在第三項創(chuàng)新中,Illusion團隊決定設計混合處理器及其控制算法,以便可以快速關閉和打開芯片。因此,當芯片等待工作時,它不會消耗任何功耗。
Mishra說,CEA-Leti的3D RRAM技術是制造3D SoC的關鍵,該SoC可以在幾個時鐘周期內(nèi)完全關閉并重新啟動而不會丟失數(shù)據(jù)。
該團隊構建了八芯片版本的Illusion,并在三個深度神經(jīng)網(wǎng)絡上進行了測試。這些網(wǎng)絡遠不及當前正在計算機系統(tǒng)運行的網(wǎng)絡的規(guī)模,因為每個Illusion原型僅為神經(jīng)網(wǎng)絡數(shù)據(jù)保留了4 KB的RRAM。他們測試過的“理想芯片”實際上是一個模仿了完整神經(jīng)網(wǎng)絡執(zhí)行的illusion 芯片。
8片幻覺系統(tǒng)能夠在理想芯片能耗的3.5%和2.5%的執(zhí)行時間內(nèi)運行神經(jīng)網(wǎng)絡。Mitra指出,該系統(tǒng)可以很好地擴展。有4 GB RRAM的64芯片illusion 方案的仿真也接近理想。
“我們已經(jīng)展開了新的更強大的原型設計”,斯坦福大學的研究生Robert Radway說。他們也將其發(fā)表在本周的自然電子上。與原型相比,下一代芯片將具有更大數(shù)量級的內(nèi)存和計算能力。雖然第一代經(jīng)過了推理的測試,但下一代將用于訓練它們,這是一項艱巨的任務。
“總的來說,我們認為illusion 對未來技術具有深遠的影響,” Radway說。“它為技術創(chuàng)新開辟了廣闊的設計空間,并為未來的系統(tǒng)創(chuàng)造了新的擴展途徑?!?/p>