《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 人工智能 > 業(yè)界動態(tài) > 清華大學(xué)團(tuán)隊(duì)刷屏的芯片和論文,對AI意味著什么?

清華大學(xué)團(tuán)隊(duì)刷屏的芯片和論文,對AI意味著什么?

2023-11-09
作者: 李飛
來源:半導(dǎo)體行業(yè)觀察
關(guān)鍵詞: 芯片 清華大學(xué) AI

  早陣子,國內(nèi)清華大學(xué)研究團(tuán)隊(duì)發(fā)布了一篇論文,里面談及了一款領(lǐng)先的芯片和設(shè)計(jì)。這個新聞在朋友圈引起了廣泛討論。那么這是個什么芯片?對AI又意味著什么?讓我們在本文解讀一下。

  以下為文章正文:

  人工智能是目前半導(dǎo)體芯片行業(yè)最重要的市場驅(qū)動力之一,同時也是當(dāng)下最有潛力深刻改變整個人類社會的技術(shù)。當(dāng)前,最主流的人工智能算法加速芯片是GPU,但是GPU加速人工智能有著自己的瓶頸,就是能效比較低。GPU的功耗通常要幾百瓦,這就使得大規(guī)模部署人工智能充滿了挑戰(zhàn):一方面大規(guī)模數(shù)據(jù)中心需要確保散熱足夠好,不至于讓GPU過熱而無法工作;另一方面,GPU很高的功耗又為數(shù)據(jù)中心帶來了很高的供電成本和需求。

  GPU,以及其他絕大多數(shù)人工智能加速芯片,都屬于常規(guī)的數(shù)字邏輯的計(jì)算范式。使用數(shù)字邏輯計(jì)算存在幾個重要的局限性:

  首先,信號必須要做數(shù)字化,而很多人工智能任務(wù)處理的輸入(例如機(jī)器視覺任務(wù))實(shí)際上并非人工的數(shù)字信息而是物理信號。這樣的物理信號數(shù)字化就會帶來能量的浪費(fèi)。

  其次,在數(shù)字邏輯中,有一個全局的時鐘,而時鐘頻率則決定了整個系統(tǒng)的處理速度。數(shù)字邏輯的時鐘頻率往往決定于芯片工藝實(shí)現(xiàn)的邏輯門的速度(延遲),而并非由處理任務(wù)的復(fù)雜程度決定,因此這樣的數(shù)字時鐘事實(shí)上也限制了整體芯片處理任務(wù)能實(shí)現(xiàn)的速度。

  最后,數(shù)字邏輯的設(shè)計(jì)中,尤其是對于處理人工智能相關(guān)的任務(wù),通常都需要配合一個存儲單元(尤其是像GPU需要配合DRAM使用),這樣的數(shù)據(jù)存取和讀取事實(shí)上會消耗相當(dāng)大的能量。

  與傳統(tǒng)的數(shù)字邏輯計(jì)算范式相比,新模態(tài)計(jì)算則是使用了非常規(guī)的信號處理和計(jì)算方法(例如光學(xué)處理以及模擬信號處理),從而可以很大程度上避免數(shù)字邏輯計(jì)算中的幾大局限,并且有望為人工智能的高能效比計(jì)算帶來新的希望。

  10月底,來自中國清華大學(xué)的研究組在頂級期刊《自然》上發(fā)表了使用新模態(tài)計(jì)算加速人工智能的論文《All-analog photoelectronic chip for high-speed vision tasks》。在該論文中,清華大學(xué)的研究團(tuán)隊(duì)提出了使用光學(xué)和模擬計(jì)算來加速人工智能計(jì)算的技術(shù),即all-analog chip combining electronic and light computing (全模擬電子和光子計(jì)算芯片,ACCEL),并且實(shí)現(xiàn)了相當(dāng)高的計(jì)算性能和能效比(等效算力4600TOP/s,能效比74800TOP/s/W),相當(dāng)于Nvidia A100 GPU的3000倍以上。

 微信截圖_20231109093836.png

  ACCEL的結(jié)構(gòu)如下圖所示。

  微信截圖_20231109093857.png

  首先,如論文標(biāo)題所說的,ACCEL針對的是機(jī)器視覺任務(wù)(vision task),因此輸入是一個圖像。值得注意的是,這里的圖像并不是一個存儲于二進(jìn)制格式的圖像文件,而是一個確確實(shí)實(shí)的圖像物理信號(即光場信號)。我們會看到的是,整個論文中的芯片都是直接處理物理模擬信號,而不會做任何模擬-數(shù)字信號轉(zhuǎn)換,這里的輸入也因此是一個模擬物理信號。

  輸入圖像光場信號首先進(jìn)入光學(xué)處理部分,即optical analog computing,OAC。OAC的主要任務(wù)是把圖像信號進(jìn)行降維處理。例如,在ImageNet數(shù)據(jù)集上,圖像輸入是224x224,相當(dāng)于數(shù)據(jù)維度高達(dá)50000以上,因此首先需要進(jìn)行降維(和傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)的降采樣層是同一原理和目的)。OAC從物理上是利用光學(xué)衍射讓圖像中的不同像素之間互相交互,從而等價地實(shí)現(xiàn)一個矩陣相乘的過程,從實(shí)現(xiàn)上來說,OAC可以根據(jù)矩陣的權(quán)重而使用二氧化硅蝕刻出相應(yīng)的圖形來完成,換句話說OAC的實(shí)現(xiàn)是無需任何功耗的,僅僅就是把光透射過一層掩模版就完成了計(jì)算。在論文中,作者提到通過OAC可以實(shí)現(xiàn)高達(dá)98%的降維而不影響計(jì)算精度——換句話說OAC可以實(shí)現(xiàn)50倍的數(shù)據(jù)壓縮,因此這個無需功耗的OAC實(shí)際上在整體系統(tǒng)中起到了相當(dāng)重要的作用。

  光信號經(jīng)過OAC掩模版之后,照射到ACCEL芯片上的光電二極管陣列上(論文中稱為電子模擬計(jì)算electronic analog computing,EAC),因此光電二極管陣列中的每一個光電二極管都會根據(jù)OAC的輸出產(chǎn)生相應(yīng)的光電流。此外,這些光電二極管陣列中的每一個光電二極管的正極都通過開關(guān)連接到差分信號線的正極或者負(fù)極上(該連接可以根據(jù)存儲在SRAM中的內(nèi)容來配置),因此每一個光電二極管都會為差分線的正極或者負(fù)極放電。最后差分線的正極和負(fù)極經(jīng)過模擬比較器獲得最終的0或者1的輸出,同時也完成了模擬信號到數(shù)字信號的轉(zhuǎn)換。整個ACCEL芯片使用成熟的180nm工藝實(shí)現(xiàn),可以在約2ns的時間內(nèi)完成一次計(jì)算,而一次計(jì)算耗費(fèi)的能量為4.4nJ。

  微信截圖_20231109093912.png

  如果我們把OAC和EAC的部分結(jié)合到一起,事實(shí)上ACCEL從數(shù)學(xué)的角度是實(shí)現(xiàn)了一個等效的神經(jīng)網(wǎng)絡(luò),其中OAC是一個矩陣相乘運(yùn)算,而EAC則是實(shí)現(xiàn)了神經(jīng)網(wǎng)絡(luò)中的非線性激活部分。根據(jù)論文中的數(shù)據(jù),使用ACCEL可以在分類(MNIST,KMNIST,F(xiàn)ashion-MNIST)等機(jī)器視覺任務(wù)中實(shí)現(xiàn)和傳統(tǒng)數(shù)字卷積神經(jīng)網(wǎng)絡(luò)類似的精度,但是使用ACCEL可以在處理速度和處理能效比上實(shí)現(xiàn)幾個數(shù)量級的提升:這里的原因其實(shí)也很簡單,卷積神經(jīng)網(wǎng)絡(luò)使用傳統(tǒng)數(shù)字邏輯計(jì)算時,最耗費(fèi)計(jì)算時間和能量的矩陣計(jì)算在這里直接使用光學(xué)計(jì)算完成了,而光學(xué)計(jì)算耗費(fèi)的時間是0(光速),能量也是0;另一方面,ACCEL中決定任務(wù)處理速度的事實(shí)上是模擬電路部分,比較器的積分和開關(guān)時間決定了總體的任務(wù)處理時間。

  值得注意的是,目前的ACCEL芯片是一個小型的芯片(使用了32x32陣列)并且使用了20多年前的180nm工藝,主要用于概念驗(yàn)證。如果使用更先進(jìn)的工藝實(shí)現(xiàn)更大的陣列,則首先可以支持更大的神經(jīng)網(wǎng)絡(luò)以支持更復(fù)雜的任務(wù),其次可以實(shí)現(xiàn)更高的處理速度(模擬電路處理速度即使是使用28nm這樣的成熟工藝也會數(shù)倍于180nm)。因此,本次報(bào)道的ACCEL的性能數(shù)字還遠(yuǎn)遠(yuǎn)沒有達(dá)到該技術(shù)可能實(shí)現(xiàn)的上限。

  對于未來人工智能和芯片的潛在影響

  清華大學(xué)的ACCEL可謂是非常優(yōu)秀的科研工作,其實(shí)現(xiàn)的高性能也為未來應(yīng)用提供了新希望。我們看到,ACCEL可以實(shí)現(xiàn)非常高的處理速度和非常好的能效比;同時,該技術(shù)的局限性在于(1)由于使用光學(xué)計(jì)算,因此最適合機(jī)器視覺任務(wù),而對于目前最火熱的語言類模型則難以支持;(2)對于算法和算符的支持,主要對于機(jī)器視覺任務(wù)中經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)支持最好,對于Transformer等模型的支持還需要進(jìn)一步的研究。

  基于該研究的優(yōu)勢(計(jì)算速度和低能耗)和局限(對于算法類型的支持),我們認(rèn)為,ACCEL以及相關(guān)的研究對于未來人工智能最主要的影響可能在于對于一些特定的任務(wù)提供極致的性能,而不是取代通用的GPU。這事實(shí)上也和目前的領(lǐng)域?qū)S糜?jì)算(domain-specific computing)來提供更好的性能及能效比的思路一致。具體來說,以下領(lǐng)域有可能成為ACCEL的應(yīng)用場景:

  首先,是需要超低延遲的應(yīng)用場景,例如汽車或其他高速行駛的場景。在這樣的場景中,ACCEL搭配超高幀率的攝像頭(例如目前正在興起的DVS攝像頭芯片,峰值幀率可達(dá)1000fps以上),ACCEL的超低延遲可以滿足在超高幀率的兩幀之間完成人工智能算法的推理,從而滿足整體系統(tǒng)的需求。

  此外,ACCEL還可望在觸發(fā)式人工智能系統(tǒng)中得到應(yīng)用。這里的觸發(fā)式人工智能系統(tǒng)是指人工智能系統(tǒng)有多個模型組成,在大多數(shù)時候運(yùn)行常開(always-on)的部分,而其他更復(fù)雜的人工智能模型僅僅在常開的模塊發(fā)現(xiàn)有需要的時候才會觸發(fā)打開。由于ACCEL的延遲和能效比都非常優(yōu)秀,因此非常適合在這樣的觸發(fā)式人工智能中擔(dān)任常開的模組。

  未來如果ACCEL以及相關(guān)的研究需要進(jìn)入更廣泛的應(yīng)用,還需要研究人員進(jìn)一步努力以支持更復(fù)雜的算法和模型結(jié)構(gòu),但是我們認(rèn)為,前景是光明的,讓我們拭目以待。


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。