《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 人工智能 > 業(yè)界動(dòng)態(tài) > 清微智能可重構(gòu)架構(gòu)的進(jìn)擊之路

清微智能可重構(gòu)架構(gòu)的進(jìn)擊之路

2021-02-02
來(lái)源:半導(dǎo)體行業(yè)觀察

  在與清微智能CEO王博交流的過(guò)程中,他一再向筆者強(qiáng)調(diào):“清微智能芯片的最大特點(diǎn)就在于其基于粗粒度可重構(gòu)架構(gòu)設(shè)計(jì)的芯片,這對(duì)于AI算法在當(dāng)前和未來(lái)還將持續(xù)演進(jìn)的現(xiàn)狀,是非常之有意義的?!?br/>

  王博進(jìn)一步指出,所謂的粗粒度可重構(gòu)計(jì)算(Coarse-grained Reconfigurable Architecture CGRA),是一種全新的芯片架構(gòu)技術(shù),可根據(jù)算法和應(yīng)用的不同靈活配置硬件資源,執(zhí)行不同的任務(wù),同時(shí)具備通用芯片的靈活性和專(zhuān)用集成電路的高效性。據(jù)2015年國(guó)際半導(dǎo)體技術(shù)發(fā)展路線(xiàn)圖(ITRS)的預(yù)測(cè),CGRA是未來(lái)最有發(fā)展前途的新興計(jì)算架構(gòu)之一。而成立于2018的清微智能也在短短幾年間發(fā)展成為這個(gè)領(lǐng)域扛大旗的企業(yè)之一的。

  之所以能達(dá)成這樣的成就,按照王博介紹,這主要得益于公司的初創(chuàng)團(tuán)隊(duì)過(guò)去多年在這個(gè)領(lǐng)域的研究。

  源自清華大學(xué),不同于FPGA的可重構(gòu)

  其實(shí)可重構(gòu)計(jì)算并不是什么新鮮事物。

  據(jù)維基百科,早在上世紀(jì)六十年代,就有專(zhuān)家提出。但受限于當(dāng)時(shí)的技術(shù)水平,可重構(gòu)在當(dāng)時(shí)并不能實(shí)現(xiàn),但這種思路一直被行業(yè)所銘記,而上世紀(jì)八十年代面世的FPGA可算得上是“可重構(gòu)”概念的產(chǎn)物。

  踏入最近十幾年,科學(xué)技術(shù)快速發(fā)展,新興應(yīng)用層出不窮,算法也日新月異。與此同時(shí),高性能芯片的研發(fā)成本與日俱增,這就讓產(chǎn)學(xué)研都加倍重視相對(duì)靈活的可重構(gòu)架構(gòu),尤其是進(jìn)入21世紀(jì)第二個(gè)十年,人工智能的快速興起,吸引了全球?qū)芍貥?gòu)的高度關(guān)注。例如美國(guó)DARPA在2018年啟動(dòng)的“電子復(fù)興計(jì)劃”(ERI)中就提到要研發(fā)具有軟件和硬件雙編程能力。

  作為對(duì)比,國(guó)內(nèi)頂級(jí)學(xué)府清華大學(xué)也早在2006年就成立了可重構(gòu)計(jì)算實(shí)驗(yàn)室,在魏少軍教授和尹首一教授的帶領(lǐng)下開(kāi)啟了中國(guó)可重構(gòu)芯片的研發(fā)歷程,并在此過(guò)程中取得了耀眼的成績(jī),這比美國(guó)足足早了十幾年。

  相關(guān)資料也顯示,該團(tuán)隊(duì)先后在2016年和2017年分別推出了Thinker-I、Thinker-Ⅱ及Thinker-S等基于CGRA結(jié)構(gòu)的加速器芯片。據(jù)筆者了解,清華大學(xué)團(tuán)隊(duì)所使用的CGRA架構(gòu)是一種無(wú)指令驅(qū)動(dòng)的可重構(gòu)計(jì)算架構(gòu),由數(shù)據(jù)流驅(qū)動(dòng),面向異構(gòu)的空域計(jì)算,將軟件通過(guò)不同的管道輸送到硬件中來(lái)執(zhí)行功能,能實(shí)時(shí)地根據(jù)算法和產(chǎn)品的需求改變硬件資源,從而以更高的資源利用率和數(shù)據(jù)復(fù)用率去計(jì)算特殊需求,在合理分配和使用算力的同時(shí),成倍節(jié)約數(shù)據(jù)存儲(chǔ)和傳輸帶寬。

  微信圖片_20210202100251.png

  微信公眾號(hào)mikesiroom的作者在其文章中也指出,傳統(tǒng)AI加速器通常面向如卷積和矩陣乘累加等深度學(xué)習(xí)算法的核心部分,但在諸如pooling,normalization,softmax等運(yùn)算上,要么依賴(lài)CPU端進(jìn)行運(yùn)算,要么借助專(zhuān)門(mén)的硬件模塊。但在這兩種方案中,前者性能不高,后者面積較大。但清華大學(xué)團(tuán)隊(duì)的Thinker的解決方案是通過(guò)對(duì)PE陣列的動(dòng)態(tài)配置,以相同的硬件支持全部深度學(xué)習(xí)的的功能。這樣就能讓基于CGRA的芯片獲得更好的PPA,給端側(cè)設(shè)備帶來(lái)重要的價(jià)值。

  “在經(jīng)歷了十幾年的研究之后,他們決定把這個(gè)技術(shù)轉(zhuǎn)化,并在2018年成立了清微智能”。清華大學(xué)可重構(gòu)計(jì)算實(shí)驗(yàn)室的負(fù)責(zé)人之一、清微智能的首席科學(xué)家尹首一教授在一次采訪中告訴半導(dǎo)體行業(yè)觀察記者。他進(jìn)一步指出,這種全新的芯片架構(gòu)技術(shù),可以根據(jù)不同的算法和應(yīng)用需求靈活重構(gòu)硬件資源,同時(shí)具備了通用計(jì)算芯片的靈活性和專(zhuān)用集成電路高效性的特點(diǎn)。

  雖然與上述的FPGA都屬于可重構(gòu)技術(shù),但從王博的介紹我們得知,CGRA與FPGA有三點(diǎn)主要的區(qū)別:

  第一、FPGA的運(yùn)算過(guò)程其是通過(guò)查找表來(lái)完成的,需要大量的結(jié)果預(yù)存,對(duì)存儲(chǔ)器的要求要特別大,同時(shí),在計(jì)算的過(guò)程中需要頻繁的訪存,會(huì)產(chǎn)生大量的功耗;CGRA是基于數(shù)據(jù)流運(yùn)算,不需要大量的存儲(chǔ)器開(kāi)銷(xiāo),在寄存器直接傳導(dǎo)數(shù)據(jù),能量效率高;

  第二、FPGA基于查找表的執(zhí)行方式實(shí)現(xiàn)細(xì)粒度的運(yùn)算,使得運(yùn)算過(guò)程中內(nèi)部電路關(guān)鍵路徑長(zhǎng),主頻沒(méi)法做高,同時(shí),會(huì)耗費(fèi)大量功耗;而CGRA是一種空域計(jì)算,數(shù)據(jù)計(jì)算過(guò)程中可以并行進(jìn)行,關(guān)鍵路徑短,計(jì)算頻率可以很高。

  第三,F(xiàn)PGA是一種靜態(tài)重構(gòu),應(yīng)用發(fā)生改變時(shí),重構(gòu)的過(guò)程是需要重新燒制,是一種離線(xiàn)的過(guò)程,需要較長(zhǎng)時(shí)間,而CGRA是一種動(dòng)態(tài)的重構(gòu)過(guò)程,算法和應(yīng)用發(fā)生改變時(shí),在運(yùn)算過(guò)程直接重構(gòu),時(shí)間開(kāi)銷(xiāo)是微秒級(jí),這過(guò)程甚至不會(huì)被察覺(jué)到。

  “CPU采用指令集方式,實(shí)現(xiàn)了通用計(jì)算,但是他們的計(jì)算過(guò)程,讓他們能效有損失,在與他們相比時(shí),我們的架構(gòu)擁有1000倍的能耗比優(yōu)勢(shì);FPGA采用了查找表的方式工作,帶來(lái)資源的浪費(fèi),與他們相比,我們的能耗比也高了100倍;GPU采用單指令多數(shù)據(jù)的運(yùn)行架構(gòu),但受限于指令集讀取的模式,我們相比他也有10倍左右的優(yōu)勢(shì)”,尹首一教授曾經(jīng)用形象的數(shù)字將可重構(gòu)計(jì)算與其它幾種技術(shù)路線(xiàn)的性能做過(guò)對(duì)比。

  從語(yǔ)音到圖像,AI芯片初體驗(yàn)

  在多年技術(shù)積累的助推下,清微智能在成立僅一年之后,就推出了全球首款可重構(gòu)超低功耗語(yǔ)音人工智能芯片TX210。據(jù)介紹,這是一顆采用臺(tái)積電40nm ULP工藝制造的的芯片,能夠支持離線(xiàn)語(yǔ)音喚醒、5個(gè)喚醒詞、10個(gè)命令詞以及聲紋識(shí)別。此外,這顆芯片還能夠支持3到5米的原廠語(yǔ)音喚醒和識(shí)別。然而其芯片的工作頻率僅為50Mhz,延遲更是不到10ms。

  因?yàn)槭且活w面向端側(cè),甚至電池供電產(chǎn)品的芯片,TX210在功耗方面也有不錯(cuò)的表現(xiàn),這主要得益于公司在設(shè)計(jì)該芯片時(shí)候引入的多級(jí)功耗喚醒模式。據(jù)介紹,這顆芯片只有在通過(guò)麥克風(fēng)檢測(cè)到人聲時(shí)才會(huì)被激活,也僅有在準(zhǔn)確監(jiān)聽(tīng)到“喚醒詞”后,才會(huì)去喚醒處于休眠狀態(tài)的主控處理器芯片。這就幫助把芯片的工作功耗控制在2mw內(nèi),而語(yǔ)音語(yǔ)音活動(dòng)檢測(cè)(Voice Activity Detection,VAD)功耗也降至100uW內(nèi)。

  作為一款CGRA架構(gòu)的芯片,TX210擁有極高的靈活性,不但能夠支持多比特DNN神經(jīng)網(wǎng)絡(luò),還可以支持1到16bit位寬的神經(jīng)網(wǎng)絡(luò)運(yùn)算以及FFT/MEL FILTER等。

  王博則表示,TX210的推出,符合他們作為一個(gè)初創(chuàng)公司的定位。在他看來(lái),初創(chuàng)企業(yè)的發(fā)展,要遵循從小投入到大投入的原則,這也是清微智能選擇首先從做投入較少的語(yǔ)音芯片TX210開(kāi)始的原因?!耙?yàn)檎Z(yǔ)音芯片要求沒(méi)那么高,外圍單元需求也相對(duì)少,頻率低,工藝節(jié)點(diǎn)也低”,王博補(bǔ)充說(shuō)。

  他進(jìn)一步指出,TX210無(wú)論是在算力,還是能效方面,都有比較大的優(yōu)勢(shì),這讓他們有足夠的底氣與客戶(hù)一起,將這顆芯片推向了智能耳機(jī)、智能手表、智能家居和平板等行業(yè)。據(jù)透露,TX210目前的出貨量已經(jīng)達(dá)到了百萬(wàn)級(jí)別。

  在語(yǔ)音芯片上旗開(kāi)得勝之后,清微智能順勢(shì)帶來(lái)了全球首款可重構(gòu)多模態(tài)智能計(jì)算芯片TX510。

微信圖片_20210202100322.jpg

  從相關(guān)資料可以看到,TX510 是一款面向 IoT 設(shè)備的超低功耗視覺(jué)處理芯片,以可重構(gòu)架構(gòu)設(shè)計(jì),能實(shí)現(xiàn)高性能計(jì)算,低功率消耗的超強(qiáng)能效比,峰值算力達(dá) 2TOPS。正是基于這樣的設(shè)計(jì),客戶(hù)如果想開(kāi)發(fā)系列產(chǎn)品,或者在市場(chǎng)競(jìng)爭(zhēng)中用差異化的的產(chǎn)品來(lái)獲得優(yōu)勢(shì),就可以TX510上做便捷開(kāi)發(fā),而不用做太多改變。

  來(lái)到算法模型支持方面,TX510支持 AlexNet、GoogleNet、ResNet、VGG、Faster-RCNN、Yolo、SSD、FCN 和 SegNet 等主流神經(jīng)網(wǎng)絡(luò);同時(shí)還內(nèi)置 3D 引擎,可實(shí)現(xiàn)人臉識(shí)別、物體識(shí)別、手勢(shì)識(shí)別、目標(biāo)跟蹤等功能,可應(yīng)用于智能安防監(jiān)控、智能家居、新零售等領(lǐng)域。

  在筆者與王博的交流中,他多次談到了TX510的可重構(gòu)優(yōu)勢(shì),同時(shí)因?yàn)楣驹诰幾g工具鏈上的投入,那就意味著開(kāi)發(fā)者不用理解CGRA硬件層面的工作原理,可以保持原有的開(kāi)發(fā)習(xí)慣就好,讓開(kāi)發(fā)者可以很快上手。他同時(shí)還指出,這個(gè)芯片因?yàn)榧闪硕喾N存儲(chǔ)、外設(shè)接口豐富,同時(shí)還提供豐富的開(kāi)發(fā)資源,這就使得基于其開(kāi)發(fā)產(chǎn)品擁有開(kāi)發(fā)周期短和投入人力少的優(yōu)勢(shì)。

  “基于TX510運(yùn)算特性,自動(dòng)輸出包含剪枝參數(shù),低比特參數(shù)在內(nèi)的最優(yōu)模型優(yōu)化策略,使開(kāi)發(fā)者的算法模型最高效率的運(yùn)行在TX510芯片上,并保持出色的低功耗性能。也提供包含人臉識(shí)別,ADAS,視頻監(jiān)控,智能家居等多種應(yīng)用場(chǎng)景的完整解決方案,客戶(hù)可快速完成相應(yīng)場(chǎng)景的產(chǎn)品開(kāi)發(fā)?!蓖醪?qiáng)調(diào)。

  從當(dāng)前的競(jìng)爭(zhēng)格局來(lái)看,TX510基本上算是市面上能效比最高的視覺(jué)芯片(也可以稱(chēng)為有效算力高),這主要是因?yàn)榭芍貥?gòu)計(jì)算架構(gòu)能根據(jù)算法和應(yīng)用改變硬件資源,所以可以集中硬件資源去計(jì)算特殊需求(MCU和其它的圖像AI芯片在計(jì)算時(shí)有很多不必要的數(shù)據(jù)搬運(yùn),消耗大量資源)。上述靈活性與低功耗正是TX510獲得客戶(hù)認(rèn)可的兩個(gè)關(guān)鍵點(diǎn)。

  “TX510從2020年10月份正式量產(chǎn),迄今為止累計(jì)出貨量50萬(wàn)顆”,王博告訴記者。

  替代通用,可重構(gòu)的未來(lái)目標(biāo)

  毫無(wú)疑問(wèn),可重構(gòu)架構(gòu)是一個(gè)很有前景的技術(shù)。清微智微在語(yǔ)音和圖像AI芯片上的梅開(kāi)二度也一再證明了可重構(gòu)的潛力。但王博表示,無(wú)論是對(duì)于可重構(gòu),還是清微智能,現(xiàn)在離他們想要實(shí)現(xiàn)的目標(biāo)還有一段距離。他首先以可重構(gòu)架構(gòu)在AI芯片市場(chǎng)應(yīng)用為例,說(shuō)明了可重構(gòu)面臨的一些挑戰(zhàn)。

  “雖然我們?cè)诳芍貥?gòu)芯片上的軟件、工具鏈上做了很大的努力,但作為一個(gè)初創(chuàng)企業(yè),我們目前能做的也只是滿(mǎn)足大部分用戶(hù)的需求,不得不承認(rèn),離真正發(fā)展成熟,還需要一段距離”,王博說(shuō)道。他同時(shí)也指出:可重構(gòu)架構(gòu)的特性,讓其可以在多個(gè)領(lǐng)域發(fā)揮作用,其具有的天然的可擴(kuò)展性,可通過(guò)算力擴(kuò)展,將高能效,靈活性的特點(diǎn)更好的發(fā)揮出來(lái),因此,也非常適合做數(shù)據(jù)量更大的訓(xùn)練芯片。公司也在做積極布局云端市場(chǎng),團(tuán)隊(duì)早在數(shù)年前就開(kāi)始做技術(shù)預(yù)研和芯片驗(yàn)證,同樣功耗下更高算力等多個(gè)實(shí)驗(yàn)指標(biāo)保證公司可快速進(jìn)入服務(wù)器和云計(jì)算市場(chǎng)。

  “我們認(rèn)為,可重構(gòu)架構(gòu)正在就朝著更通用的方向前進(jìn),可以運(yùn)行更多的算法,代替DSP和CPU等傳統(tǒng)架構(gòu)去做更多的事。這里說(shuō)的代替是高層次的代替,用更高的性能和更高的能效朝著這兩個(gè)方向前進(jìn)”,王博表示。

  在與王博的交談中,他多次強(qiáng)調(diào),清微智能從來(lái)沒(méi)有把自己定義為一家AI芯片公司,而是恰好AI市場(chǎng)的發(fā)展,讓公司的可重構(gòu)架構(gòu)找到了一個(gè)落地的場(chǎng)景。這正與他所說(shuō)的“清微智能的發(fā)展方向以可重構(gòu)架構(gòu)為核心,在某些具體賽道上為客戶(hù)提供芯片及解決方案,”的觀點(diǎn)相契合,目前來(lái)看,這些賽道是指那些對(duì)語(yǔ)音或圖像等有持續(xù)大計(jì)算量需求的領(lǐng)域。

  回看芯片產(chǎn)業(yè)的發(fā)展,在摩爾定律的指導(dǎo)下,芯片的處理能力與以前相比有了指數(shù)級(jí)別的增長(zhǎng)。但到了現(xiàn)在,受限于材料與制造水平,芯片不能再像以往那樣通過(guò)簡(jiǎn)單的微縮來(lái)實(shí)現(xiàn)性能的提升。然而,人工智能等新興應(yīng)用對(duì)芯片性能的增加依然有很高的需求。為此探索新的解決方案,成為了行業(yè)追逐的重點(diǎn)。

  可重構(gòu),正是這個(gè)問(wèn)題的一個(gè)答案。

  


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題,請(qǐng)及時(shí)通過(guò)電子郵件或電話(huà)通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話(huà):010-82306118;郵箱:aet@chinaaet.com。