領先的模擬AI處理器公司Mythic日前宣布,公司正式推出業(yè)界首款模擬矩陣處理器(Mythic AMP?)M1108 AMP。按照他們的說法,這個新產(chǎn)品的發(fā)布預示了AI激動人心的新紀元,因為它首次提供了一種模擬計算解決方案,該解決方案可實現(xiàn)一流的性能和性能,并且其精度可與數(shù)字設備媲美。
報道指出,M1108 AMP能為邊緣部署提供了無與倫比的可能性,應用市場包括智能家居,AR / VR,無人機,視頻監(jiān)控,智能城市以及工廠車間的自動化。憑借其革命性的技術,M1108 AMP處于AI處理重大新趨勢的最前沿。
報道指出,M1108集成了108個AMP tiles ,每個tiles都配有一個Mythic模擬計算引擎(MythicACE?),該引擎具有閃存單元、ADC陣列、32位的RISC-V處理器、SIMD矢量引擎,SRAM和一個高吞吐量的片上網(wǎng)絡(NOC)路由。
此外,四個控制tiles為系統(tǒng)主機處理器提供了高帶寬PCIe2.0接口。M1108具有108個AMP tiles,可提供高達35萬億次/秒的運算(TOPS),可在單個芯片上以高效率、低延遲地高效執(zhí)行復雜的AI模型(例如ResNet-50,YOLOv3和OpenPoseBody25)。在峰值吞吐量下運行復雜的AI模型時,M1108的典型功耗約為4W。而且,憑借利用成熟的40nm技術的固有成本優(yōu)勢,并且不需要任何外部DRAM或SRAM,M1108 AMP將以PCIe M.2和PCIe卡形式提供,并且M1108PCIe評估套件可應要求提供。
模擬AI芯片怎么玩?Mythic詳細講述
說到人工智能硬件,我們向來事無巨細。WikiChip密切關注的一家公司是Mythic。這家公司還沒有完全公開他們的架構和產(chǎn)品,但一些細節(jié)已經(jīng)開始慢慢浮出水面。在最近的人工智能硬件峰會上,該公司的創(chuàng)始人兼首席執(zhí)行官Mike Henry)紹了該芯片的最新情況。
這家位于奧斯汀的初創(chuàng)公司由Mike Henry和Dave Fick于2012年創(chuàng)立,最近完成了7000萬美元的B輪融資,總融資額剛剛超過8500萬美元。如今,公司員工已增至110人。
Mythic是一家模擬公司。但是,在我們探討細節(jié)之前,必須指出,它們目前僅專注于推理,無論是在數(shù)據(jù)中心還是在邊緣。到2024年,這兩個市場的TAM(Total Available Market總體有效市場)
預計將達到250億美元,這就是為什么這里有如此多的關注點的原因。從長遠來看,Mythic計劃針對大眾市場的消費品和汽車產(chǎn)品。
把所有東西都放在芯片上,放在閃存里
隨著模型準確性的提高,其大小也會隨之增加。如今,模型達到了數(shù)億個參數(shù),甚至達到數(shù)十億。最重要的是,通常實時地需要確定性行為,例如一致的幀速率和延遲。這就是Mythic的作用。Mythic的論點很簡單:將足夠的存儲與大量并行計算單元打包在芯片上,以最大化內存帶寬并減少數(shù)據(jù)移動的能力。但是有一個轉變——這就是Mythic的原始方法的閃光點——該公司拋棄了傳統(tǒng)的SRAM,轉而使用更密集的閃存,此外,Mythic還計劃在模擬環(huán)境下直接在內存中進行本地計算。
但是為什么是閃存?答案很簡單:因為它密度大,功耗低,而且便宜,幾乎比SRAM的密度大兩個數(shù)量級。
理論上,Mythic的芯片更像內存,而不是傳統(tǒng)的CMOS。從更長的路線圖來看,隨著SRAM bit cell的擴展變得越來越困難,它帶來的好處也越來越深遠??偟膩碚f,從每美元的性能、每單位成本的密度和每瓦特的性能來看,這是一個潛在的巨大勝利。
多年來,我們看到了一大堆路線圖,當他們開始談論未來10年的時候,很容易忽視它。但對Mythic來說,有一些不同之處。值得特別指出的是,目前Mythic正在研究40納米的嵌入式閃存。他們有一個相當清晰的28nm和22nm的路徑,因此,粗略地說,這個圖的一半是基于今天已經(jīng)發(fā)布的現(xiàn)有節(jié)點。
Mythic公司的首席執(zhí)行官Mike Henry似乎相信他們可以繼續(xù)這樣做,但是盡管正在進行一些工作以繼續(xù)擴展到16/14納米節(jié)點,還不清楚它是否會上市。
許多業(yè)內人士認為,嵌入式閃存在22納米的時候遭遇了瓶頸。在與Mythic的一次簡短交談中,他們告訴我們,他們并沒有與嵌入式閃存結合,如果其中一項新興技術(如多位ReRAM、PCM或NRAM)作為一種強大的替代技術出現(xiàn),他們肯定會考慮遷移到這種技術。
IPU
Mythic的芯片被稱為IPUs或智能處理單元。在外設方面,該芯片非常簡單,由PCIe的x4通道和DNN平鋪網(wǎng)格組成,PCIe是負責整個芯片管理的基本控制處理器。由于芯片的設計是為了存儲整個模型,沒有DRAM。
Mythic表示,由于這是一個基于tiles的設計,如果有需求,他們可以通過添加直接的音頻/視頻和各種其他接口來進一步定制。在去年的Hot Chip上,Mythic談論的是一款5000萬權值(weights)的初始產(chǎn)品。在最近的人工智能硬件峰會上,Mike Henry表示,初始產(chǎn)品權值將達到1.2億,這比最初的計劃要多很多。在富士通的40nm制程中,近標線全尺寸芯片應具有約300M權值的容量,因此120M仍然是一個相當大的芯片。
IPU的作用是作為一個連接到主機的PCIe加速器。對于大型模型或多個模型,可以使用多個IPU。模型最初被加載到IPU中,并保持靜止。沒有DRAM和編程閃存相對較慢,因此模型應該能夠適應芯片與多個應用映射到同一芯片。這對于許多邊緣應用程序來說非常典型。在正常操作下,主機CPU將數(shù)據(jù)發(fā)送到IPU,并通過PCIe端口接收結果。
IPU總體設計(WikiChip)
該芯片由DNN tiles構成網(wǎng)格。在一個tiles里面是一個模擬矩陣乘法器,它建立在一個巨大的嵌入式閃存池的頂部,用來計算權值。嵌入式閃存單元使用浮動柵極通過存儲電荷、控制閾值電壓來存儲位。晶體管支持256級電導(G=1/R)之間的完全關閉和打開狀態(tài),Mythic用它來表示8位值。
通過將所有神經(jīng)元的權值映射到閃光晶體管上,他們可以利用歐姆定律自然地進行矩陣乘法運算。實現(xiàn)的方法是使用閃光晶體管將權值表示為可變電阻。這在計算之前執(zhí)行一次。使用8位DAC,輸入矢量作為一組電壓通過可變電阻。根據(jù)歐姆定律,輸出電流是輸入數(shù)據(jù)與權值向量(I = V x G)相乘的結果。最后,一組adc將產(chǎn)生的電流轉換回數(shù)字值,成為輸出矢量。ReLu和其他各種非線性操作也由adc在那個時間點完成。
圍繞這個組件還有一些額外的邏輯。不管工作條件如何,DAC/ADC封裝器都會進行補償和校準,以獲得精確的8位計算—類似于今天的圖像傳感器所做的工作。
模擬矩陣乘法(wikichip)
需要指出的是,這個方案沒有實際的內存訪問。矩陣相乘是在內存中完成的,利用歐姆定律,所以沒有權值訪問能量。使用固定權值時,也沒有批量大小或其他特殊處理。雖然固定容量可能會帶來一些問題。順便說一下,它們支持神經(jīng)元稀疏,但不支持權值稀疏性。
有趣的是,Mythic說,對于他們的第一代,為了加快開發(fā)和上市時間,他們不會使用DAC作為輸入。相反,他們使用一個數(shù)字近似電路,由此分別計算每個輸入位,然后累加結果。他們將在將來用DAC消除這種情況,這有望為他們提供一些很好的改善。