123,123,123

从这颗3nm AI芯片，看RISC-V用在高性能计算上

日期： 2023-06-14

作者：黄烨锋

來(lái)源：电子工程专辑

關(guān)鍵詞： RISC-V 高性能计算 3nm AI芯片

本文來(lái)源：電子工程專輯

原文作者：黃燁鋒

原文鏈接：https://mp.weixin.qq.com/s/bGhAlOZguTirxik6ComGrg

　　雖然我們此前就多番探討過(guò)現(xiàn)階段RISC-V嘗試入侵高性能計(jì)算市場(chǎng)的可能性，但起碼現(xiàn)在提到RISC-V，大部分人的第一反應(yīng)仍然是嵌入式應(yīng)用。

　　其實(shí)RISC-V在高性能市場(chǎng)的探索，能夠列舉的例證還是比較多樣的，不僅是這個(gè)市場(chǎng)前一陣比較熱的Veteran。這次我們來(lái)看看另外一家準(zhǔn)備在RISC-V高性能計(jì)算領(lǐng)域一展拳腳、而且算是含著金湯匙出生的企業(yè)Tenstorrent。

　　這家公司現(xiàn)在的CEO是鼎鼎大名的Jim Keller;另外很多人應(yīng)該知道，前一陣Raja Koduri從Intel離職后準(zhǔn)備搞自己的初創(chuàng)公司，但與此同時(shí)他也是Tenstorrent的董事會(huì)成員之一;是不是感覺(jué)這公司還挺有花頭的?借著Tenstorrent的芯片路線圖及技術(shù)規(guī)劃，我們也能更進(jìn)一步搞清楚RISC-V未來(lái)在HPC市場(chǎng)的可能性，以及AI芯片的發(fā)展趨勢(shì)。

　　01　RISC-V核的超寬微架構(gòu)

　　最早聽(tīng)說(shuō)Tenstorrent，我們普遍說(shuō)這是個(gè)做AI芯片的公司，但在去年的RISC-V Summit峰會(huì)上，Tenstorrent的CPU首席架構(gòu)師Wei-han Lien特別談到了自家在做的CPU產(chǎn)品，核心代號(hào)Ascalon。這是個(gè)基于RISC-V指令集、亂序執(zhí)行超標(biāo)量CPU，著力于AI與服務(wù)器的高性能市場(chǎng)。

　　其實(shí)能看到這家公司出現(xiàn)包括Wei-han Lien和Jim Keller在內(nèi)的名字，應(yīng)該就很容易想見(jiàn)，CPU甚至已經(jīng)是Tenstorrent的重頭戲了。Jim Keller暫且不提，Wei-han Lien曾經(jīng)在AMD、PA-Semi、蘋果都扮演芯片設(shè)計(jì)的重要角色。Tom's Hardware在報(bào)道文章中說(shuō)，此人參與了蘋果A6、A7，甚至是M1 CPU微架構(gòu)設(shè)計(jì)工作。

　　有興趣的同學(xué)可以去油管看一看Wei-han Lien在去年RISC-V Summit峰會(huì)上的主題演講。他談到兩個(gè)點(diǎn)給我們留下了比較深刻的印象，其一是推出CPU的出發(fā)點(diǎn)應(yīng)當(dāng)在于輔助AI芯片(所謂companion CPU)。所以Tenstorrent的自研架構(gòu)CPU最重要職能就是“CPU for AI Computation”。

　　原因也很簡(jiǎn)單，“很多人可能并沒(méi)有意識(shí)到在AI計(jì)算中，CPU扮演著非常非常重要的角色，尤其是在訓(xùn)練(training)方面?！盠ien說(shuō)，“有人知道數(shù)據(jù)中心AI訓(xùn)練過(guò)程中，CPU功耗多少嗎?不是10%，也不是20%，時(shí)間和功耗都超過(guò)了50%，包括CPU對(duì)數(shù)據(jù)的預(yù)處理和后處理。”后文會(huì)談到，Tenstorrent將Ascalon CPU核心集成到AI芯片上的方案。

　　其二是Lien談了為什么在指令集上選了RISC-V，而不是Arm。他說(shuō)在2021年加入公司時(shí)，對(duì)ML處理器的companion CPU做評(píng)估，他去找了Arm詢問(wèn)能否支持某種特定的數(shù)據(jù)類型，Arm的答復(fù)是不行。據(jù)說(shuō)Arm對(duì)于這種程度的支持需要2年時(shí)間的內(nèi)部討論和與合作伙伴之間的磋商。所以RISC-V很快成為新選擇——Tenstorrent的AI芯片選擇的companion CPU IP就來(lái)自SiFive。

　　后續(xù)Tenstorrent又需要性能更高的CPU，于是就決定自己設(shè)計(jì)，也就有了Ascalon。HWcooling前不久發(fā)布的評(píng)論文章認(rèn)為，Ascalon的超寬架構(gòu)設(shè)計(jì)和蘋果芯片很像。我們來(lái)看看Ascalon的一些設(shè)計(jì)大方向。

　　微信截圖_20230614184937.png

　　Tenstorrent的Ascalon核心具體為64bit的RV64ACDHFMV指令集架構(gòu)，也就是說(shuō)支持矢量指令集擴(kuò)展——這在RISC-V世界來(lái)得算是比較遲的。

　　整體微架構(gòu)前端8-wide解碼(之前在談Veteran的RISC-V超寬微架構(gòu)時(shí)我們就提到了，其RISC-V核前端選配了8-wide取指)，每周期能處理8個(gè)RISC-V指令——這個(gè)寬度和蘋果Firestorm的設(shè)計(jì)就類似了。

　　另外Ascalon架構(gòu)有6個(gè)整數(shù)ALU，2個(gè)分支執(zhí)行單元;而load/store三條管線還是比蘋果現(xiàn)行方案少了1個(gè)的(load/store分配情況未知)，load/store隊(duì)列深度比較深，但具體是多少未知;

　　核心有2條FPU管線，用于浮點(diǎn)運(yùn)算，并同時(shí)用作SIMD矢量單元——位寬256bit。其實(shí)就這個(gè)數(shù)字來(lái)看，SIMD吞吐仍未達(dá)到x86服務(wù)器平臺(tái)競(jìng)品的程度——雖然光看紙面位寬和管線數(shù)字并不可靠。

　　國(guó)外媒體還提到Tenstorrent采用了“先進(jìn)的TAGE分支預(yù)測(cè)器”;cache容量情況未知，但“L1顯然會(huì)和蘋果的128KB, 8-way associativity類似”;“從指令cache取指應(yīng)當(dāng)為32bytes/cycle”;還有一些關(guān)鍵信息未知，例如ROB深度，有一定概率與蘋果芯片的思路相似，即比較高的亂序度。則核心的IPC理論上就會(huì)很理想，不需要太高的頻率。

　　演講中，Lien提到目前工程師已經(jīng)在搞RTL和物理設(shè)計(jì)，右下角那張圖就是die photo。下面兩張圖給出了核心設(shè)計(jì)的難度、模塊化方案、如何做性能建模等等...本文不再做展開(kāi)，有興趣的可以去看看演講視頻。

　　微信截圖_20230614184957.png

　　02. 128核心的集群組成chiplet

　　實(shí)際上，根據(jù)decode解碼寬度，Tenstorrent準(zhǔn)備了5個(gè)不同的CPU IP，面向不同的應(yīng)用：是同一方案的不同規(guī)模實(shí)施。按照解碼寬度和性能，做了如下切分：

　　微信截圖_20230614185022.png

　　從2-wide解碼，到8-wide解碼，達(dá)成不同的PPA目標(biāo)，也就面向不同的應(yīng)用：涵蓋了邊緣設(shè)備、客戶端PC、HPC高性能計(jì)算等，似乎還有一些更基礎(chǔ)的應(yīng)用。其實(shí)就核心層面就做這么多種設(shè)計(jì)，多少就有點(diǎn)IP公司的意思了——授權(quán)IP的確也是這家公司的盈利模式之一，后文會(huì)談到。

　　微信截圖_20230614185042.png

　　當(dāng)Ascalon核心組成集群(cluster)，多核方案形如上圖所示——一個(gè)集群可以配8個(gè)Ascalon核心(也就是最大8-wide的那個(gè)核心);集群內(nèi)12MB共享集群cache;此外走向集群外部fabric的CHI coherency bus帶寬230GB/s;也有non-coherency bus，230GB/s，面向加速單元。

　　Lien特別提到，共享集群cache和scratchpad memory相關(guān)的存儲(chǔ)一致性方案，“不僅讓Ascalon核心非常適用于常規(guī)服務(wù)器的高性能核心，而且很適合用于AI計(jì)算”。

　　微信截圖_20230614185058.png

　　基于核心集群可以構(gòu)成128個(gè)核心的設(shè)計(jì)(AEGIS Chiplet系統(tǒng)架構(gòu))，作為AI的companion CPU集群。整個(gè)系統(tǒng)切分成了4塊，每一塊都是cc-NUMA(cache coherency non-uniform memory access)結(jié)構(gòu)，Lien的原話是“fully coherency system”。

　　整顆chiplet本身配有die-to-die接口，ppt上只提到了針對(duì)可擴(kuò)展性達(dá)成“充足的帶寬”。后面Lien在介紹Black Hole系統(tǒng)的時(shí)候，似乎有提到雙芯(dual-chip)的2TB/s die-to-die帶寬。

　　上述方案以IP的方式對(duì)外提供授權(quán)(包括RTL、hard macro，甚至GDS(Graphic Data Stream));另外從國(guó)外媒體的報(bào)道來(lái)看，Tenstorrent也出售chiplet、機(jī)器學(xué)習(xí)加速卡，或者包含CPU和ML加速單元的解決方案，而且還賣服務(wù)器系統(tǒng)。

　　就說(shuō)這個(gè)業(yè)務(wù)模式還真是多樣化，作為IP供應(yīng)商，又自己賣chiplet、賣芯片，還做系統(tǒng)，那是和不同層級(jí)的客戶達(dá)成了競(jìng)爭(zhēng)關(guān)系的。不過(guò)這也不是咱要討論的重點(diǎn)。

　　實(shí)際上，就Tenstorrent出售的芯片和系統(tǒng)，上述CPU核心主要還是為AI服務(wù)的。

　　03. 用作AI芯片的companion CPU

　　所以接下來(lái)我們談?wù)凾enstorrent的AI芯片。過(guò)去2年，這家公司分別推出過(guò)Grayskull和Wormhole，詳細(xì)配置情況如下圖所示。這兩款A(yù)I處理器很自然地需要搭配主CPU，系統(tǒng)層面產(chǎn)品形態(tài)是作為板卡插在Tenstorrent自己的服務(wù)器里面的。在Wormhole這代產(chǎn)品上，4U的Nebula服務(wù)器內(nèi)有32塊Wormhole板卡，6KW功率達(dá)成Int8的12 PFLOP算力。

　　微信截圖_20230614185154.png

　　不過(guò)這兩顆芯片不是我們要關(guān)注的重點(diǎn)，上圖中的Black Hole是這家公司的首款“CPU+ML解決方案”。注意看圖中，除了標(biāo)記“T”的加速單元(名為Tensix)，右邊還有標(biāo)記為綠色“C”的CPU核心——這部分就是companion CPU。

　　不過(guò)Black Hole所用的14個(gè)CPU核心，用的是SiFive的X280——外圍的8通道GDDR6、1200Gb/s以太網(wǎng)連接、32 lane PCIe Gen 5就不多談了。今年Tenstorrent最新的PPT似乎更新了時(shí)間線，即上述所有產(chǎn)品均延后一年，所以Black Hole對(duì)應(yīng)于2023年，Grendel對(duì)應(yīng)于2024年。

　　微信截圖_20230614185212.png

　　規(guī)劃中的Grendel就會(huì)用上前文提到的來(lái)自Tenstorrent自己的Ascalon核心，也就是自研RISC-V CPU，前端8-wide解碼那個(gè)。這顆芯片的AI和CPU chiplet都會(huì)選擇3nm工藝——這可能是目前已知最早的應(yīng)用尖端制造工藝的RISC-V芯片。

　　微信截圖_20230614185227.png

　　這張示意圖畫得還是挺有趣，AI加速單元是基于2D torus NoC互聯(lián)，連接DDR內(nèi)存(不支持HBM)，連接RISC-V CPU，以太網(wǎng)用于擴(kuò)展，當(dāng)然還有PCIe連接。值得一提的是，因?yàn)門enstorrent的角色定位，可能最終產(chǎn)品選擇不同IP是存在靈活性的，比如說(shuō)DRAM控制器、PHY之類的選配，據(jù)說(shuō)Tenstorrent未來(lái)準(zhǔn)備開(kāi)發(fā)自己的內(nèi)存控制器，現(xiàn)在用的還是三方的方案。

　　從今年Tenstorrent公布的框圖來(lái)看，多chiplet方案的確讓Grendel看起來(lái)就是個(gè)大規(guī)模芯片。Tom's Hardware在文章中說(shuō)，實(shí)則基于業(yè)務(wù)需求以及經(jīng)濟(jì)性考量，這顆芯片的AI chiplet部分(也就是那一堆Tensix單元)可以用3nm工藝，或者也可以用Black Hole的chiplet，甚至也可能CPU部分就繼續(xù)用SiFive X280。chiplet之間通訊如前所述可達(dá)成2TB/s的帶寬。

　微信截圖_20230614185256.png

　　最后來(lái)談一下Ascalon或者其他RISC-V CPU用在這樣的AI芯片里，具體要干什么。實(shí)際上，Tenstorrent的CPU并不是單純用于AI流程控制的，而是可以替代x86的主CPU。其職能涵蓋了虛擬化、安全、系統(tǒng)管理、計(jì)算內(nèi)核調(diào)度設(shè)置。

　　在用作輔助AI計(jì)算時(shí)，價(jià)值自然就包括了數(shù)據(jù)預(yù)處理，預(yù)防訓(xùn)練數(shù)據(jù)overfeeding之類的問(wèn)題;還有當(dāng)CPU的矢量單元比較強(qiáng)悍時(shí)，對(duì)于整個(gè)處理器適配未來(lái)的算法會(huì)很有價(jià)值，或者說(shuō)CPU是整顆芯片彈性化的體現(xiàn)方式之一。另外兩者之間的協(xié)同，也體現(xiàn)在了包括互連通訊與存儲(chǔ)等的CPU微架構(gòu)設(shè)計(jì)里，那么compiler要在加速器和CPU之間做計(jì)算遷移也會(huì)很容易。這都是Tenstorrent自己要做CPU，且基于RISC-V的原因所在。

　　軟件棧，以及系統(tǒng)搭建為服務(wù)器產(chǎn)品的部分這里就不談了，畢竟我們這篇文章其實(shí)就是看一看當(dāng)RISC-V指令集用于HPC時(shí)，CPU架構(gòu)大概會(huì)長(zhǎng)什么樣的。不過(guò)其實(shí)在系統(tǒng)層面，Tenstorrent還考慮到大規(guī)模集群計(jì)算，需要做數(shù)據(jù)遷移勢(shì)必要用到DPU的問(wèn)題——畢竟這已經(jīng)是個(gè)共識(shí)了;Tenstorrent就說(shuō)RISC-V在此也成為相當(dāng)棒的選擇...

　　整體上，看一遍Tenstorrent的RISC-V CPU設(shè)計(jì)，仍有種對(duì)于具體應(yīng)用而言，技術(shù)層面究竟選擇何種“指令集”都不是什么重點(diǎn)，而在于設(shè)計(jì)和實(shí)施方案的感覺(jué)。而阻斷x86和Arm成為其選擇的原因并不在于指令集本身，而在于RISC-V開(kāi)源體現(xiàn)出的靈活性。這大概也更便于Jim Keller這類人去施展拳腳。雖然就外圍存儲(chǔ)、互聯(lián)的堆料看來(lái)，可能還是不能直接與英偉達(dá)硬碰硬，但靈活性和成本可能會(huì)是重要優(yōu)勢(shì)項(xiàng)。

　　當(dāng)然Grendel這顆3nm AI芯片畢竟也還沒(méi)有做出來(lái)，目前也還不清楚CPU的IP授權(quán)業(yè)務(wù)開(kāi)展情況如何——其實(shí)就像前文提到的Tenstorrent的業(yè)務(wù)模式比較奇特，他們的上游供應(yīng)商和下游客戶又同時(shí)是競(jìng)爭(zhēng)對(duì)手。比如SiFive既為其CPU提供IP，同時(shí)后代產(chǎn)品又直接形成了競(jìng)爭(zhēng)對(duì)手關(guān)系。所以業(yè)務(wù)開(kāi)展如何還有待觀察。

　　不過(guò)那么多大佬入局，還是讓Tenstorrent這家公司在開(kāi)局成為了惹人注目的焦點(diǎn)。起碼RISC-V未來(lái)成為市場(chǎng)競(jìng)爭(zhēng)的主要角色之一已經(jīng)不會(huì)再有疑問(wèn)，而且絕對(duì)不光是低功耗和嵌入市場(chǎng)。

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題，請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

从这颗3nm AI芯片，看RISC-V用在高性能计算上

日期： 2023-06-14

作者： 黄烨锋

來(lái)源： 电子工程专辑

相關(guān)內(nèi)容

作者：黄烨锋

來(lái)源：电子工程专辑