在過去的幾年中,大量的處理器進(jìn)入市場,其唯一目的是加速人工智能和機(jī)器學(xué)習(xí)工作負(fù)載。由于可能使用不同類型的機(jī)器學(xué)習(xí)算法,因此這些處理器通常專注于幾個(gè)關(guān)鍵領(lǐng)域,但有一個(gè)局限性限制了它們,那就是您可以將處理器制造多大。
兩年前,Cerebras揭開了芯片設(shè)計(jì)領(lǐng)域的一場革命:他推出的處理器與您的頭部一樣大——在12英寸晶圓上使用的面積與矩形設(shè)計(jì)所允許的面積一樣大。據(jù)介紹,這個(gè)基于16納米工藝打造的芯片可同時(shí)專注于AI和HPC工作負(fù)載。
今天,該公司正在發(fā)布其基于臺(tái)積電7nm的第二代產(chǎn)品,其內(nèi)核數(shù)量增加了一倍以上,而所有產(chǎn)品的數(shù)量都增加了一倍以上。
第二代WSE(Wafer Scale Engine)
來自Cerebras的新處理器是基于臺(tái)積電(TSMC)的N7工藝打造的。這使得邏輯可以按比例縮小,并在一定程度上縮小了SRAM,現(xiàn)在新芯片上具有850,000個(gè)AI內(nèi)核。
從下圖我們可以看到,基本上,有關(guān)新芯片的所有內(nèi)容都超過了2倍:
與最初的處理器(稱為晶圓級(jí)引擎(Wafer Scale Engine,WSE-1))一樣,新的WSE-2在46225 mm 2的面積上集成了成千上萬的AI核。在這個(gè)空間里,Cerebras集成了2.6萬億個(gè)晶體管,構(gòu)建了850000個(gè)AI內(nèi)核。相比之下,市場上第二大AI CPU約為826 mm 2,具有0.054萬億個(gè)晶體管。Cerebras還引用了1000倍的板載內(nèi)存,帶有40 GB的SRAM,而Ampere A100則為40 MB。
核心與帶有FMAC數(shù)據(jù)路徑的2D Mesh連接。Cerebras通過設(shè)計(jì)一種可以繞開任何制造缺陷的系統(tǒng)來實(shí)現(xiàn)100%的良率。
最初,Cerebras擁有1.5%的額外核心來容納缺陷,但由于臺(tái)積電(TSMC)的工藝如此成熟,因此我們被告知這太多了。Cerebras與WSE的目標(biāo)是提供一個(gè)通過創(chuàng)新專利設(shè)計(jì)的單一平臺(tái),該平臺(tái)允許用于AI計(jì)算的更大處理器,但也已擴(kuò)展到更廣泛的HPC工作負(fù)載中。
建立在第一代WSE之上
設(shè)計(jì)的關(guān)鍵是自定義的圖形編譯器,它采用pyTorch或TensorFlow并將每一層映射到芯片的物理部分,從而允許在數(shù)據(jù)流過時(shí)進(jìn)行異步計(jì)算。擁有如此大的處理器意味著數(shù)據(jù)永遠(yuǎn)不必掉隊(duì),也不需要在內(nèi)存中等待,不浪費(fèi)功率,并且可以以流水線的方式連續(xù)地移至計(jì)算的下一個(gè)階段。編譯器和處理器的設(shè)計(jì)還考慮到了稀疏性,無論批處理大小如何都可以實(shí)現(xiàn)高利用率,或者可以使參數(shù)搜索算法同時(shí)運(yùn)行。
Cerebras的第一代WSE作為CS-1的完整系統(tǒng)的一部分一起打包出售,該公司有數(shù)十個(gè)已部署并運(yùn)行了已部署系統(tǒng)的客戶,其中包括許多研究實(shí)驗(yàn)室,制藥公司,生物技術(shù)研究,軍事以及石油和天然氣行業(yè)。天然氣工業(yè)。勞倫斯·利弗莫爾(Lawrence Livermore)將一臺(tái)CS-1與其23 PFLOP“拉森”超級(jí)計(jì)算機(jī)配對(duì)。匹茲堡超級(jí)計(jì)算機(jī)中心以500萬美元的價(jià)格購買了兩個(gè)系統(tǒng),并將這些系統(tǒng)連接到他們的Neocortex超級(jí)計(jì)算機(jī)上,以實(shí)現(xiàn)同步AI和增強(qiáng)的計(jì)算能力。
產(chǎn)品和合作伙伴
Cerebras現(xiàn)在以15U盒的形式出售完整的CS-1系統(tǒng),其中包含一個(gè)WSE-1和12x100 GbE,十二個(gè)4 kW電源(6個(gè)冗余,峰值功率約23 kW),并且在某些機(jī)構(gòu)中的部署與HPE的SuperDome Flex配對(duì)。新的CS-2系統(tǒng)共享相同的配置,盡管內(nèi)核數(shù)量增加了一倍以上,板載內(nèi)存也增加了一倍,但功耗仍然相同。與其他平臺(tái)相比,這些處理器在15U設(shè)計(jì)中垂直排列,以便在如此大的處理器上易于訪問以及內(nèi)置的液體冷卻。還應(yīng)該注意的是,這些前門是用單塊鋁加工而成的。
Cerebras設(shè)計(jì)的獨(dú)特性能夠超越通常在制造過程中出現(xiàn)的物理制造限制,即標(biāo)線限制。處理器的設(shè)計(jì)限制為芯片的最大尺寸,因?yàn)楹茈y通過十字線連接兩個(gè)區(qū)域。這是Cerebras帶到桌上的秘密的一部分,該公司仍然是唯一一家提供這種規(guī)模處理器的公司-Cerebras開發(fā)并獲得了用于制造這些大型芯片的相同專利仍在這里發(fā)揮作用,第二代WSE將內(nèi)置于CS-2系統(tǒng)中,其在連通性和視覺方面與CS-1相似。
相同的編譯器和帶有更新的軟件包使已在第一個(gè)系統(tǒng)上試用AI工作負(fù)載的任何客戶在部署它們時(shí)都可以使用第二個(gè)系統(tǒng)。Cerebras一直在進(jìn)行更高級(jí)別的實(shí)現(xiàn),以通過添加三行代碼并使用Cerebras的圖形編譯器,使具有標(biāo)準(zhǔn)化TensorFlow和PyTorch模型的客戶非??焖俚赝洮F(xiàn)有的GPU代碼。然后,編譯器將整個(gè)850,000個(gè)內(nèi)核劃分為每層的各個(gè)段,從而允許以流水線方式進(jìn)行數(shù)據(jù)流而不會(huì)造成停頓。芯片還可以同時(shí)用于多個(gè)網(wǎng)絡(luò)以進(jìn)行參數(shù)搜索。
Cerebras指出,擁有如此龐大的單芯片解決方案意味著跨100多個(gè)AI芯片的分布式訓(xùn)練方法的障礙現(xiàn)在已經(jīng)遠(yuǎn)遠(yuǎn)地移開了,以至于在大多數(shù)情況下都不需要這種過多的復(fù)雜性–為此,我們看到了CS- 1部署到超級(jí)計(jì)算機(jī)的單個(gè)系統(tǒng)。
但是,Cerebras指出,兩個(gè)CS-2系統(tǒng)將在一個(gè)標(biāo)準(zhǔn)的42U機(jī)架中提供170萬個(gè)AI內(nèi)核,或者三個(gè)系統(tǒng)在一個(gè)更大的46U機(jī)架中提供255萬個(gè)(假設(shè)一次有足夠的功率?。﹣硖鎿Q一打機(jī)架的替代計(jì)算硬件。
在Hot Chips 2020,該公司首席硬件架構(gòu)師Sean Lie表示,Cerebras對(duì)客戶的主要好處之一是能夠簡化工作負(fù)載,以前需要使用GPU / TPU機(jī)架,而是可以以計(jì)算相關(guān)的方式在單個(gè)WSE上運(yùn)行。
作為一家公司,Cerebras在多倫多,圣地亞哥,東京和舊金山擁有約300名員工。該公司首席執(zhí)行官安德魯·費(fèi)爾德曼(Andrew Feldman)表示,作為一家公司,他們已經(jīng)實(shí)現(xiàn)了盈利,已經(jīng)部署了CS-1的客戶很多,并且在啟動(dòng)商業(yè)系統(tǒng)時(shí)已經(jīng)有更多的客戶在遠(yuǎn)程試用CS-2。
除了AI之外,由于芯片的靈活性使流體動(dòng)力學(xué)和其他計(jì)算仿真成為可能,因此Cerebras在典型的商業(yè)高性能計(jì)算市場(例如,石油和天然氣和基因組學(xué))中引起了很多客戶。CS-2的部署將于今年晚些時(shí)候在第三季度進(jìn)行,價(jià)格已從2-3百萬美元升至“幾百萬”美元。