關(guān)注AI芯片領(lǐng)域的用戶應(yīng)該聽(tīng)說(shuō)過(guò)SambaNova,這是一家低調(diào)的公司,他們幾乎不做宣傳,但卻得到了一些支持。在獲得了由Google Ventures,Intel Capital和Blackrock領(lǐng)導(dǎo)的三輪融資以及在美國(guó)能源部的Laurence Livermore和Los Alamos的部署之后,他們現(xiàn)在已經(jīng)可以為一些客戶提供新產(chǎn)品。SambaNova已經(jīng)在賺錢(qián),并開(kāi)始談?wù)撌褂闷湫滦虲ardinal AI處理器構(gòu)建的新型DataScale SN10-8R系統(tǒng)。
AI Silicon:回顧
大多數(shù)人工智能或機(jī)器學(xué)習(xí)工作負(fù)載分為兩類(lèi):訓(xùn)練和推理。
第一個(gè)是訓(xùn)練,在該訓(xùn)練中,算法將獲得數(shù)據(jù)或競(jìng)爭(zhēng)模型參與其中,其目標(biāo)是從數(shù)百萬(wàn),數(shù)十億或數(shù)萬(wàn)億的參數(shù)中創(chuàng)建最佳算法。這是一個(gè)龐大的計(jì)算,需要強(qiáng)大的硬件(可擴(kuò)展的硬件(Google的GPT3需要約1200萬(wàn)美元的云計(jì)算時(shí)間))。
第二個(gè)是推理,在該模型中,已經(jīng)訓(xùn)練(稱(chēng)為預(yù)訓(xùn)練)的模型會(huì)顯示新數(shù)據(jù),并且必須做出相應(yīng)的響應(yīng)。相比之下,這是一種輕量級(jí)的工作負(fù)載,僅需要模型的數(shù)學(xué)功能,其中的基準(zhǔn)測(cè)試包括延遲(響應(yīng)時(shí)間),帶寬(每秒推理),準(zhǔn)確性(是否正確)和功率(每瓦推理)。如今,物聯(lián)網(wǎng)和智能手機(jī)中都存在著著重于發(fā)展推理硬件。
這個(gè)想法是訓(xùn)練一個(gè)模型識(shí)別一只貓,通過(guò)給它展示一億張貓、狗、熊貓和狐貍的圖片來(lái)區(qū)分它們。推理是向訓(xùn)練過(guò)模型展示貓的新圖片,并得到正確的結(jié)果。
訓(xùn)練和推理都可以在常規(guī)計(jì)算處理器,高性能圖形硬件上執(zhí)行,或者正如我們?cè)诒拘袠I(yè)中看到的那樣,可以針對(duì)一種或多種針對(duì)這兩種方法使用專(zhuān)用的AI解決方案。該領(lǐng)域的公司傾向于專(zhuān)注于另一方——訓(xùn)練需要大型硅芯片,通常在數(shù)據(jù)中心中具有大量?jī)?nèi)存,而推理則可以采用小芯片或IoT模式的芯片來(lái)進(jìn)行。
大多數(shù)訓(xùn)練硬件也具有推理能力,但是由于功能強(qiáng)大,它們往往可以在“云中批量推理”上工作,比如分析完整的人類(lèi)文本或社交媒體上的照片目錄,而不是直接在商店櫥窗中進(jìn)行面部識(shí)別,以實(shí)現(xiàn)銷(xiāo)售目的。
SambaNova及其新型Cardinal AI芯片
大多數(shù)AI芯片公司都專(zhuān)注于推理,這樣的公司大約有5億(可能有點(diǎn)夸張,也可能沒(méi)有)。開(kāi)發(fā)用于訓(xùn)練的芯片則要復(fù)雜得多,因?yàn)樗枰笮酒瑏?lái)完成繁重的任務(wù),所以只有幾家公司。在尋找合適的客戶方面還有其他明顯的困難——如果只有兩家公司愿意購(gòu)買(mǎi)你的產(chǎn)品,那么花數(shù)百萬(wàn)美元是沒(méi)有意義的。因此,大多數(shù)人致力于AI訓(xùn)練芯片的企業(yè)要么很快就會(huì)消失,要么就會(huì)賺大錢(qián)。過(guò)去幾年,多數(shù)大型人工智能訓(xùn)練公司都從投資者那里吸引了大量資金,而其它公司則被收購(gòu)。SambaNova屬于第一種類(lèi)型,他們?yōu)槠湫碌腃ardinal AI芯片爭(zhēng)取到了約4.5億美元的風(fēng)險(xiǎn)投資。
Cardinal AI芯片很大,是單片的,建立在臺(tái)積電的N7進(jìn)程上。在708平方毫米的空間中,它測(cè)量了400億個(gè)晶體管,幾乎接近極限,就像許多其他高性能人工智能訓(xùn)練處理器一樣。SambaNova的芯片是可重新配置的單位數(shù)據(jù),存儲(chǔ),或切換,數(shù)據(jù)優(yōu)化的陣列流動(dòng)(他們稱(chēng)之為一個(gè)可重構(gòu)數(shù)據(jù)流股,或RDU),以覆蓋各種各樣的帶寬,存儲(chǔ)和計(jì)算要求的是來(lái)自各種各樣的訓(xùn)練工作的要求。目的是,如果工作負(fù)載需要更多的內(nèi)存,則芯片可以像FPGA /結(jié)構(gòu)化ASIC一樣進(jìn)行調(diào)整,但是在這種情況下,其性能和效率會(huì)更高。
訓(xùn)練工作負(fù)載的問(wèn)題之一是內(nèi)存帶寬,以及能否從存儲(chǔ)中獲取訓(xùn)練數(shù)據(jù)到計(jì)算芯片中。這就是為什么許多AI訓(xùn)練硬件設(shè)計(jì)師往往都采用高帶寬內(nèi)存,創(chuàng)新的封裝技術(shù)或芯片通信拓?fù)涞脑?。目前,SambaNova不會(huì)透露有關(guān)該芯片的太多細(xì)節(jié),但確實(shí)在一些關(guān)鍵方面指出了它們提供的解決方案。其中最重要的是每個(gè)基數(shù)的存儲(chǔ)容量以及相鄰基數(shù)硅之間的互連帶寬。
SambaNova不會(huì)單獨(dú)出售一塊芯片,但與其他初創(chuàng)企業(yè)一樣,它會(huì)出售安裝在數(shù)據(jù)中心的解決方案。SambaNova產(chǎn)品的基本單元將是稱(chēng)為DataScale SN10-8R的四分之一機(jī)架設(shè)計(jì)(9U?),其特征是AMD EPYC Rome x86主機(jī)與八個(gè)Cardinal芯片和12 TB的DDR4-3200內(nèi)存配對(duì)(是的)。每個(gè)主要主機(jī)1.5 TB。SambaNova將根據(jù)客戶所需的四分之一機(jī)架數(shù)量來(lái)擴(kuò)展其產(chǎn)品,默認(rèn)規(guī)格為1/4機(jī)架(8 RDU),1/2機(jī)架(16 RDU和1機(jī)架(32 RDU)。除此之外,還有定制型號(hào)。
每個(gè)Cardinal芯片都有六個(gè)用于存儲(chǔ)的DDR4內(nèi)存控制器,可實(shí)現(xiàn)153 GB / s的內(nèi)存帶寬。八個(gè)芯片以全部配置連接,并通過(guò)交換網(wǎng)絡(luò)(如NVSwitch)啟用。我們被告知,每個(gè)芯片都具有通往該網(wǎng)絡(luò)的64個(gè)PCIe 4.0通道(通過(guò)四個(gè)x16根聯(lián)合體啟用),該通道在每個(gè)方向上為交換機(jī)提供128 GB / s的速度,但是PCIe上使用的協(xié)議是SambaNova定制的。
這些交換機(jī)還支持系統(tǒng)到系統(tǒng)的連接,SambaNova可以在其中實(shí)現(xiàn)橫向擴(kuò)展到多個(gè)四分之一機(jī)架部署。每個(gè)四分之一機(jī)架將具有一組默認(rèn)的集成網(wǎng)絡(luò)和管理功能,如果客戶需要,則可以由SambaNova進(jìn)行遠(yuǎn)程管理。當(dāng)被問(wèn)及這些系統(tǒng)可以擴(kuò)展到什么級(jí)別時(shí),SambaNova說(shuō)有一個(gè)理論上的限制,但是試圖量化這最終是不實(shí)際的–他們引用了兩個(gè)完整的機(jī)架或八個(gè)SN10-8R系統(tǒng)(也可以是64個(gè)芯片)的價(jià)值。在較低功耗下,性能要比同等的NVIDIA DGX-A100部署高出40%。
在軟件方面,SambaNova擁有自己的圖形優(yōu)化器和編譯器,使當(dāng)前使用PyTorch或TensorFlow的客戶可以在不到一個(gè)小時(shí)的時(shí)間內(nèi)為硬件重新編譯其工作負(fù)載(引用了SambaNova的客戶部署之一)。SambaNova產(chǎn)品負(fù)責(zé)人Marshall Choy在我們的簡(jiǎn)報(bào)中說(shuō),易用性是SambaNova DataScale產(chǎn)品系列的關(guān)鍵支柱之一。根據(jù)Marshall的說(shuō)法,對(duì)于公司而言,重要的是客戶希望訪問(wèn)硬件并在盡可能短的時(shí)間內(nèi)使用,這就是產(chǎn)品所提供的。
Marshall為公司所經(jīng)歷的四個(gè)關(guān)鍵屬性是(按順序)性能,準(zhǔn)確性,規(guī)模和易用性。在此新產(chǎn)品發(fā)布中,許多客戶評(píng)價(jià)都強(qiáng)調(diào)了新硬件的這些屬性,即使在COVID期間安裝和100%遠(yuǎn)程管理也是如此。
盡管今天是產(chǎn)品發(fā)布會(huì),并且公司已退出半隱身模式,但SambaNova已經(jīng)開(kāi)始銷(xiāo)售系統(tǒng)以實(shí)現(xiàn)收入,并一直持續(xù)到2020年。該第一代產(chǎn)品還針對(duì)四個(gè)主要客戶目標(biāo),這主要是由于這些都是SambaNova當(dāng)前客戶正在運(yùn)行的培訓(xùn)工作量。這些產(chǎn)品領(lǐng)域是:Transformers(自然語(yǔ)言,視覺(jué)分析)、高分辨率計(jì)算機(jī)視覺(jué)(4K至50K圖像)、推薦系統(tǒng)(在線零售,銀行欺詐檢測(cè))、人工智能科學(xué)。
作為今天產(chǎn)品發(fā)布的一部分,SambaNova可以將自己與這些細(xì)分市場(chǎng)上一些最常見(jiàn)的硬件進(jìn)行比較,主要是針對(duì)NVIDIA。SambaNova指出,與NVIDIA的產(chǎn)品相比,它們的性能更好,功耗更低。SambaNova還強(qiáng)調(diào)說(shuō),它的芯片是為執(zhí)行循環(huán)訓(xùn)練而構(gòu)建的,允許在有訓(xùn)練推斷的工作負(fù)載期間動(dòng)態(tài)進(jìn)行模型重新分類(lèi)和優(yōu)化,而無(wú)需內(nèi)存轉(zhuǎn)儲(chǔ)和內(nèi)核切換,并且只需提供異構(gòu)零拷貝式解決方案–相比之下,其他硬件必須重新配置自己才能執(zhí)行其中一項(xiàng)。
對(duì)于可能在更廣闊的市場(chǎng)中應(yīng)用,我們?cè)儐?wèn)了MLPerf。有人告訴我們,即使SambaNova是參與MLPerf項(xiàng)目的首批公司之一(特別是SN的創(chuàng)始人),但他們現(xiàn)在專(zhuān)注于為客戶進(jìn)行部署并滿足他們的需求,而不是一般的行業(yè)比較指標(biāo)。但這并不意味著它們不贊成MLPerf。
SambaFlow
SambaFlow是與SN10-8R一起使用的軟件包。該工具鏈從TensorFlow,PyTorch或自定義圖獲取輸入,并進(jìn)行圖分析以轉(zhuǎn)換機(jī)器學(xué)習(xí)計(jì)算或其他自定義計(jì)算所需的內(nèi)容。這包括切片分析,根據(jù)SambaNova的網(wǎng)站,可以自動(dòng)進(jìn)行切片。然后,將分析通過(guò)SambaNova的編譯器進(jìn)行優(yōu)化,以?xún)?yōu)化數(shù)據(jù)流體系結(jié)構(gòu),并考慮物理數(shù)據(jù)位置,然后再作為運(yùn)行時(shí)進(jìn)行傳遞。
該公司認(rèn)為,SambaNova方法的關(guān)鍵要素是要克服GPU在此類(lèi)工作負(fù)載方面的局限性。這些要求包括對(duì)訓(xùn)練模型中1000億個(gè)參數(shù)的支持,以及允許更大批處理大小,模型并行性和硬件利用率以及更高準(zhǔn)確性的更大內(nèi)存占用。
這也可以轉(zhuǎn)化為更低的功耗和(更好的)總體擁有成本。
SambaNova是誰(shuí)
該公司本身成立于2017年9月,其根源于前Sun Oracle架構(gòu)師。這三位創(chuàng)始人都有創(chuàng)建芯片解決方案的背景:
該公司已通過(guò)三輪融資:
A輪,5600萬(wàn)美元,由Walden International和Google Ventures領(lǐng)投
B輪,1.5億美元,由英特爾投資牽頭
C輪,2.5億美元,由貝萊德(BlackRock)領(lǐng)投
這使SambaNova的AI芯片融資額達(dá)到4.56億美元,僅次于GraphCore(4.6億美元)和Horizon Robotics(7億美元),緊隨其后的是Nuvia(2.93億美元),Cambricon(2億美元)和Cerebras(120美元)。
SambaNova在Palo Alto擁有約150名員工。該第一代芯片于2019年春季上市,第一批A0芯片樣品在抵達(dá)后的一小時(shí)內(nèi)上電。該公司在一個(gè)月內(nèi)運(yùn)行了客戶模型。從那時(shí)起,SambaNova在此之前已經(jīng)向特定客戶銷(xiāo)售了一年多-僅有的公眾來(lái)自勞倫斯·利弗莫爾和洛斯阿拉莫斯的能源部。我們明確指出,其他客戶不是投資者,而是知名企業(yè),他們認(rèn)為有必要在新事物方面處于領(lǐng)先地位??蛻艨缭蕉鄠€(gè)細(xì)分市場(chǎng),主要涉及上述四個(gè)細(xì)分市場(chǎng)。
隨著時(shí)間的推移,SambaNova承諾會(huì)發(fā)布更多有關(guān)其產(chǎn)品組合的公告。該公告與NeurIPS(神經(jīng)信息處理系統(tǒng))會(huì)議相吻合,并且該公司在歷史上也曾參加過(guò)HPC風(fēng)格的活動(dòng)。隨著更多詳細(xì)信息的發(fā)布,我們將了解到更多。
另外兩個(gè)小公告
與新的SN10-8R產(chǎn)品一起,SambaNova將提供兩種類(lèi)似于云的服務(wù)選項(xiàng):一種用于學(xué)術(shù)和研究,另一種用于客戶。
第一個(gè)針對(duì)學(xué)術(shù)界的是SambaNova AI平臺(tái)(SNAP),它是供研究機(jī)構(gòu)使用的對(duì)硬件進(jìn)行計(jì)算訪問(wèn)的免費(fèi)使用的開(kāi)發(fā)人員云。根據(jù)項(xiàng)目申請(qǐng)流程授予訪問(wèn)權(quán)限-確切細(xì)節(jié)待確認(rèn)。
第二種是針對(duì)需要云靈活性而無(wú)需支付硬件費(fèi)用的企業(yè)客戶。DataFlow即服務(wù)(如果需要,可以使用DFaaS)將使客戶能夠“租用”一個(gè)系統(tǒng),并將其放置在公司防火墻內(nèi),但具有類(lèi)似云的訪問(wèn)權(quán)限。管理和更新將由SambaNova遠(yuǎn)程完成,就好像它是真正的云產(chǎn)品一樣,但是具有內(nèi)部硬件的安全性方面。這將是一項(xiàng)訂閱產(chǎn)品,主要針對(duì)自然語(yǔ)言,推薦引擎和高分辨率計(jì)算機(jī)視覺(jué)客戶。