關(guān)注AI芯片領(lǐng)域的用戶應(yīng)該聽說過SambaNova,這是一家低調(diào)的公司,他們幾乎不做宣傳,但卻得到了一些支持。在獲得了由Google Ventures,Intel Capital和Blackrock領(lǐng)導(dǎo)的三輪融資以及在美國能源部的Laurence Livermore和Los Alamos的部署之后,他們現(xiàn)在已經(jīng)可以為一些客戶提供新產(chǎn)品。SambaNova已經(jīng)在賺錢,并開始談?wù)撌褂闷湫滦虲ardinal AI處理器構(gòu)建的新型DataScale SN10-8R系統(tǒng)。
AI Silicon:回顧
大多數(shù)人工智能或機器學(xué)習(xí)工作負(fù)載分為兩類:訓(xùn)練和推理。
第一個是訓(xùn)練,在該訓(xùn)練中,算法將獲得數(shù)據(jù)或競爭模型參與其中,其目標(biāo)是從數(shù)百萬,數(shù)十億或數(shù)萬億的參數(shù)中創(chuàng)建最佳算法。這是一個龐大的計算,需要強大的硬件(可擴展的硬件(Google的GPT3需要約1200萬美元的云計算時間))。
第二個是推理,在該模型中,已經(jīng)訓(xùn)練(稱為預(yù)訓(xùn)練)的模型會顯示新數(shù)據(jù),并且必須做出相應(yīng)的響應(yīng)。相比之下,這是一種輕量級的工作負(fù)載,僅需要模型的數(shù)學(xué)功能,其中的基準(zhǔn)測試包括延遲(響應(yīng)時間),帶寬(每秒推理),準(zhǔn)確性(是否正確)和功率(每瓦推理)。如今,物聯(lián)網(wǎng)和智能手機中都存在著著重于發(fā)展推理硬件。
這個想法是訓(xùn)練一個模型識別一只貓,通過給它展示一億張貓、狗、熊貓和狐貍的圖片來區(qū)分它們。推理是向訓(xùn)練過模型展示貓的新圖片,并得到正確的結(jié)果。
訓(xùn)練和推理都可以在常規(guī)計算處理器,高性能圖形硬件上執(zhí)行,或者正如我們在本行業(yè)中看到的那樣,可以針對一種或多種針對這兩種方法使用專用的AI解決方案。該領(lǐng)域的公司傾向于專注于另一方——訓(xùn)練需要大型硅芯片,通常在數(shù)據(jù)中心中具有大量內(nèi)存,而推理則可以采用小芯片或IoT模式的芯片來進(jìn)行。
大多數(shù)訓(xùn)練硬件也具有推理能力,但是由于功能強大,它們往往可以在“云中批量推理”上工作,比如分析完整的人類文本或社交媒體上的照片目錄,而不是直接在商店櫥窗中進(jìn)行面部識別,以實現(xiàn)銷售目的。
SambaNova及其新型Cardinal AI芯片
大多數(shù)AI芯片公司都專注于推理,這樣的公司大約有5億(可能有點夸張,也可能沒有)。開發(fā)用于訓(xùn)練的芯片則要復(fù)雜得多,因為它需要大芯片來完成繁重的任務(wù),所以只有幾家公司。在尋找合適的客戶方面還有其他明顯的困難——如果只有兩家公司愿意購買你的產(chǎn)品,那么花數(shù)百萬美元是沒有意義的。因此,大多數(shù)人致力于AI訓(xùn)練芯片的企業(yè)要么很快就會消失,要么就會賺大錢。過去幾年,多數(shù)大型人工智能訓(xùn)練公司都從投資者那里吸引了大量資金,而其它公司則被收購。SambaNova屬于第一種類型,他們?yōu)槠湫碌腃ardinal AI芯片爭取到了約4.5億美元的風(fēng)險投資。
Cardinal AI芯片很大,是單片的,建立在臺積電的N7進(jìn)程上。在708平方毫米的空間中,它測量了400億個晶體管,幾乎接近極限,就像許多其他高性能人工智能訓(xùn)練處理器一樣。SambaNova的芯片是可重新配置的單位數(shù)據(jù),存儲,或切換,數(shù)據(jù)優(yōu)化的陣列流動(他們稱之為一個可重構(gòu)數(shù)據(jù)流股,或RDU),以覆蓋各種各樣的帶寬,存儲和計算要求的是來自各種各樣的訓(xùn)練工作的要求。目的是,如果工作負(fù)載需要更多的內(nèi)存,則芯片可以像FPGA /結(jié)構(gòu)化ASIC一樣進(jìn)行調(diào)整,但是在這種情況下,其性能和效率會更高。
訓(xùn)練工作負(fù)載的問題之一是內(nèi)存帶寬,以及能否從存儲中獲取訓(xùn)練數(shù)據(jù)到計算芯片中。這就是為什么許多AI訓(xùn)練硬件設(shè)計師往往都采用高帶寬內(nèi)存,創(chuàng)新的封裝技術(shù)或芯片通信拓?fù)涞脑?。目前,SambaNova不會透露有關(guān)該芯片的太多細(xì)節(jié),但確實在一些關(guān)鍵方面指出了它們提供的解決方案。其中最重要的是每個基數(shù)的存儲容量以及相鄰基數(shù)硅之間的互連帶寬。
SambaNova不會單獨出售一塊芯片,但與其他初創(chuàng)企業(yè)一樣,它會出售安裝在數(shù)據(jù)中心的解決方案。SambaNova產(chǎn)品的基本單元將是稱為DataScale SN10-8R的四分之一機架設(shè)計(9U?),其特征是AMD EPYC Rome x86主機與八個Cardinal芯片和12 TB的DDR4-3200內(nèi)存配對(是的)。每個主要主機1.5 TB。SambaNova將根據(jù)客戶所需的四分之一機架數(shù)量來擴展其產(chǎn)品,默認(rèn)規(guī)格為1/4機架(8 RDU),1/2機架(16 RDU和1機架(32 RDU)。除此之外,還有定制型號。
每個Cardinal芯片都有六個用于存儲的DDR4內(nèi)存控制器,可實現(xiàn)153 GB / s的內(nèi)存帶寬。八個芯片以全部配置連接,并通過交換網(wǎng)絡(luò)(如NVSwitch)啟用。我們被告知,每個芯片都具有通往該網(wǎng)絡(luò)的64個PCIe 4.0通道(通過四個x16根聯(lián)合體啟用),該通道在每個方向上為交換機提供128 GB / s的速度,但是PCIe上使用的協(xié)議是SambaNova定制的。
這些交換機還支持系統(tǒng)到系統(tǒng)的連接,SambaNova可以在其中實現(xiàn)橫向擴展到多個四分之一機架部署。每個四分之一機架將具有一組默認(rèn)的集成網(wǎng)絡(luò)和管理功能,如果客戶需要,則可以由SambaNova進(jìn)行遠(yuǎn)程管理。當(dāng)被問及這些系統(tǒng)可以擴展到什么級別時,SambaNova說有一個理論上的限制,但是試圖量化這最終是不實際的–他們引用了兩個完整的機架或八個SN10-8R系統(tǒng)(也可以是64個芯片)的價值。在較低功耗下,性能要比同等的NVIDIA DGX-A100部署高出40%。
在軟件方面,SambaNova擁有自己的圖形優(yōu)化器和編譯器,使當(dāng)前使用PyTorch或TensorFlow的客戶可以在不到一個小時的時間內(nèi)為硬件重新編譯其工作負(fù)載(引用了SambaNova的客戶部署之一)。SambaNova產(chǎn)品負(fù)責(zé)人Marshall Choy在我們的簡報中說,易用性是SambaNova DataScale產(chǎn)品系列的關(guān)鍵支柱之一。根據(jù)Marshall的說法,對于公司而言,重要的是客戶希望訪問硬件并在盡可能短的時間內(nèi)使用,這就是產(chǎn)品所提供的。
Marshall為公司所經(jīng)歷的四個關(guān)鍵屬性是(按順序)性能,準(zhǔn)確性,規(guī)模和易用性。在此新產(chǎn)品發(fā)布中,許多客戶評價都強調(diào)了新硬件的這些屬性,即使在COVID期間安裝和100%遠(yuǎn)程管理也是如此。
盡管今天是產(chǎn)品發(fā)布會,并且公司已退出半隱身模式,但SambaNova已經(jīng)開始銷售系統(tǒng)以實現(xiàn)收入,并一直持續(xù)到2020年。該第一代產(chǎn)品還針對四個主要客戶目標(biāo),這主要是由于這些都是SambaNova當(dāng)前客戶正在運行的培訓(xùn)工作量。這些產(chǎn)品領(lǐng)域是:Transformers(自然語言,視覺分析)、高分辨率計算機視覺(4K至50K圖像)、推薦系統(tǒng)(在線零售,銀行欺詐檢測)、人工智能科學(xué)。
作為今天產(chǎn)品發(fā)布的一部分,SambaNova可以將自己與這些細(xì)分市場上一些最常見的硬件進(jìn)行比較,主要是針對NVIDIA。SambaNova指出,與NVIDIA的產(chǎn)品相比,它們的性能更好,功耗更低。SambaNova還強調(diào)說,它的芯片是為執(zhí)行循環(huán)訓(xùn)練而構(gòu)建的,允許在有訓(xùn)練推斷的工作負(fù)載期間動態(tài)進(jìn)行模型重新分類和優(yōu)化,而無需內(nèi)存轉(zhuǎn)儲和內(nèi)核切換,并且只需提供異構(gòu)零拷貝式解決方案–相比之下,其他硬件必須重新配置自己才能執(zhí)行其中一項。
對于可能在更廣闊的市場中應(yīng)用,我們詢問了MLPerf。有人告訴我們,即使SambaNova是參與MLPerf項目的首批公司之一(特別是SN的創(chuàng)始人),但他們現(xiàn)在專注于為客戶進(jìn)行部署并滿足他們的需求,而不是一般的行業(yè)比較指標(biāo)。但這并不意味著它們不贊成MLPerf。
SambaFlow
SambaFlow是與SN10-8R一起使用的軟件包。該工具鏈從TensorFlow,PyTorch或自定義圖獲取輸入,并進(jìn)行圖分析以轉(zhuǎn)換機器學(xué)習(xí)計算或其他自定義計算所需的內(nèi)容。這包括切片分析,根據(jù)SambaNova的網(wǎng)站,可以自動進(jìn)行切片。然后,將分析通過SambaNova的編譯器進(jìn)行優(yōu)化,以優(yōu)化數(shù)據(jù)流體系結(jié)構(gòu),并考慮物理數(shù)據(jù)位置,然后再作為運行時進(jìn)行傳遞。
該公司認(rèn)為,SambaNova方法的關(guān)鍵要素是要克服GPU在此類工作負(fù)載方面的局限性。這些要求包括對訓(xùn)練模型中1000億個參數(shù)的支持,以及允許更大批處理大小,模型并行性和硬件利用率以及更高準(zhǔn)確性的更大內(nèi)存占用。
這也可以轉(zhuǎn)化為更低的功耗和(更好的)總體擁有成本。
SambaNova是誰
該公司本身成立于2017年9月,其根源于前Sun Oracle架構(gòu)師。這三位創(chuàng)始人都有創(chuàng)建芯片解決方案的背景:
該公司已通過三輪融資:
A輪,5600萬美元,由Walden International和Google Ventures領(lǐng)投
B輪,1.5億美元,由英特爾投資牽頭
C輪,2.5億美元,由貝萊德(BlackRock)領(lǐng)投
這使SambaNova的AI芯片融資額達(dá)到4.56億美元,僅次于GraphCore(4.6億美元)和Horizon Robotics(7億美元),緊隨其后的是Nuvia(2.93億美元),Cambricon(2億美元)和Cerebras(120美元)。
SambaNova在Palo Alto擁有約150名員工。該第一代芯片于2019年春季上市,第一批A0芯片樣品在抵達(dá)后的一小時內(nèi)上電。該公司在一個月內(nèi)運行了客戶模型。從那時起,SambaNova在此之前已經(jīng)向特定客戶銷售了一年多-僅有的公眾來自勞倫斯·利弗莫爾和洛斯阿拉莫斯的能源部。我們明確指出,其他客戶不是投資者,而是知名企業(yè),他們認(rèn)為有必要在新事物方面處于領(lǐng)先地位??蛻艨缭蕉鄠€細(xì)分市場,主要涉及上述四個細(xì)分市場。
隨著時間的推移,SambaNova承諾會發(fā)布更多有關(guān)其產(chǎn)品組合的公告。該公告與NeurIPS(神經(jīng)信息處理系統(tǒng))會議相吻合,并且該公司在歷史上也曾參加過HPC風(fēng)格的活動。隨著更多詳細(xì)信息的發(fā)布,我們將了解到更多。
另外兩個小公告
與新的SN10-8R產(chǎn)品一起,SambaNova將提供兩種類似于云的服務(wù)選項:一種用于學(xué)術(shù)和研究,另一種用于客戶。
第一個針對學(xué)術(shù)界的是SambaNova AI平臺(SNAP),它是供研究機構(gòu)使用的對硬件進(jìn)行計算訪問的免費使用的開發(fā)人員云。根據(jù)項目申請流程授予訪問權(quán)限-確切細(xì)節(jié)待確認(rèn)。
第二種是針對需要云靈活性而無需支付硬件費用的企業(yè)客戶。DataFlow即服務(wù)(如果需要,可以使用DFaaS)將使客戶能夠“租用”一個系統(tǒng),并將其放置在公司防火墻內(nèi),但具有類似云的訪問權(quán)限。管理和更新將由SambaNova遠(yuǎn)程完成,就好像它是真正的云產(chǎn)品一樣,但是具有內(nèi)部硬件的安全性方面。這將是一項訂閱產(chǎn)品,主要針對自然語言,推薦引擎和高分辨率計算機視覺客戶。