繼11月亞馬遜將 Alexa 語音助手的部分計(jì)算任務(wù)轉(zhuǎn)移到自主設(shè)計(jì)的定制設(shè)計(jì)芯片Inferentia 后,近日,其再次宣布推出了全新的AI訓(xùn)練芯片AWS Trainium,據(jù)消息稱,這是該公司用于訓(xùn)練機(jī)器學(xué)習(xí)模型的下一代定制芯片。
這意味著亞馬遜將減少對(duì)英偉達(dá)芯片的依賴。
稱霸AI芯片領(lǐng)域
近年來,AI熱度不斷攀升,AI相關(guān)應(yīng)用也在急劇增長(zhǎng),這引發(fā)了市場(chǎng)對(duì)超大型數(shù)據(jù)中心的強(qiáng)勁需求。另一方面,AI處理任務(wù)的持續(xù)增長(zhǎng),又會(huì)倒逼服務(wù)器的配置要得到持續(xù)的升級(jí)。為了滿足深度學(xué)習(xí)訓(xùn)練任務(wù),硬件的復(fù)雜程度不斷提升,處理器性能也被提出了更高的要求。
目前在AI領(lǐng)域主要有GPU、FPGA 和ASIC三種技術(shù)路線。其中GPU在AI訓(xùn)練方面已經(jīng)發(fā)展到較為成熟的階段。而在GPU芯片領(lǐng)域,英偉達(dá)是龍頭老大。如今,全球估計(jì)有3000家AI創(chuàng)業(yè)公司,其中一半以上都是在英偉達(dá)的平臺(tái)上構(gòu)建的。
回看英偉達(dá)的發(fā)展史,其成立于1993年,這一年,全球有超過二十家的圖形芯片公司,到1997年,這個(gè)數(shù)字猛增至70家。
1999年,英偉達(dá)發(fā)明了GPU,為了讓GPU從軟硬件都走向通用,其又在2006年推出了Tesla架構(gòu),一改之前使用矢量計(jì)算單元做渲染的做法,而是把一個(gè)矢量計(jì)算單元拆成了多個(gè)標(biāo)量計(jì)算渲染單元。這就使得基于這個(gè)架構(gòu)的GPU除了渲染能力強(qiáng)以外,還適合做通用計(jì)算。
也就是在這一年,英偉達(dá)推出了CUDA。按照他們的說法,這是一種用于通用GPU計(jì)算的革命性架構(gòu)。CUDA將使科學(xué)家和研究人員能夠利用GPU的并行處理能力來應(yīng)對(duì)其最復(fù)雜的計(jì)算挑戰(zhàn)。
正是得益于這兩個(gè)方向的布局,英偉達(dá)在AI時(shí)代如魚得水。自2016年起,英偉達(dá)數(shù)據(jù)中心業(yè)務(wù)開始爆發(fā)式增長(zhǎng)。同比增長(zhǎng)率連續(xù)七個(gè)季度(2QFY17-4QFY18)超100%。
英偉達(dá)數(shù)據(jù)中心業(yè)務(wù)單季收入及同比增長(zhǎng)率 資料來源:英偉達(dá)公司官網(wǎng)
與此同時(shí),英偉達(dá)GPU在全球主要云廠商中也獲得了極大的認(rèn)可。根據(jù)Liftr調(diào)查顯示,在阿里云、AWS、微軟Azure以及Google Clound中,Tesla系列GPU的市場(chǎng)占有率比AMD、賽靈思以及以英特爾大幅領(lǐng)先。充分說明英偉達(dá)Tesla系列GPU在通用計(jì)算市場(chǎng)的強(qiáng)大競(jìng)爭(zhēng)力。
逃離英偉達(dá)
當(dāng)然,英偉達(dá)的AI芯片王座也不是那么好坐的。
誠(chéng)如前文所言,一些廠商已經(jīng)開始自研芯片,除了亞馬遜之外,谷歌早在幾年前就推出了自稱性能可達(dá)同等級(jí)GPU產(chǎn)品15~30倍的AI專有芯片TPU;華為在去年8月推出“算力最強(qiáng)”的AI(人工智能)處理器Ascend 910(昇騰910)等。
不過他們自研的大多是推理芯片,意圖在專用性能上打敗英偉達(dá)GPU,以擺脫英偉達(dá)在訓(xùn)練芯片的壟斷。
資料顯示,由于神經(jīng)網(wǎng)絡(luò)模型在訓(xùn)練階段需要處理大量數(shù)據(jù),同時(shí)也要完成不同的學(xué)習(xí)任務(wù),因此目前通用屬性的GPU具備的大量平行運(yùn)算單元,能夠充分滿足“訓(xùn)練”對(duì)運(yùn)算的效率與通用性要求。但進(jìn)入執(zhí)行階段,也就是“推理階段”,一個(gè)算法模型可以根據(jù)一堆量級(jí)不大的新數(shù)據(jù)得出結(jié)論。
這時(shí)候采用GPU就顯得有些“大材小用”。這就是這些廠商為何研發(fā)定制推理芯片重要原因之一,對(duì)于大量推理工作,通用性或許不足,但專用肯定綽綽有余。
不僅如此,這些廠商的自研芯片在它所擅長(zhǎng)的任務(wù)上,可能具備在效能與算力上大幅領(lǐng)先 GPU 的能力。對(duì)比發(fā)現(xiàn),谷歌TPU和特斯拉FSD都能輕易做到相較GPU,性能和效率都高出一截的表現(xiàn),即便這是以犧牲可編程性為代價(jià)。
當(dāng)然,也有一些業(yè)界人士對(duì)這些自研芯片存有疑慮。因?yàn)樗麄冋J(rèn)為,無論是自己做,還是部署其他公司的商用芯片,難度其實(shí)不相上下。
但不管怎么說,這些自研芯片的廠商確實(shí)對(duì)英偉達(dá)造成了一定的威脅,并且聲勢(shì)愈發(fā)浩大。
挑戰(zhàn)英偉達(dá)
與此同時(shí),國(guó)外還存在Graphcore、Intel和AMD這些廠商,他們則希望從通用角度去挑戰(zhàn)英偉達(dá)。
首先是Graphcore,其創(chuàng)始人兼CEO Nigel Toon曾在一次訪談中指出:“如果只是要做基本的前饋卷積神經(jīng)網(wǎng)路(feed-forward convolutional neural networks),GPU是很不錯(cuò)的解決方案,但隨著網(wǎng)路變得越來越復(fù)雜,人們需要全新的解決方案──這也是為何他們要用ASIC和FPGA。我們接觸過的所有創(chuàng)新者都說,GPU正在阻礙他們創(chuàng)新。如果仔細(xì)看他們正在研究的模型類型,你會(huì)發(fā)現(xiàn)主要是卷積神經(jīng)網(wǎng)絡(luò)(CNN),而遞歸神經(jīng)網(wǎng)絡(luò)(RNN)和其他類型結(jié)構(gòu),比如強(qiáng)化學(xué)習(xí),并不能很好地映射到GPU。他們需要足夠好的硬件平臺(tái),這是我們將IPU推向市場(chǎng)的原因?!?/p>
按照Graphcore給出的解釋,其IPU芯片可以進(jìn)行推論或訓(xùn)練,從架構(gòu)的角度來看,這非常重要,因?yàn)殡S著機(jī)器學(xué)習(xí)演進(jìn),系統(tǒng)將能夠從經(jīng)驗(yàn)中學(xué)習(xí)。推論性能表現(xiàn)的關(guān)鍵包括低延遲、能使用小模型、小批次(small batches),以及可能會(huì)嘗試導(dǎo)入稀疏性(sparsity)的訓(xùn)練模型;IPU可以有效地完成所有這些事情。
與市面上領(lǐng)先的GPU方案相比,如果是執(zhí)行用以分類靜態(tài)影像的前饋卷積神經(jīng)網(wǎng)路,GPU的表現(xiàn)已經(jīng)相當(dāng)好,但I(xiàn)PU可以提供兩到三倍的性能優(yōu)勢(shì)、有時(shí)甚至是五倍。對(duì)于更復(fù)雜的模型,例如有資料來回傳遞以嘗試?yán)斫馇榫常ɡ鐚?duì)話)的模型;由于資料被傳遞多次,需要非???。對(duì)于這樣的應(yīng)用,因?yàn)樗械哪P投急4嬖谔幚砥髦校琁PU可以比GPU快很多,甚至可能快十倍、二十倍或者五十倍。
所以在Graphcore眼中,IPU是自CPU、GPU之后的第三大類主流處理器?!巴ㄓ谩痹谶@個(gè)路徑中是個(gè)必選項(xiàng),而毫無猶豫的必要。
同時(shí),英偉達(dá)還面臨著老對(duì)手--AMD以及英特爾的挑釁。
早在英偉達(dá)進(jìn)軍GPGPU的前后,AMD也有與之對(duì)應(yīng)的計(jì)劃,AMD選擇推行“OpenCL”,這導(dǎo)致即使他們?cè)?017年發(fā)布了ROCm平臺(tái)來提供深度學(xué)習(xí)支持,但也改變不了他們GPU在AI時(shí)代幾無所獲的結(jié)局。
于是,今年三月份,AMD又推出了新的CDNA架構(gòu)。基于這個(gè)架構(gòu),AMD在本月中發(fā)布了新一代的Instinct MI100計(jì)算卡。數(shù)據(jù)顯示,新的架構(gòu)可提供高達(dá)11.5 TFLOPS的FP64峰值吞吐量,這使其成為第一個(gè)在FP64中突破10 TFLOPS的GPU。與上一代MI50相比,新加速卡的性能提高了3倍。它還在FP32工作負(fù)載中擁有23.1 TFLOPS的峰值吞吐量。數(shù)據(jù)顯示,AMD的新加速卡在這兩個(gè)類別中都擊敗了Nvidia的A100 GPU。
為了更好地與英偉達(dá)競(jìng)爭(zhēng),AMD還表示,其開源ROCm 4.0開發(fā)人員軟件現(xiàn)在具有開源編譯器,并統(tǒng)一支持OpenMP 5.0,HIP,PyTorch和Tensorflow。
AMD在GPU領(lǐng)域花的心思并不少,今年10月份,AMD還宣布將以350億美元價(jià)位收購(gòu)賽靈思,合并后的公司將擁有AMD CPU + AMD GPU + Xilinx FPGA + Xilinx SmartNIC。當(dāng)然除了硬件外,AMD的Radeon Open Compute (ROCm)混合CPU-GPU開發(fā)環(huán)境,再加上賽靈思Vitis,足以對(duì)抗英偉達(dá)頗受歡迎的CUDA開發(fā)平臺(tái),以及英特爾力推的oneAPI。
英特爾同樣是AI芯片領(lǐng)域的活躍者,據(jù)介紹,英特爾的Xe架構(gòu)GPU將覆蓋從集成顯卡到高性能計(jì)算的所有范圍。其中代號(hào)為Ponte Vecchio的獨(dú)立GPU則是公司面對(duì)HPC建模和仿真以及AI訓(xùn)練而推出的設(shè)計(jì)。Ponte Vecchio將采用英特爾的7納米技術(shù)制造,并將成為英特爾首款針對(duì)HPC和AI工作負(fù)載進(jìn)行了優(yōu)化的基于Xe的GPU。但直到目前為止,尚未看到Intel的這款新品。
近日,IFTD2020上,Intel還發(fā)布了首款用于5G、人工智能、云端與邊緣的eASIC N5X(結(jié)構(gòu)化ASIC),同時(shí)發(fā)布了最新的Intel開放式FPGA堆棧(Intel OFS),這款產(chǎn)品繼承了Agilex FPGA的硬核處理器系統(tǒng)、安全特性,支持Agilex FPGA用于管理啟動(dòng)、身份驗(yàn)證和防篡改特性的安全設(shè)備管理器,采用了Diamond Mesa SoC技術(shù)。
此外,為了更好地在包括AI在內(nèi)的應(yīng)用市場(chǎng)中發(fā)揮其包括CPU、GPU、FPGA和AISC在內(nèi)的芯片的為例,方便開發(fā)者編程,Intel還推出了擁有遠(yuǎn)達(dá)理想的OneAPI。整個(gè)行業(yè)內(nèi),英特爾是目前在異構(gòu)計(jì)算上擁有最全產(chǎn)品線的, 在硬件上擁有CPU、獨(dú)立GPU、FPGA、eASIC、ASIC、VPU、內(nèi)存和存儲(chǔ)等,在軟件上擁有統(tǒng)一開發(fā)平臺(tái)oneAPI。
因此,在未來的AI芯片市場(chǎng)上,我們很難去辨別到底誰會(huì)笑到最后,但很明顯的是,這些廠商將在各自的領(lǐng)域發(fā)力,逼迫英偉達(dá)吐出吞下的巨大市場(chǎng)。
總結(jié)
總的來說,無論是專用還是通用方面,英偉達(dá)都面臨著來自各個(gè)廠商的壓力。尤其是對(duì)于云廠商而言,在巨大利潤(rùn)漩渦下,誰也不能逃脫,自研芯片成為了必然選擇。
當(dāng)然,就目前的AI芯片市場(chǎng)而言,英偉達(dá)仍然可以在一段時(shí)間內(nèi)把控大部分份額,畢竟包括英特爾在內(nèi),大多數(shù)聲勢(shì)響亮的AI芯片公司才剛剛出貨,或正在努力出貨的路上(有些還沒等到出貨就夭折了),這給了英偉達(dá)升級(jí)產(chǎn)品充裕的時(shí)間。
更重要的是,對(duì)于GPU而言,軟件和開發(fā)者生態(tài)才是硬道理。只有做好了這個(gè),才是GPU能夠商用的前提。
逃離英偉達(dá)成為常態(tài),超越英偉達(dá)卻并不容易。