芯東西7月30日消息,在最新MLPerf基準(zhǔn)測(cè)試中,NVIDIA和谷歌接連公布打破AI性能記錄的消息,使AI戰(zhàn)場(chǎng)上再度彌漫起濃烈的火藥味。
這廂NVIDIA宣布其A100 Tensor Core GPU在加速器的全部8項(xiàng)MLPerf基準(zhǔn)測(cè)試中展現(xiàn)了最快的市售商用產(chǎn)品性能,那廂谷歌稱(chēng)其機(jī)器學(xué)習(xí)訓(xùn)練超級(jí)計(jì)算機(jī)在8項(xiàng)MLPerf基準(zhǔn)測(cè)試連創(chuàng)6個(gè)性能記錄。
谷歌第四代TPU芯片性能也首次披露,得益于硬件創(chuàng)新及軟件優(yōu)化,TPU v4的性能較TPU v3平均提升2.7倍,此外基于TPU v3的谷歌最強(qiáng)ML訓(xùn)練超算峰值性能超430 PFLOPs。
▲NVIDIA DGX SuperPOD集群破MLPerf全部8項(xiàng)AI性能記錄
MLPerf是一個(gè)由亞馬遜、百度、Facebook、谷歌、哈佛大學(xué)、英特爾、微軟和斯坦福大學(xué)等70多家公司和來(lái)自領(lǐng)先大學(xué)的研究人員組成的聯(lián)盟。
MLPerf基準(zhǔn)測(cè)試是衡量機(jī)器學(xué)習(xí)性能的行業(yè)標(biāo)準(zhǔn),展示了AI行業(yè)在處理器、加速器及軟件框架方面的進(jìn)步。NVIDIA和谷歌分別是通用和專(zhuān)用AI芯片的代表玩家。
在此次基準(zhǔn)測(cè)試中,NVIDIA是唯一一家在所有測(cè)試中均采用市售商用產(chǎn)品的公司,采用了其今年最新發(fā)布的旗艦AI產(chǎn)品A100 Tensor Core GPU,以及多個(gè)DGX A100系統(tǒng)互聯(lián)的龐大集群DGX SuperPOD系統(tǒng)。
▲最新MLPerf基準(zhǔn)測(cè)試提交的可商用類(lèi)別部分截圖
其他大多數(shù)提交的或?yàn)轭A(yù)覽類(lèi)別(preview category),產(chǎn)品預(yù)計(jì)幾個(gè)月后才會(huì)面市;或?yàn)檠芯款?lèi)別的產(chǎn)品,較長(zhǎng)一段時(shí)間不會(huì)面市。
例如谷歌提交的AI系統(tǒng)即多用于研究、開(kāi)發(fā)或內(nèi)部使用,或通過(guò)谷歌云對(duì)外提供,如谷歌第二代和第三代TPU超級(jí)計(jì)算機(jī)現(xiàn)已通過(guò)谷歌云對(duì)外開(kāi)放。
谷歌在此次測(cè)試中使用的是其第三代、第四代張量處理單元(TPU)以及谷歌最快的機(jī)器學(xué)習(xí)(ML)訓(xùn)練超級(jí)計(jì)算機(jī)。
在最新MLPerf基準(zhǔn)測(cè)試中,我們也看到了基于華為昇騰910芯片的兩項(xiàng)提交測(cè)試結(jié)果。
▲最新MLPerf基準(zhǔn)測(cè)試提交的研究/開(kāi)發(fā)/內(nèi)部使用類(lèi)別部分截圖
MLPerf訓(xùn)練基準(zhǔn)測(cè)試結(jié)果鏈接:
https://www.mlperf.org/training-results-0-7
01
MLPerf基準(zhǔn)測(cè)試的八種模型
當(dāng)前MLPerf訓(xùn)練基準(zhǔn)測(cè)試包含圖像分類(lèi)、圖像分割、目標(biāo)檢測(cè)、翻譯等8種機(jī)器學(xué)習(xí)模型,通過(guò)測(cè)試訓(xùn)練其中某一模型達(dá)到預(yù)定性能目標(biāo)所需的時(shí)間(單位為分鐘),來(lái)體現(xiàn)其性能。
▲MLPerf訓(xùn)練基準(zhǔn)測(cè)試包含的8種機(jī)器學(xué)習(xí)模型
最新版本的MLPerf包括兩個(gè)新的測(cè)試BERT、DLRM和一個(gè)大幅修訂的測(cè)試MiniGo。
前沿對(duì)話式AI模型BERT是現(xiàn)有最復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型之一,常被用作翻譯、搜索、文本理解、問(wèn)答等任務(wù)。
推薦系統(tǒng)是日益普及的一項(xiàng)AI任務(wù),深度學(xué)習(xí)推薦模型DLRM常被用于在線購(gòu)物推薦、搜索、社會(huì)媒體內(nèi)容排序等任務(wù)。
強(qiáng)化學(xué)習(xí)模型MiniGo使用了全尺寸19x19圍棋版本,是本輪最復(fù)雜的測(cè)試,內(nèi)容涵蓋從游戲到訓(xùn)練的多項(xiàng)操作。
最新一輪MLPerf訓(xùn)練基準(zhǔn)測(cè)試中,提交結(jié)果的有9家公司,共提交了138個(gè)不同系統(tǒng)的結(jié)果,包括商業(yè)可用系統(tǒng),即將發(fā)布的預(yù)覽系統(tǒng)以及正在研究、開(kāi)發(fā)或內(nèi)部使用的RDI系統(tǒng)。
02
NVIDIA在市售商用加速器中,刷新全部8項(xiàng)測(cè)試AI性能紀(jì)錄
根據(jù)發(fā)布的MLPerf基準(zhǔn)測(cè)試結(jié)果,NVIDIA首款基于Ampere(安培)架構(gòu)的加速器A100 Tensor Core GPU在市售商用加速器的全部8項(xiàng)測(cè)試中,具備最快的AI訓(xùn)練性能。
在實(shí)現(xiàn)總體最快的大規(guī)模解決方案方面,利用HDR InfiniBand實(shí)現(xiàn)多個(gè)DGX A100系統(tǒng)互聯(lián)的龐大集群DGX SuperPOD系統(tǒng),在性能上也開(kāi)創(chuàng)了8項(xiàng)全新里程碑。
▲NVIDIA A100集群破MLPerf全部8項(xiàng)AI性能記錄
從圖中可見(jiàn),相較基于NVIDIA V100 GPU的系統(tǒng),基于A100的系統(tǒng)在全部8項(xiàng)AI性能測(cè)試中均有1.5-2.5倍的性能提升。
對(duì)比華為昇騰910處理器在圖像分類(lèi)測(cè)試、谷歌TPU v3在自然語(yǔ)言處理(NLP)測(cè)試的成績(jī),NVIDIA A100的處理速度依然相對(duì)更高。
這已是NVIDIA連續(xù)三次在MLPerf中連續(xù)第三次展現(xiàn)強(qiáng)勁性能。2018年12月,NVIDIA首次在MLPerf訓(xùn)練基準(zhǔn)測(cè)試中創(chuàng)下了6項(xiàng)紀(jì)錄,次年7月NVIDIA再次創(chuàng)下8項(xiàng)紀(jì)錄。
通過(guò)持續(xù)發(fā)展全新GPU、軟件升級(jí)和不斷擴(kuò)展的系統(tǒng)設(shè)計(jì),NVIDIA AI平臺(tái)性能得到進(jìn)一步提升。
測(cè)試結(jié)果顯示,相較于首輪MLPerf訓(xùn)練測(cè)試中使用的基于V100 GPU的系統(tǒng),如今DGX A100系統(tǒng)能夠以相同的吞吐率,實(shí)現(xiàn)高達(dá)4倍的性能提升。
同時(shí),得益于最新的軟件優(yōu)化,基于NVIDIA V100的DGX-1系統(tǒng)亦可實(shí)現(xiàn)高達(dá)2倍的性能提升。
▲過(guò)去一年半,NVIDIA系統(tǒng)性能提升高達(dá)4倍
許多戰(zhàn)略性AI應(yīng)用已受益于NVIDIA帶來(lái)的強(qiáng)大性能,例如阿里巴巴在11月“雙十一”期間創(chuàng)造380億美元的銷(xiāo)售記錄,其推薦系統(tǒng)即使用了NVIDIA GPU,使每秒查詢(xún)量達(dá)到了CPU的100倍以上。
在提交結(jié)果的9家公司中,除NVIDIA之外,有6家公司均提交了基于NVIDIA GPU的測(cè)試結(jié)果,其中包括阿里云、谷歌云和騰訊云三家云服務(wù)提供商,以及戴爾、富士通和浪潮三家服務(wù)器制造商。
▲采用NVIDIA平臺(tái)參與基準(zhǔn)測(cè)試的NVIDIA合作伙伴
包括這些MLPerf合作伙伴在內(nèi)的近二十家云服務(wù)提供商和OEM組成的生態(tài)系統(tǒng),已采用或計(jì)劃采用NVIDIA A100 GPU來(lái)打造在線實(shí)例、服務(wù)器和PCIe卡。
大多數(shù)NVIDIA及其合作伙伴在最新MLPerf基準(zhǔn)測(cè)試中使用的軟件,現(xiàn)已可通過(guò)NGC獲取。
03
第四代TPU平均性能提升2.7倍, 谷歌最強(qiáng)ML訓(xùn)練超算峰值性能超430 PFLOPs
谷歌的第四代TPU ASIC提供了超出TPU v3兩倍的矩陣乘法TFLOPS、內(nèi)存帶寬和互連技術(shù)進(jìn)步。
基于TPU v4的硬件創(chuàng)新以及軟件優(yōu)化,基于相同規(guī)模64個(gè)芯片,谷歌TPU v4的性能相比在MLPerf Training v0.6訓(xùn)練測(cè)試中的TPU v3性能平均提高了2.7倍。
▲谷歌TPU v4在6種模型測(cè)試中的性能相比TPU v3平均提高了2.7倍
谷歌很快將發(fā)布更多關(guān)于TPU v4的信息。
在MLPerf Training v0.7基準(zhǔn)測(cè)試的所有可用類(lèi)別中,谷歌提交的最快速度均超過(guò)了非谷歌提交的最快速度。
▲MLPerf Training v0.7基準(zhǔn)測(cè)試的所有可用類(lèi)別性能表現(xiàn),無(wú)論系統(tǒng)規(guī)模大小從8個(gè)芯片到4096個(gè)芯片,比較都按照總體訓(xùn)練時(shí)間進(jìn)行歸一化,數(shù)值越高越好
在本次MLPerf訓(xùn)練中,谷歌使用的超級(jí)計(jì)算機(jī),規(guī)模比在之前創(chuàng)下三項(xiàng)記錄的云TPU v3 Pod大四倍。
該系統(tǒng)包括4096個(gè)TPU v3芯片和數(shù)百臺(tái)CPU主機(jī),所有連接通過(guò)超高速、超大規(guī)模的自定義互連,能提供超過(guò)430 PFLOPs峰值性能。
▲在谷歌新ML超級(jí)計(jì)算機(jī)上,所有MLPerf提交均在33秒或更快的時(shí)間內(nèi)完成
在谷歌新ML超級(jí)計(jì)算機(jī)上,無(wú)論是使用2048或4096個(gè)TPU芯片,所有這些MLPerf測(cè)試都在33秒或更快的時(shí)間內(nèi)完成。
谷歌使用TensorFlow、JAX和Lingvo中的ML模型結(jié)合XLA實(shí)現(xiàn)了這些成績(jī)。
TensorFlow是谷歌端到端的開(kāi)源機(jī)器學(xué)習(xí)框架,XLA是支持所有谷歌MLPerf測(cè)試的底層編譯器技術(shù),Lingvo是使用TensorFlow構(gòu)建的序列模型高級(jí)框架,JAX是一種基于可組合函數(shù)轉(zhuǎn)換的新型研究框架。
這些性能成績(jī)體現(xiàn)了谷歌在推進(jìn)機(jī)器學(xué)習(xí)研究方面的進(jìn)展。
在2015年,谷歌讓一款手機(jī)用當(dāng)時(shí)有最先進(jìn)的硬件加速器需要花費(fèi)三個(gè)多星期進(jìn)行類(lèi)似的訓(xùn)練。僅僅五年時(shí)間,谷歌就可以將同一模型的訓(xùn)練速度提高近5個(gè)數(shù)量級(jí),這一進(jìn)展令人相當(dāng)印象深刻。
谷歌表示,用戶(hù)現(xiàn)可通過(guò)谷歌云使用谷歌的第二代和第三代TPU超級(jí)計(jì)算機(jī)。
04
結(jié)語(yǔ):AI加速器競(jìng)賽良性升級(jí)
機(jī)器學(xué)習(xí)模型的快速訓(xùn)練對(duì)于研究和工程團(tuán)隊(duì)來(lái)說(shuō)至關(guān)重要,而不斷演進(jìn)的通用及專(zhuān)用AI加速芯片正帶來(lái)新的突破。
隨著NVIDIA A100和谷歌TPU v4的問(wèn)世,AI芯片領(lǐng)域戰(zhàn)況將更為激烈,而這些良性的競(jìng)爭(zhēng)也將進(jìn)一步帶動(dòng)AI相關(guān)研究及應(yīng)用落地的快速發(fā)展。