《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 人工智能 > AET原創(chuàng) > Graphcore MLPerf V2.0提交結(jié)果:AI性能大幅提升,Bow IPU系統(tǒng)現(xiàn)已可用

Graphcore MLPerf V2.0提交結(jié)果:AI性能大幅提升,Bow IPU系統(tǒng)現(xiàn)已可用

2022-07-19
來源:電子技術(shù)應(yīng)用
關(guān)鍵詞: Graphcore MLPerf IPU 人工智能 芯片

近日,英國人工智能芯片硬件設(shè)計(jì)初創(chuàng)公司Graphcore發(fā)布其參與MLPerf測試的最新結(jié)果。相較此前,新發(fā)布的Bow系統(tǒng)本次在圖像分類模型ResNet-50和自然語言處理模型BERT上分別實(shí)現(xiàn)了高達(dá)31%和37%的性能提升。此外,還新增了語音轉(zhuǎn)錄模型RNN-T的提交。


Graphcore本次提交有三點(diǎn)值得關(guān)注:

1. 提交了不同規(guī)格和尺度的Bow IPU計(jì)算平臺(tái),包括Bow Pod16、Bow Pod64、Bow Pod128及Bow Pod256,取得令人欣慰的成績;

2. 經(jīng)過兩年的迭代和打磨,公司的軟件已可以較為快速地接入不同的軟件框架。除NVIDIA之外,Graphcore是為數(shù)不多具備足夠軟件成熟度的芯片公司,這是一個(gè)重要的里程碑;

3. 在投入大量人力、物力資源對(duì)硬件、軟件、模型進(jìn)行優(yōu)化的同時(shí),公司持續(xù)推進(jìn)客戶業(yè)務(wù)工作,致力于將算力轉(zhuǎn)化為客戶的價(jià)值。


圖片1.png

 

Graphcore中國工程副總裁、AI算法科學(xué)家金琛以上述三點(diǎn)為中心展開詳盡介紹。


首先,作為MIMD架構(gòu)的圖處理器,Graphcore的芯片是多核的,共1472顆。每個(gè)核都有自己的SRAM,是一個(gè)多核分布式、片上內(nèi)存分布式的多指令多數(shù)據(jù)處理器。除了支持NVIDIA、谷歌、英特爾等公司能夠支持的模型之外,Graphcore還能夠讓這些模型在IPU上也同樣高效運(yùn)行。因此,雖然公司的技術(shù)路線有所不同,但依舊可以取得好成績,并且擁有更多可能性。

(注:這里的圖處理器不是矢量處理器,而是基于AI計(jì)算圖的處理器,所以支持運(yùn)行一些矢量處理器運(yùn)行效果不佳的應(yīng)用場景。)


圖片1.png


另外,Graphcore在軟件和產(chǎn)品方面進(jìn)展豐富。據(jù)介紹,IPU-POD計(jì)算平臺(tái)發(fā)布于2020年第四季度,當(dāng)時(shí)軟件棧為SDK 1.4。經(jīng)過幾代IPU-POD平臺(tái)的演進(jìn),Graphcore在軟件上進(jìn)行了大量優(yōu)化(從SDK 1.4到SDK 2.5),提升了對(duì)不同的AI框架的支持,例如TensorFlow、PyTorch和百度飛槳。同時(shí),也提供了對(duì)高層的開源框架的支持,使開發(fā)者可以通過這些高級(jí)API快速構(gòu)造模型。


平臺(tái)方面,公司在今年第一季度發(fā)布了最新的基于Bow芯片的Bow Pod平臺(tái),這也是本次MLPerf 2.0主要提交的計(jì)算平臺(tái)。“我們?cè)趦蓚€(gè)月的時(shí)間內(nèi)把新發(fā)布的產(chǎn)品轉(zhuǎn)化為實(shí)際的性能以及用戶可以使用的價(jià)值,這對(duì)Graphcore來說是一個(gè)特別大的收獲?!苯痂”硎?,“我們?cè)谌ツ?月提交了MLPerf 1.0,當(dāng)時(shí)使用的是SDK 2.1。在提交MLPerf 1.1時(shí),我們橫向擴(kuò)展到了IPU-POD128和IPU-POD256?,F(xiàn)在使用新一代的芯片迭代,基本上每半年就會(huì)有一個(gè)特別大的提升,對(duì)于一家擁有七百名員工的芯片公司來說,這個(gè)迭代速度也是相當(dāng)驚人的。”從使用SDK 1.4的IPU-POD16在ResNet-50模型進(jìn)行訓(xùn)練,到如今使用SDK 2.5的Bow Pod256在ResNet-50模型上進(jìn)行訓(xùn)練,Graphcore的客戶獲得了整體高達(dá)64倍訓(xùn)練時(shí)間的提升。


圖片1.png

Graphcore本次提交產(chǎn)品的規(guī)格(從左到右,訓(xùn)練時(shí)間尺度從小到大,算力從低到高)


在模型提交類別上,ResNet-50和BERT是標(biāo)準(zhǔn)提交的集合。此外,公司在語音方面開放分區(qū)提交了RNN-T(Recurrent Neural Network Transducer)?!斑@是始于我們客戶的項(xiàng)目,提交開放分區(qū)一方面可以促進(jìn)MLPerf模型的迭代,另一方面也可以讓其他有類似業(yè)務(wù)需求的客戶了解到我們的性能指標(biāo),這對(duì)我們來說是比較有意義的。”金琛表示。


 圖片1.png


MLPerf V2.0提交結(jié)果出爐,Graphcore AI性能再創(chuàng)佳績

 

圖片1.png

Bow Pod在ResNet-50上的提交結(jié)果。2021年底,Graphcore提交過一次ResNet-50。在NVIDIA的DGX-A100和IPU-POD16的對(duì)比上,后者超過NVIDIA,IPU-POD16耗時(shí)28.3分鐘。本次提交結(jié)果為19.64分鐘。而在Bow Pod256上,訓(xùn)練時(shí)間僅需2.67分鐘。


“從幾年前的1小時(shí)到現(xiàn)在的只需大概3分鐘,這就是算力的進(jìn)步給模型迭代帶來的紅利?!苯痂≈v道。


圖片1.png

 Bow Pod在ResNet-50上的提交結(jié)果。從Bow Pod16到Bow Pod256,也存在一個(gè)線性提升。


  圖片1.png

與2021年提交ResNet MLPerf結(jié)果的對(duì)比。從IPU-POD16到Bow Pod16的訓(xùn)練時(shí)間提升了31%;吞吐量的提升約為1.6倍,其中1.3倍來自硬件提升,1.26倍來自軟件提升。Bow Pod256提升了接近30%。


“系統(tǒng)越大,越難提升。我們?cè)诖蟪叨鹊南到y(tǒng)上做了很多通信庫,做了很多集合通信(Collective Communication)上的優(yōu)化,使得在大尺度系統(tǒng)上的表現(xiàn)也有類似的同比例提升?!苯痂〗忉尅?/p>


 圖片1.png

與2021年提交BERT MLPerf結(jié)果的對(duì)比。訓(xùn)練時(shí)間提升了接近37%,吞吐量提升了1.6倍。


本次MLPerf提交中,首次有第三方使用了Graphcore的系統(tǒng)。百度飛槳使用Graphcore系統(tǒng)進(jìn)行了BERT的提交,并展現(xiàn)出和Graphcore的BERT提交幾乎一致的性能,證明了Graphcore的IPU所提供的性能可以有效地跨框架復(fù)現(xiàn),以及IPU生態(tài)進(jìn)一步繁榮的潛力。


“我們與百度飛槳聯(lián)合提交的結(jié)果也十分喜人。PopART是Graphcore自研的框架,是基于芯片所構(gòu)造的高效的訓(xùn)練推理引擎。百度飛槳使用Bow Pod16和Bow Pod64進(jìn)行了BERT在封閉分區(qū)的提交,結(jié)果與Graphcore使用PopART進(jìn)行提交的結(jié)果幾乎一致。此次聯(lián)合提交一方面證明我們的軟件棧非常成熟,能夠快速對(duì)接一個(gè)新的AI框架;另一方面也證明百度飛槳的框架非常高效,沒有任何性能侵入式的設(shè)計(jì)。”


 圖片1.png


此外,金琛還談及Graphcore在價(jià)格方面占據(jù)的優(yōu)勢。


 圖片1.png


“以DGX-A100為參考,在ResNet-50模型上,Bow Pod比DGX-A100快了約30%。如果用大尺度計(jì)算平臺(tái),比如8臺(tái)DGX-A100和Bow Pod256相比,性能對(duì)比約為6x:10x,而Bow Pod的價(jià)格又遠(yuǎn)遠(yuǎn)低于DGX-A100的8倍?!苯痂≈赋觥?/p>


Intel HLS-Gaudi2在本次提交的性能表現(xiàn)也非常不錯(cuò),但因未公布價(jià)格,無法定位他們?cè)趦r(jià)格圖譜上的位置。


將算力轉(zhuǎn)化為客戶價(jià)值

 

圖片1.png

黃標(biāo)為Graphcore歷屆提交的MLPerf模型;紅標(biāo)為客戶需求所帶來的模型遷移。


 圖片1.png

圖片1.png

圖片1.png

圖片1.png

部分客戶成功案例展示。


Graphcore + Aleph Alpha,強(qiáng)強(qiáng)聯(lián)合就模型創(chuàng)新開展合作


 圖片1.png

橫軸為2016年至2024年;縱軸為模型計(jì)算量。


“從2018年BERT-Large的3.3億到2020年GPT3 1750億的模型規(guī)格,在短短兩年的時(shí)間內(nèi)這個(gè)模型就增長了500倍。再到2021年,悟道2.0的1.75萬億和Google Switch Transformer的1.6萬億,一年時(shí)間增長了10倍。我們預(yù)計(jì)未來兩到四年也有百倍的增長,基本上達(dá)到相當(dāng)于人腦的100萬億規(guī)模,在算力上遠(yuǎn)遠(yuǎn)達(dá)不到指數(shù)增長的趨勢。有什么辦法能夠盡量接近模型增長的速度?這是我們接下來想考慮的問題?!币罁?jù)上圖,金琛講道。


 圖片1.png


Aleph Alpha是一家成立于2019年,總部位于德國海德堡的人工智能初創(chuàng)公司。它的創(chuàng)立旨在改變歐洲的人工通用智能(AGI)研究與應(yīng)用。據(jù)介紹,未來Graphcore和Aleph Alpha將依據(jù)各自優(yōu)勢強(qiáng)強(qiáng)結(jié)合,對(duì)大模型、大算力做出聯(lián)合貢獻(xiàn)。


與百度飛槳聯(lián)手閃耀MLPerf,開啟全球范圍首次雙方共同提交先例


圖片1.png

百度飛槳對(duì)接硬件廠商的適配統(tǒng)一方案。

 

“Graphcore給我們提供了一個(gè)新的思路——以子圖或者整圖的方式,跟硬件廠商做高效率對(duì)接。最終的成果大家可以通過MLPerf看到,無論是基于PopART的成績還是基于百度飛槳的成績,基本上性能一致性是比較高的。”百度飛槳產(chǎn)品團(tuán)隊(duì)負(fù)責(zé)人趙喬表示。據(jù)介紹,Graphcore是首家在訓(xùn)練場景中和百度飛槳對(duì)接的硬件廠商,幫助后者在這一過程中使軟件棧得到更好的升級(jí)。另外,雙方本次合作也開啟了全球范圍內(nèi)首次雙方共同提交的先例。“這個(gè)過程有很多技術(shù)上的合作,也在MLPerf的規(guī)則內(nèi)收獲了一些來自MLPerf整個(gè)組織的官方認(rèn)可,同時(shí)這個(gè)過程也存在很多不確定性以及挑戰(zhàn)?!壁w喬表示,“在與Graphcore合作的整個(gè)過程中,我們也感受到無論是Graphcore本地的工程、營銷團(tuán)隊(duì),還是國際團(tuán)隊(duì),都非常崇尚技術(shù),非常開放,并且抱有一個(gè)愿意緊密合作的態(tài)度,所以我們以很高的效率,大概一個(gè)季度多一點(diǎn)的時(shí)間,就完成了整體的聯(lián)合提交。”未來,Graphcore將與百度飛槳在AI Ecosystem的共創(chuàng)方面,以技術(shù)為核心,在生態(tài)、產(chǎn)業(yè)、社區(qū)方面開展更多合作,推動(dòng)AI產(chǎn)業(yè)變革。


圖片1.png


 

1文章最后空三行圖片 (1).jpg

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。