當(dāng)下,人工智能(AI)產(chǎn)業(yè)正處于從起步向成熟階段的過渡時期,相關(guān)應(yīng)用也處于探索階段,因此,各種專用的AI芯片層出不窮。然而,如果要針對某一個應(yīng)用場景做ASIC化的產(chǎn)品,可能做出來的瞬間就已經(jīng)落后了。另外,因應(yīng)用所處環(huán)節(jié)不同,ASIC化并非完全不可行,例如在端側(cè)的一個固定應(yīng)用場景中,場景很明確就可通過ASIC的方式來做產(chǎn)品,但是,越靠近云端,應(yīng)用變化越大,在這樣的變化下很難部署某一ASIC化的處理器。無論是云端還是云邊端,或者企業(yè)應(yīng)用市場,都對算力要求非常高,因此,通用AI處理器就成為了更加合理的選擇。
與專用AI芯片相比,通用型AI處理器的應(yīng)用范圍更加廣闊,更代表著AI硬件的發(fā)展方向,在這一領(lǐng)域,當(dāng)下最為流行的便是GPU和CPU了。
隨著應(yīng)用需求向更廣和更深層面拓展,GPU在AI領(lǐng)域的應(yīng)用遇到了越來越明顯的瓶頸,首先,GPU和CPU屬于傳統(tǒng)處理器,并不是為AI計算專門設(shè)計的,在AI發(fā)展的初期階段,它們能夠勝任,但在接下來的第二、第三……發(fā)展階段,在更為復(fù)雜的模型和技術(shù)面前,其計算架構(gòu)局限性開始逐步體現(xiàn)出來。
正是在這種背景下,IPU出現(xiàn)了。該處理器是由英國初創(chuàng)企業(yè)Graphcore發(fā)明的,旨在支持機(jī)器智能的新計算需求。其第一代IPU中的1200多個處理器內(nèi)核可以分別處理完全獨(dú)立的任務(wù),并且能夠彼此通信以支持完整的多指令多數(shù)據(jù)并行操作。而這些正是下一代機(jī)器智能的基本要求。
日前在中關(guān)村論壇上,Graphcore聯(lián)合創(chuàng)始人兼首席執(zhí)行官Nigel Toon和Graphcore高級副總裁兼中國區(qū)總經(jīng)理盧濤受邀出席,并分別在中關(guān)村論壇云上論壇和全球科技青年論壇上發(fā)表演講。
據(jù)Graphcore聯(lián)合創(chuàng)始人兼首席執(zhí)行官Nigel Toon介紹,IPU在訓(xùn)練和部署中都可以支持具備高效稀疏計算的大型模型。IPU不僅可以推動創(chuàng)新開發(fā),還可以有效部署這些新模型,更高效的計算可以降低系統(tǒng)總成本。用戶可以在訓(xùn)練和推理中使用相同的IPU硬件,并且可以靈活更改每個CPU所調(diào)用的IPU數(shù)量。
總體來看,Graphcore的業(yè)務(wù)主要分為三部分:一,專為AI從零設(shè)計的IPU處理器;二 Poplar SDK和開發(fā)工具;三,IPU平臺,例如IPU-Machine、可以通過浪潮和戴爾購買的IPU服務(wù)器,以及可大規(guī)模橫向擴(kuò)展的IPU-Pod64。
今年7月,Graphcore發(fā)布了第二代 IPU(Mk2 IPU),Mk2 IPU是一個基于臺積電7nm制程技術(shù)的AI處理器,在823平方毫米的芯片上集成了594億個晶體管。Mk2 IPU擁有250 TFLOPS的AI算力,以及900MB的處理器內(nèi)存儲容量。這樣一個處理器里具有1472個獨(dú)立的處理器核心以及將近9000個獨(dú)立的并行處理器線程,相對于第一代IPU(Mk1 IPU),系統(tǒng)級性能提高了8倍以上。
該公司還新推出了IPU-Machine: M2000(IPU-M2000),這是一款纖巧的數(shù)據(jù)中心刀片,能夠提供1 PFLOP的AI計算能力,并通過專用IPU內(nèi)置了AI橫向擴(kuò)展網(wǎng)絡(luò)架構(gòu)IPU-Fabric。無論您是僅需要一臺IPU-M2000的初創(chuàng)公司,還是希望將數(shù)千臺IPU-M2000連接在一起的云公司,IPU-Machine:M2000(IPU-M2000)都可以滿足您的需求。
技術(shù)亮點(diǎn)
與競品相比,IPU在存儲、通用性、軟件支持和生態(tài)方面有諸多亮點(diǎn)。
在存儲方面,GPU在進(jìn)行AI計算時,使用的是HBM,它能夠?qū)崿F(xiàn)每秒1.6 TB的帶寬和40 GB的容量。Graphcore則提出了一個創(chuàng)新的概念:IPU Exchange Memory。據(jù)Graphcore高級副總裁兼中國區(qū)總經(jīng)理盧濤(Jason Lu)介紹:IPU Exchange Memory包含了片上存儲和流存儲,一個IPU-Machine:M2000的系統(tǒng)能提供每秒180 TB的帶寬以及450 GB的容量,與GPU相比,在帶寬和容量上都有非常大的提升。
具體來看,Graphcore提出的IPU Exchange Memory由兩種存儲構(gòu)成,一種是處理器內(nèi)存儲(In-Processor Memory),就是片上存儲,另外一種是流存儲(Streaming Memory)。Mk2 IPU集成了900 MB的片上存儲,而主流CPU的每個芯片上存儲可能只有幾十M。
與DDR或HBM相比,充足的片上存儲能夠提供50~100倍的帶寬提升和時延的降低,Mk2 IPU中,存儲和計算之間的距離大大縮短了。900 MB的片上存儲和流存儲使得大規(guī)模擴(kuò)展成為可能。
CPU系統(tǒng)里面有一個MMU(內(nèi)存管理單元,Memory Management Unit),其中有一個很重要的單位是TLB,TLB和外存之間能夠進(jìn)行Pageant操作。因?yàn)镸k2 IPU擁有900 MB的片上存儲,可以通過遠(yuǎn)端的流存儲來擴(kuò)展幾百GB的存儲空間。而不需要像GPU或CPU那樣,32 MB或者64 MB的片上存儲需要不停地跟DDR,HBM做數(shù)據(jù)交互。
通過Mk2 IPU內(nèi)片上存儲和流存儲技術(shù)相結(jié)合,IPU-M2000可獲得總共450 GB的容量,片上存儲帶寬也獲得了較大的提升。
對于與競品的對比,盧濤提到了一個IPU的亮點(diǎn),他表示:“NVIDIA聲稱他們構(gòu)建的新數(shù)據(jù)格式TF32可以提高FP32算力。我們則認(rèn)為,最標(biāo)準(zhǔn)的事情是最開放的,例如FP32是IEEE規(guī)定的數(shù)據(jù)格式,開發(fā)者能夠基于FP32用GPU、IPU、CPU來進(jìn)行計算,但如果開發(fā)者使用NVIDIA的TF32數(shù)據(jù)格式,就把自己困住了。”
在性價比比方面,IPU也有優(yōu)勢。盧濤用EfficientNet-B4的訓(xùn)練做了一個對比,如希望達(dá)到EfficientNet-B4在8個IPU-M2000的訓(xùn)練吞吐量,需要投資16個DGX A100,也就是超過300萬美金的費(fèi)用,外加相應(yīng)的電費(fèi)等其它花費(fèi)。也就是說,如果使用DGX A100,為獲取8個IPU-M2000的EfficientNet-B4計算性能,需要投入10倍以上的花費(fèi)。
在軟件和開發(fā)環(huán)境支持方面,Graphcore從零設(shè)計了以計算圖(Graph)為核心的Poplar SDK,能夠方便用戶不論是使用單個IPU-M2000,還是單張PCIe卡,乃至1000個,甚至上萬個IPU,都能獲得完全一致的用戶體驗(yàn)。Poplar SDK向上對接TensorFlow、PyTorch、ONNX、PaddlePaddle等行業(yè)標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)框架。
今年7月,Graphcore開放了PopLibs源代碼。盧濤表示:“Graphcore精神的一部分是將權(quán)力交給AI開發(fā)人員,方便他們自己進(jìn)行修改、優(yōu)化、創(chuàng)新。同時,Graphcore也在大力發(fā)展IPU開發(fā)者社區(qū),其中很重要的一部分是已經(jīng)在中國上線的IPU開發(fā)者云,可提供浪潮IPU服務(wù)器NF5568M5、戴爾IPU服務(wù)器DSS8440、以及IPU-Pod64等不同機(jī)型。IPU開發(fā)者云目前已經(jīng)開放申請使用了。
開發(fā)者能夠非常便捷地獲取IPU,主要有兩種方式:一是通過云,目前可以通過微軟Azure和金山云來獲取IPU;二是通過戴爾或浪潮的IPU服務(wù)器構(gòu)建用戶自己的私有云或自己預(yù)置的計算資源。
談到開放性和創(chuàng)新性,盧濤表示:”Graphcore的IPU平臺,無論IPU-M2000還是IPU-Pod64,在設(shè)計過程中都考慮到了芯片、系統(tǒng)、集群及軟硬件結(jié)合的問題。Graphcore致力于賦能AI創(chuàng)新者進(jìn)行新突破,如果僅僅沿著GPU的路線走,只能通過有限的方式來進(jìn)行一些嘗試。所以,為創(chuàng)新者、開發(fā)者、研究者提供支持是Graphcore研發(fā)的重要動力。如果是由于硬件桎梏導(dǎo)致您的優(yōu)秀作品無法達(dá)到理想性能,Graphcore歡迎開發(fā)者在IPU上進(jìn)行探索和嘗試。“
客戶
談到IPU的應(yīng)用,盧濤表示,目前,IPU在超大規(guī)模數(shù)據(jù)中心與互聯(lián)網(wǎng)、高校及研究機(jī)構(gòu)、醫(yī)療及生命科學(xué)、金融、汽車這五大領(lǐng)域中發(fā)展較快,也受到了很多關(guān)注。到目前為止,Graphcore共發(fā)貨IPU處理器超過一萬顆,服務(wù)全球100多家不同機(jī)構(gòu)。
”我們的一位早期客戶,Carmot Capital在使用我們的產(chǎn)品訓(xùn)練其金融市場預(yù)測模型時,性能提升了26倍。“盧濤說,”微軟在使用IPU幫助診斷肺炎和COVID-19的胸部X光影像時,速度提高了10倍,且準(zhǔn)確性大大超過GPU?!?/p>
微軟是Graphcore的早期的合作者,他們不僅將IPU技術(shù)用于其內(nèi)部AI工作負(fù)載,還在2019年11月將IPU提供給其Azure云計算平臺的用戶使用,從而加速了AI創(chuàng)新者的工作。
另外,微軟、寶馬、博世、戴爾和三星等許多了解創(chuàng)新與應(yīng)用之間關(guān)系的公司,都對Graphcore進(jìn)行了投資。
中國業(yè)務(wù)
對于中國市場,Nigel Toon直言:”新技術(shù)的最直接需求就在中國。中國在人工智能領(lǐng)域處于領(lǐng)先地位,中國認(rèn)識到,人工智能創(chuàng)新與長遠(yuǎn)經(jīng)濟(jì)發(fā)展密不可分。目前,Graphcore的技術(shù)已經(jīng)開始為一些非常成功的中國公司提供支持,并將助力推動中國那些發(fā)展最快、最具創(chuàng)新性的AI初創(chuàng)企業(yè)。不久以后,我們將能夠更多地談?wù)撘恍〨raphcore在中國的合作伙伴,并分享我們合作的細(xì)節(jié)?!?/p>
Graphcore的中文名定為”擬未“,該公司正在壯大中國團(tuán)隊,以便為客戶提供完全本地化的響應(yīng)和支持。Nigel Toon表示:”我們的目標(biāo)是將擬未打造成一家重要的中國公司?!?/p>
中國高校合作方面,在IPU開發(fā)者云上線之后,Graphcore大概收到了三、四十所高校的頂尖AI實(shí)驗(yàn)室和研究機(jī)構(gòu)的使用申請。Graphcore已開始與一部分機(jī)構(gòu)探討合作,有一些機(jī)構(gòu)已在IPU開發(fā)者云上開展工作。
應(yīng)用場景方面,盧濤認(rèn)為中國市場在自然語言處理相關(guān)的應(yīng)用方面發(fā)展非常迅速,且潛力巨大,對訓(xùn)練的算力要求也非常高,這對IPU而言非常重要。