新興的人工智能處理器創(chuàng)業(yè)公司Habana Labs 2016年創(chuàng)立于以色列特拉維夫,最初的業(yè)務(wù)為開發(fā)專為深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練和生產(chǎn)環(huán)境中的推理部署而優(yōu)化的處理器平臺。2018年11月,該公司宣布完成超額認(rèn)購的7500萬美元B輪融資。此次融資由英特爾投資領(lǐng)投,WRV Capital、Bessemer Venture Partners、Battery Ventures和現(xiàn)有投資者等也加入其中。自創(chuàng)立以來,該公司已經(jīng)籌集到1.2億美元,目前在特拉維夫、圣何塞、北京、波蘭設(shè)有辦事處,全球員工人數(shù)量為150人。
2018年9月,Habana Labs正式退出隱身模式,推出首個人工智能(AI)處理器Goya HL-1000,旨在處理各種人工智能推理(Inference)工作負(fù)載,如圖像識別、神經(jīng)機器翻譯、情感分析、推薦系統(tǒng)以及許多其它應(yīng)用。該處理器創(chuàng)下了兩項行業(yè)紀(jì)錄,基于ResNet-50推理基準(zhǔn)實現(xiàn)每秒15,393張圖片的吞吐量,延遲時間為1.3毫秒,功耗僅為100瓦,并獲得150張圖片/每秒/每瓦的電源效率。
今年6月,Habana再接再厲,推出了全新的人工智能訓(xùn)練(Training)處理器Gaudi,配備32GB HBM-2內(nèi)存,目前提供兩種規(guī)格:HL-200—PCIe卡,設(shè)有8個100Gb以太網(wǎng)端口;HL-205—基于OCP-OAM標(biāo)準(zhǔn)的子卡,設(shè)有10個100Gb以太網(wǎng)端口或20個50Gb以太網(wǎng)端口。
Goya和Gaudi兩款處理器均采用16nm工藝制造,Habana Labs首席商務(wù)官Eitan Medina說,工藝對提升Habana產(chǎn)品的性能幫助不大,更多是源于架構(gòu)創(chuàng)新。
Goya
下圖展示的Goya與NVIDIA T4 GPU、英特爾8180 CPU在ResNet-50推理基準(zhǔn)測試中的性能對比,可以看出,與如今數(shù)據(jù)中心部署的一般解決方案相比,Goya性能是T4的3倍,是8180的12倍以上,但延遲只有T4的4%。
而在另一張圖片中,Eitan Medina說英偉達(dá)特別喜歡在公開場合強調(diào)其8片Tesla V100 GPU的性能等同于169片CPU的性能總和,但其實如果和Goya相比,只需3片Goya處理器,就能實現(xiàn)同樣的性能,且后者還具備更低的延遲和更好的能耗比。
“CPU和GPU從架構(gòu)上來看更適合做通用計算和圖形處理,做人工智能的確有些勉為其難?!?Eitan Medina認(rèn)為Goya平臺之所以從誕生到目前為止,9個月的時間內(nèi)依然是市場上性能最為領(lǐng)先的產(chǎn)品,是因為設(shè)計人員的目標(biāo)非常明確,就是要實現(xiàn)深度學(xué)習(xí)推理,并在此基礎(chǔ)上將可編程張量處理器(Tensor Processing Core, TPC)、開發(fā)工具、圖書室和編譯程序等有機的融為一體,共同打造了一個高性能且節(jié)能的處理器平臺。
AI的性能主要體現(xiàn)在兩方面:計算能力和延遲。在ResNet-50基準(zhǔn)測試中,用于衡量批處理性能的Batch size大小直接影響了處理器性能。在數(shù)據(jù)中心中,GPU為了實現(xiàn)高性能,必然要進行大量的批處理運算;如果在普通運算中,為了要實現(xiàn)更大的Batch size,就需要將大量數(shù)據(jù)讀取到內(nèi)存中,但這樣帶來了延遲。Goya的奇妙之處在于它可以令Batch Size等于1,這意味著Goya一次可以處理一張圖片,但在一張圖片之下,又可以實現(xiàn)7000張/秒的性能,這對自動駕駛這類既需要高性能,又需要低延遲的應(yīng)用來說非常合適。
精度是AI推理性能的另一個重要指標(biāo)。通常情況下,在推理和預(yù)測當(dāng)中為了考慮性能和效率,會將通過浮點訓(xùn)練好的模型整齊化(quantization),但此舉又會造成信息丟失,影響最重的計算結(jié)果。得益于強大的算法團隊,Habana成功的在兩者之間找到了平衡。
考慮到很多用戶當(dāng)前的大部分工作仍舊基于CPU/GPU,如果貿(mào)然轉(zhuǎn)換到新的處理器上,之前的工作怎樣能夠快速、準(zhǔn)確的部署到新平臺上肯定是他們最擔(dān)心的事情。Eitan Medina說自己完全理解用戶的這種顧慮,因此Habana labs在SynapseAI軟件棧中對訓(xùn)練模型輸入進行了分析和優(yōu)化,以通過Goya處理器實現(xiàn)高效推理。這款軟件包括一個豐富的內(nèi)核庫,其工具鏈?zhǔn)情_放的,供客戶添加專有內(nèi)核,可與TensorFlow和ONNX等深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)框架無縫交互。
目前,F(xiàn)acebook在其官網(wǎng)上已明確表示Goya成為了第一款支持其Glow機器學(xué)習(xí)編譯環(huán)境的產(chǎn)品,Habana公司也將Goya的驅(qū)動程序開源提供給了Linux,最新版的Linux軟件已經(jīng)集成了Goya驅(qū)動程序。
Gaudi
按照Habana的官方說法,基于Gaudi的訓(xùn)練系統(tǒng)能夠在ResNet-50上提供1650張/秒的圖片處理能力,比擁有相同數(shù)量的NVIDIA V100 GPU系統(tǒng)高四倍,但功耗是V100的一半,約150瓦。此外,得益于創(chuàng)新的架構(gòu),Gaudi可實現(xiàn)訓(xùn)練系統(tǒng)性能的近線性擴展,即使是在較小Batch Size的情況下,也能保持高計算力。因此,基于Gaudi處理器的訓(xùn)練性能可實現(xiàn)從單一設(shè)備擴展至由數(shù)百個處理器搭建的大型系統(tǒng)的線性擴展。
除了領(lǐng)先的性能,Gaudi還為人工智能訓(xùn)練帶來了RDMA over Converged Ethernet (RoCE v2) 功能,從而讓人工智能系統(tǒng)能夠使用標(biāo)準(zhǔn)以太網(wǎng)擴展至任何規(guī)模。相比之下,基于GPU的系統(tǒng)依賴于專有的系統(tǒng)接口,對系統(tǒng)設(shè)計人員來說,這從本質(zhì)上限制了可擴展性和選擇性。
其實NIVIDA也意識到了這個問題。在2019年的GTC大會上,黃仁勛在演講中就重點介紹了英偉達(dá)為什么看好RDMA技術(shù),并隨后以69億美元的價格收購了以色列公司Mellanox。Eitan Medina說在支持RDMA方面Habana與NVIDIA的理念是一致的,不同之處在于Habana直接在單芯片中集成了10個支持RDMA的端口,而V100要支持RDMA功能,必須要通過PCIE接口,然后在外部再接一個支持RDMA的網(wǎng)卡才能實現(xiàn)。另一方面,英偉達(dá)在擴展時采用了私有協(xié)議NVLink,Habana方面認(rèn)為NVLink受限于規(guī)模,不具備實現(xiàn)大規(guī)模的擴展能力。這樣,Gaudi無論是在集成度上還是在RDMA數(shù)量上,都要比V100高出很多。
之所以設(shè)計成兩種不同的接口形式,Eitan Medina解釋說,如果在PCIe形態(tài)中,用戶可以直接用Gaudi替換當(dāng)前服務(wù)器中使用的NVIDIA V100卡;如果采用OCP-OAM接口,這種模組化的結(jié)構(gòu)更易于客戶設(shè)計屬于自己的產(chǎn)品,而英偉達(dá)目前還不支持OCP結(jié)構(gòu),更不支持OAM。
與Gaudi同時發(fā)布的還有一款名為HLS-1的8-Gaudi系統(tǒng),配備了8個HL-205子卡、PCIe外部主機連接器和24個用于連接現(xiàn)有以太網(wǎng)交換機的100Gbps以太網(wǎng)端口,讓客戶能夠通過在19英寸標(biāo)準(zhǔn)機柜中部署多個HLS-1系統(tǒng)實現(xiàn)性能擴展。
Eitan Medina從三個方面將英偉達(dá)DGX-1與HLS-1系統(tǒng)的性能進行了對比。首先,盡管都是8片系統(tǒng),但DGX-1采用了私有協(xié)議NVLink來實現(xiàn)互聯(lián),只能實現(xiàn)相鄰兩顆芯片間的直接互聯(lián),無法實現(xiàn)所有8顆芯片間的直接互聯(lián);其次,如果DGX-1要實現(xiàn)擴展,只能依賴于它的4個100G以太網(wǎng)端口。而HLS-1系統(tǒng)則能夠支持24個100G端口;最后,DGX-1的系統(tǒng)管理和數(shù)據(jù)通訊都必須在PCIE總線上復(fù)用,性能上會有損失。HLS-1為系統(tǒng)管理和數(shù)據(jù)通訊選擇了兩條不同的路徑,大幅提升了總線效率。
舉例而言,在模型并行處理方面,DGX-2提供的NVLink端口有限,最大只能支持16個并行處理,這在很大程度上限制了模型并行處理能力。而HLS-1中的8片Gaudi 卡可以把80個100G的以太網(wǎng)口對外開放實現(xiàn)互聯(lián),從而實現(xiàn)幾十個,甚至幾百個Gaudi系統(tǒng)之間的并行模型化處理。