《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 人工智能 > 業(yè)界動(dòng)態(tài) > MLPerf最新榜單,英偉達(dá)迎來大挑戰(zhàn)

MLPerf最新榜單,英偉達(dá)迎來大挑戰(zhàn)

2022-04-14
來源: 半導(dǎo)體行業(yè)觀察

  日前,人工智能領(lǐng)域的芯片性能權(quán)威榜單MLPerf又有了最新的跑分結(jié)果,這次的更新主要在推理部分,尤其是邊緣計(jì)算推理(MLPerf edge inference)和超低功耗推理(MLPerf tiny)反映了芯片行業(yè)新老巨頭(如Nvidia,高通和阿里巴巴等)在相關(guān)方向的最新成果,本文將為讀者詳細(xì)分析。

  MLPerf的背景

  隨著人工智能的發(fā)展,相關(guān)芯片對于人工智能相關(guān)應(yīng)用的計(jì)算能力也成為了一個(gè)重要的芯片性能指標(biāo)。在人工智能芯片剛剛興起時(shí),不同的公司往往會展示一個(gè)對于自己最有利的性能結(jié)果,但是不同家芯片公司之間的數(shù)字很難直接比較,例如公司A在1比特量化的ResNet上的延遲結(jié)果很難和公司B在32位浮點(diǎn)精度VGGNet的結(jié)果直接作比較。

  為了解決這個(gè)問題,機(jī)器學(xué)習(xí)硬件相關(guān)的行業(yè)組織ML Commons專門推出了一個(gè)MLPerf跑分平臺,在這個(gè)平臺上ML Commons給出了在一系列主流任務(wù)上的代表性模型,并且定義了這些模型的各種細(xì)節(jié)(例如預(yù)測精度,量化方法等),各大公司可以在自己的芯片上運(yùn)行這些模型并且提交結(jié)果,而結(jié)果經(jīng)過ML Commons驗(yàn)證后就會正式公布在MLPerf的榜單上面。

  目前,MLPerf榜單主要分為幾個(gè)子榜單:數(shù)據(jù)中心訓(xùn)練,數(shù)據(jù)中心推理,邊緣推理(MLPerf Edge inference),移動(dòng)設(shè)備推理以及低功耗推理(MLPerf Tiny)。其中,這次我們著重介紹新分?jǐn)?shù)的邊緣推理主要是針對邊緣服務(wù)器高算力的場景(例如自動(dòng)駕駛),而低功耗推理則是針對物聯(lián)網(wǎng)應(yīng)用進(jìn)行較低功耗人工智能計(jì)算(功耗遠(yuǎn)小于移動(dòng)設(shè)備)的場景。

  邊緣推理新格局

  邊緣推理應(yīng)用在最近兩年得到了非常多的關(guān)注。邊緣計(jì)算推出的初衷是針對機(jī)器人、5G等需要大算力低延遲應(yīng)用,而目前得到關(guān)注的最主要原因是智能駕駛中需要使用的邊緣計(jì)算正在走入主流,因此針對智能駕駛的邊緣計(jì)算可望成為下一個(gè)半導(dǎo)體芯片的重要市場,從而吸引了業(yè)界各大公司的目光。

  從競爭格局來看,針對邊緣場景的人工智能計(jì)算,Nvidia是布局最久的,幾乎從2016年就開始不斷推出和迭代相關(guān)芯片來保持自己在該領(lǐng)域的領(lǐng)先位置,在MLPerf推出的初期在邊緣計(jì)算領(lǐng)域常常也是Nvidia一直領(lǐng)跑。然而,從去年開始,我們看到高通憑借其Cloud AI系列適合邊緣計(jì)算場景的計(jì)算加速卡也成為了這個(gè)領(lǐng)域的一個(gè)重量級競爭者。

  在最近剛剛公布的MLPerf最新跑分結(jié)果中,我們也看到Nvidia和高通成為了邊緣計(jì)算結(jié)果的最大亮點(diǎn)。首先,Nvidia發(fā)布了最新的Orin系列SoC的跑分結(jié)果,相對于上一代產(chǎn)品Xavier有了三到五倍的性能提升。Orin SoC是Nvidia針對機(jī)器人和自動(dòng)駕駛等場景量身定制的設(shè)計(jì),Orin SoC中包括了CPU、GPU、人工智能加速器(DLA)和其他視覺相關(guān)加速器IP,從而能確保該SoC可以高效地執(zhí)行各類相關(guān)任務(wù)。在這次公布的MLPerf相關(guān)分?jǐn)?shù)中,Nvidia也指出這些模型運(yùn)行在SoC的GPU和DLA中,而并不是只運(yùn)行在一個(gè)IP中,從而能實(shí)現(xiàn)更高的性能。

  高通的亮點(diǎn)則主要在于我們看到了越來越多的公司在使用其Cloud AI 100加速卡。自從去年九月高通首先上傳了自己使用Cloud AI 100的結(jié)果后,在這次我們看到了除了高通之外,還有技嘉、阿里巴巴以及KRAI等公司都提交了使用Cloud AI 100的跑分結(jié)果,可見該加速卡已經(jīng)在慢慢得到各大系統(tǒng)廠商的認(rèn)可。

  那么Nvidia Orin和高通Cloud AI 100相比如何呢?首先,這兩款芯片都適合使用在邊緣計(jì)算場景,Orin的整體系統(tǒng)功耗在15-40W,而高通加速卡的功耗也在15 – 20W(注意Orin是SoC,功耗也包括處理器部分,而高通的加速卡還需搭配主處理器才能工作),可以說總體功耗都很接近。從MLPerf的最新分?jǐn)?shù)上來看,兩者的分?jǐn)?shù)也是在伯仲之間。

  高通的圖像分類任務(wù)性能和能效比都很強(qiáng),在總體系統(tǒng)功耗24W的情況下運(yùn)行單數(shù)據(jù)流ResNet可以實(shí)現(xiàn)0.84ms的延遲,而Orin則需要更大的功耗(42W)才能實(shí)現(xiàn)相近的延遲(0.92ms)。同時(shí)在批量處理吞吐量方面,高通的Cloud AI 100也要略勝一籌,24W系統(tǒng)功耗可以每秒處理5849張圖像,如果使用36W功耗則可以每秒處理9780張圖像;相對來說,Nvidia Orin使用42W功耗只能每秒處理4750張基于ResNet的圖像分類任務(wù)。

  然而,Nvidia在物體檢測任務(wù)上性能要強(qiáng)于高通,Orin使用SSD模型運(yùn)行物體檢測任務(wù)時(shí)延遲僅為0.59ms,而Cloud AI 100則需要1.7ms。值得注意的是,Orin和Cloud AI 100在運(yùn)行批量處理物體檢測任務(wù)時(shí)的吞吐量接近(都是每秒處理5300樣本左右)。

  我們認(rèn)為,這樣的性能差別來自于Nvidia和高通的架構(gòu)不同。Nvidia Orin是一個(gè)SoC,并且包括了GPU這樣能較為高效靈活處理不同算子的能力,而高通的Cloud AI 100是一塊專門針對神經(jīng)網(wǎng)絡(luò)的加速卡,一些它處理不了的算子需要通過PCIe接口到主處理器上完成運(yùn)算,這樣就帶來了延遲。對于圖像分類這樣幾乎所有運(yùn)算都在神經(jīng)網(wǎng)絡(luò)中完成的任務(wù),高通的Cloud AI 100有優(yōu)勢,且可以實(shí)現(xiàn)非常高的能效比;但是在物體檢測任務(wù)中,有一些非標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)算子,這時(shí)候能夠較為靈活處理各類算子的Nvidia Orin在延遲方面就有較大優(yōu)勢了。

  事實(shí)上,Nvidia和高通也代表了兩種不同的設(shè)計(jì)思路,即靈活支持各種算子的SoC和為一大類算子做極致優(yōu)化的加速卡。我們認(rèn)為,Nvidia會繼續(xù)這樣的思路,憑借其在軟件生態(tài)上的優(yōu)勢,以網(wǎng)絡(luò)兼容性強(qiáng)為主要賣點(diǎn)。而隨著智能駕駛等對于延遲有高需求應(yīng)用越來越重要,高通是否會為這類應(yīng)用也專門推出SoC是非常值得我們關(guān)注的。

  高通在這方面并不缺乏技術(shù)能力,需要的只是為了該市場專門投入資本做SoC的決心(目前Cloud AI 100并不是專門針對邊緣計(jì)算應(yīng)用,而是同時(shí)針對云端和邊緣計(jì)算的加速卡)。如果高通也決心做相關(guān)的SoC,我們認(rèn)為將會標(biāo)志著邊緣計(jì)算市場的競爭格局進(jìn)入下一個(gè)階段,即有多家大公司都將在這個(gè)領(lǐng)域全力以赴投入大量資源,而這也將從另一個(gè)角度反向推動(dòng)邊緣計(jì)算領(lǐng)域的發(fā)展,因?yàn)樵擃I(lǐng)域的芯片計(jì)算預(yù)計(jì)在較為激烈的競爭格局下會更快地迭代進(jìn)化。

  低功耗推理:阿里巴巴展現(xiàn)人工智能實(shí)力

  除了邊緣計(jì)算之外,MLperf最新分?jǐn)?shù)中,低功耗推理板塊也是一個(gè)亮點(diǎn)因?yàn)榘⒗锇桶鸵蔡峤涣怂麄兪褂米匝行F芯片的結(jié)果。根據(jù)相關(guān)結(jié)果,阿里巴巴的分?jǐn)?shù)大幅領(lǐng)先其他公司,而我們認(rèn)為這是阿里巴巴在人工智能領(lǐng)域軟硬件結(jié)合能力的一個(gè)體現(xiàn)。

  阿里巴巴提交的分?jǐn)?shù)是基于其玄鐵處理器(使用RISC-V指令集架構(gòu)),該處理器上事實(shí)上并不包含專用的人工智能加速器IP,而是由模型直接跑在處理器上。另外,阿里巴巴提交的結(jié)果中,并不是對每個(gè)任務(wù)直接運(yùn)行標(biāo)準(zhǔn)的模型,而是使用了阿里巴巴針對玄鐵處理器優(yōu)化過的模型(同時(shí)確保在每個(gè)任務(wù)中都能與標(biāo)準(zhǔn)模型有一樣的預(yù)測準(zhǔn)確度),因此我們認(rèn)為這樣的大幅領(lǐng)先是軟硬件協(xié)同優(yōu)化的結(jié)果。我們認(rèn)為,在低功耗場景中,只有使用軟硬件協(xié)同優(yōu)化才能實(shí)現(xiàn)最大程度的能效比提升,而在這個(gè)方面擁有強(qiáng)大人工智能研發(fā)能力的阿里巴巴就有了很大的優(yōu)勢。同時(shí),由于阿里巴巴掌握玄鐵CPU的所有設(shè)計(jì)細(xì)節(jié),因此可以在設(shè)計(jì)相關(guān)的神經(jīng)網(wǎng)絡(luò)時(shí)候,保證模型中的算子和數(shù)據(jù)存儲都能夠最大化效率。這樣的結(jié)果無疑是令人振奮的,同時(shí)我們也希望在未來看到更多中國的芯片公司能夠在MLPerf這樣的全球舞臺上領(lǐng)跑整個(gè)領(lǐng)域。

  


微信圖片_20210517164139.jpg

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時(shí)通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。