上周,英特爾發(fā)布采用其10nm工藝的第三代至強(qiáng)可擴(kuò)展處理器Ice Lake。本周一,被英特爾收購的以色列自動駕駛芯片公司Mobileye宣布與自動駕駛(AV)初創(chuàng)公司Udelv 合作,采用其EyeQ 5芯片和全棧AV系統(tǒng)平臺開發(fā)無人駕駛貨運(yùn)車Transporters。
同樣在本周一,英偉達(dá)發(fā)布基于Arm架構(gòu)的數(shù)據(jù)中心處理器Grace,同時發(fā)布自動駕駛(AV)平臺DRIVE Hyperion 8和AV芯片DRIVE Atlan(號稱性能高達(dá)1000TOPS)。
在服務(wù)器CPU市場,Intel擁有超過90%的份額,AMD霄龍系列服務(wù)器CPU始終無法撼動Intel的地位。英偉達(dá)與Arm聯(lián)合開發(fā)的Grace能否對抗英特爾?英偉達(dá)最高性能的自動駕駛芯片和平臺能否勝過英特爾旗下的Mobileye?
在全球兩大最高性能計算和最熱門需求的市場上—數(shù)據(jù)中心和自動駕駛,英偉達(dá)開始正面對決英特爾。多年生活在英特爾陰影下的英偉達(dá)這次能否與英特爾平分秋色,稱霸全球高性能計算(HPC)市場?在回答這個問題之前,讓我們先看看兩家公司各自的“當(dāng)家武器”。
英偉達(dá)AV平臺Hyperion 8和AV芯片DRIVE Atlan
英偉達(dá)CEO黃仁勛在GTU虛擬大會上宣布了DRIVE Atlan,這款計劃2025年量產(chǎn)的下一代DRIVE SoC將提供高達(dá)1,000 TOPS的性能,集成有CPU、GPU和深度學(xué)習(xí)加速器(DLA),并為下一代AV提供最新的網(wǎng)絡(luò)和安全性。
Nvidia自動駕駛芯片DRIVE Atlan。(來源: Nvidia)
英偉達(dá)同時發(fā)布了自動駕駛開發(fā)平臺DRIVE Hyperion 8,以及數(shù)字孿生仿真工具DRIVE Sim。該公司聲稱已經(jīng)簽署價值80億美元的汽車合作開發(fā)協(xié)議,合作伙伴包括沃爾沃汽車、奔馳、蔚來、上汽、TuSimple、Zoox、Cruise、法拉第未來和VinFast等公司傳統(tǒng)車廠及造車新勢力。
DRIVE Hyperion 8 AV平臺可以支持?jǐn)?shù)據(jù)采集、AV開發(fā)和測試。(來源: Nvidia)
在英偉達(dá)發(fā)布的所有技術(shù)和產(chǎn)品中,EETimes汽車專欄作家和資深汽車行業(yè)分析師Egil Juliussen認(rèn)為Hyperion 8可能是最有價值的。這個AV開發(fā)平臺可能吸引更多汽車OEM廠商、自動駕駛初創(chuàng)公司和運(yùn)輸公司因?yàn)樗梢詷O大地簡化AV系統(tǒng)設(shè)計流程,并為未來產(chǎn)品的開發(fā)鋪平道路。這類似于IC設(shè)計行業(yè)的開發(fā)系統(tǒng),或者基于AI的自動駕駛行業(yè)的云計算平臺。在主題演講中,黃仁勛確實(shí)提到了分別與亞馬遜AWS和Google Cloud達(dá)成的合作協(xié)議。
Drive Atlan展示出英偉達(dá)基于GPU持續(xù)提升其自動駕駛SoC的一貫做法,但Linley調(diào)研公司高級分析師Mike Demler注意到,英偉達(dá)似乎越來越早地宣布其未來處理器產(chǎn)品,這難道是讓業(yè)界和競爭對手毫無喘息之力嗎?Orin都還沒有量產(chǎn),他們現(xiàn)在又發(fā)布了下一代產(chǎn)品Atlan。Atlan原理圖和1,000 TOPS性能規(guī)格可能只是頂層設(shè)計目標(biāo)罷了。
Nvidia的DRIVE SoC規(guī)劃圖。(Source: Nvidia)
Mike Demler提出質(zhì)疑,采用320 TOPS Xavier的Drive Pegasus是L5系統(tǒng),然后Orin升級到400 TOP,現(xiàn)在Atlan更是躍升至1000 TOPS?英特爾旗下的Mobileye提供的同類AV芯片大約是“ TOPS”性能評級的1/10,而功耗卻低得多,顯然TOPS不是一個可靠的衡量標(biāo)準(zhǔn)。他補(bǔ)充道,贏得奔馳和沃爾沃的設(shè)計是很不錯的,但是不到量產(chǎn)階段就毫無意義。
Juliussen也表示認(rèn)同,1,000 TOPS固然很好,但這幾乎不可能達(dá)到。他認(rèn)為TOPS應(yīng)該代表極度樂觀的處理器速度(Totally Optimistic Processor Speed),加上功耗才有意義。
Demler還對Atlan的SoC架構(gòu)提出了質(zhì)疑,英偉達(dá)希望Atlan一顆芯片就能集成儀表盤、信息娛樂、ADAS/AV、駕駛員監(jiān)控(DMS),以及網(wǎng)絡(luò)網(wǎng)關(guān)等全部汽車駕駛功能。在英偉達(dá)看來,汽車就是有輪子的服務(wù)器。但是,與數(shù)據(jù)中心不同的是,自動駕駛汽車沒有無限的電力供應(yīng)?,F(xiàn)在尚不清楚將所有這些功能都集成在一塊芯片上是否最好的方法,盡管英偉達(dá)會推出一系列Atlan芯片。
Mobileye采取系統(tǒng)級AV策略
英偉達(dá)如何領(lǐng)先汽車市場?憑借其完善的生態(tài)系統(tǒng)(硬件、軟件和AI模型),以及性能不斷提升的SoC。而Mobileye則采取系統(tǒng)級AV策略,其秘密武器是“真正的冗余(true redundancy)”。
與Mobileye合作的AV初創(chuàng)公司Udelv計劃到2028年生產(chǎn)3.5萬輛Transporter無人駕駛貨運(yùn)車,均采用Mobileye的全棧自動駕駛系統(tǒng)。據(jù)Udelv聯(lián)合創(chuàng)始人兼CEO Daniel Laury稱,他們最初采用百度的Apollo平臺,但最終還是選擇了Mobileye,主要是看重后者的“冗余自動駕駛”功能,因?yàn)檫@是“真正的冗余”。Mobileye還采用了一種獨(dú)特的方法,將傳感器分離為兩個通道-一個用于攝像頭,另一個用于雷達(dá)和激光雷達(dá)。其理念是讓每個通道獨(dú)立地證明各自的安全性,然后在將兩個通道融合。相比之下,競爭對手的方法是部署互補(bǔ)性傳感器,即從一開始就將它們?nèi)诤显谝黄?,以?chuàng)建一個單一的模型。
Udelv的Transporter無人駕駛貨運(yùn)車采用Mobileye全棧自動駕駛系統(tǒng)。(來源: Udelv)
Udelv還喜歡Mobileye“道路體驗(yàn)管理”(REM)眾包地圖方案,可以支持廣泛的地圖覆蓋范圍。Mobileye聲稱,他們每天可以繪制超過800萬公里的道路,而且已經(jīng)繪制了將近10億公里的道路。該公司預(yù)計到2024年,每天可以繪制100萬公里的地圖。
英特爾至強(qiáng)Xeon處理器通吃云端、網(wǎng)絡(luò)和智能邊緣
據(jù)英特爾宣傳,與前一代產(chǎn)品相比,最新的第三代至強(qiáng)可擴(kuò)展處理器在主流數(shù)據(jù)中心工作負(fù)載上性能平均提升46%,同時增加了針對AI加速的深度學(xué)習(xí)加速技術(shù)(DL Boost)。采用10nm工藝的至強(qiáng)可擴(kuò)展處理器可以加速云端、人工智能、企業(yè)端、高性能計算、網(wǎng)絡(luò)、安全和邊緣應(yīng)用上的部署。
英特爾執(zhí)行副總裁兼數(shù)據(jù)平臺事業(yè)部總經(jīng)理Navin Shenoy發(fā)布第三代英特爾至強(qiáng)可擴(kuò)展處理器。(來源:Intel)
據(jù)英特爾2021年第一季度業(yè)績顯示,該處理器出貨量已經(jīng)超過20萬顆。其中,全球范圍內(nèi)大型的云服務(wù)提供商即將部署服務(wù),在50個獨(dú)立OxM合作伙伴中有超過250個基于該處理器的設(shè)計,超過20個高性能計算(HPC)實(shí)驗(yàn)室和HPC即服務(wù)環(huán)境正在利用全新至強(qiáng)可擴(kuò)展處理器。
英偉達(dá)基于 Arm 架構(gòu)的數(shù)據(jù)中心 CPU 處理器“Grace”
在GTC2021大會上,英偉達(dá) 發(fā)布其首款基于 Arm 架構(gòu)的數(shù)據(jù)中心 CPU 處理器“Grace”,在最復(fù)雜的 AI和高性能計算工作負(fù)載下,可實(shí)現(xiàn) 10 倍于當(dāng)今最快服務(wù)器的超高性能。
分析認(rèn)為,英偉達(dá)此舉是直接挑戰(zhàn)英特爾在服務(wù)器和數(shù)據(jù)中心計算領(lǐng)域的主導(dǎo)地位,因?yàn)榘l(fā)布會后,英特爾和AMD的股價應(yīng)聲下跌了幾個百分點(diǎn)。
為什么要做這款CPU?
英偉達(dá)認(rèn)為,AI模型的數(shù)據(jù)量和規(guī)模正在成倍增長。當(dāng)今最大的AI模型包括數(shù)十億個參數(shù),并且每兩個半月就會翻一番。訓(xùn)練它們需要一個新的CPU,可以與GPU緊密結(jié)合,以消除系統(tǒng)瓶頸。
英偉達(dá)創(chuàng)始人兼首席執(zhí)行官黃仁勛表示,“NVIDIA Grace? CPU 是超過10,000個工程年的成果,專為滿足全球最先進(jìn)應(yīng)用的計算要求而設(shè)計。”—— 這些應(yīng)用包括自然語言處理、推薦系統(tǒng)、AI 超級計算 —— 其所進(jìn)行的海量數(shù)據(jù)分析需要超高速計算性能和大容量內(nèi)存。
老黃仍然穿著他標(biāo)志性的皮衣,在他們家標(biāo)志性的廚房開著發(fā)布會。唯一的變化是頭發(fā)長了,有人說“老黃這都是被缺貨給愁的”
Grace這個名字來自美國海軍少將、計算機(jī)編程先驅(qū)Grace Hopper。她是計算機(jī)科學(xué)的先驅(qū)之一,也是哈佛Mark 1的第一批程序員和第一個鏈接器的發(fā)明者。
Grace Hopper在20世紀(jì)50年代開創(chuàng)了計算機(jī)編程,發(fā)明了世界上第一個編譯器,被稱為“計算機(jī)軟件工程第一夫人”。
這款CPU產(chǎn)品采用了Arm Neoverse核心,與低功耗內(nèi)存子系統(tǒng)相結(jié)合,以高能效提供高性能。也有人認(rèn)為,這英偉達(dá)是在收購Arm的關(guān)鍵時刻,英偉達(dá)表達(dá)誠意的一款作品。
“前沿的AI和數(shù)據(jù)科學(xué)正推動當(dāng)今的計算機(jī)架構(gòu)超越其極限,以處理規(guī)模難以想象的海量數(shù)據(jù)。NVIDIA 借助 Arm授權(quán)的 IP設(shè)計了 Grace,這是一款專為大規(guī)模AI和HPC設(shè)計的CPU。與GPU和DPU一起, Grace為我們提供了計算的第三種基礎(chǔ)技術(shù),以及為了推進(jìn)AI發(fā)展重構(gòu)數(shù)據(jù)中心的能力。NVIDIA現(xiàn)在是一家擁有三種芯片的公司?!?黃仁勛說到。
比 x86 CPU如何?
英偉達(dá)在新聞稿中描述,Grace是高度專業(yè)化的處理器,工作負(fù)載面向例如訓(xùn)練具有超過1萬億個參數(shù)的新一代NLP模型等。當(dāng)與NVIDIA GPU緊密耦合時,搭載Grace CPU的系統(tǒng)速度比如今基于 NVIDIA DGX ?打造的最先進(jìn)的系統(tǒng)(在 x86 CPU 上運(yùn)行)快 10 倍。
在絕大多數(shù)數(shù)據(jù)中心由現(xiàn)有的CPU提供服務(wù)的同時,Grace將為計算的細(xì)分市場提供服務(wù)。
瑞士國家超級計算機(jī)中心 (CSCS) 和美國能源部洛斯阿拉莫斯國家實(shí)驗(yàn)室 (Los Alamos National Laboratory) 率先宣布計劃構(gòu)建搭載Grace的超級計算機(jī),以支持國家科學(xué)研究工作。
NVIDIA推出Grace的背景是數(shù)據(jù)量和 AI 模型規(guī)模呈指數(shù)級增長。如今最大的 AI 模型包含數(shù)十億個參數(shù),并且參數(shù)數(shù)量每兩個半月就會翻一番。訓(xùn)練這些模型需要一個與 GPU 緊密耦合的新 CPU,以消除系統(tǒng)瓶頸。
NVIDIA 利用 Arm 數(shù)據(jù)中心架構(gòu)極大的靈活性構(gòu)建了 Grace。通過推出新的服務(wù)器級 CPU,NVIDIA正在推進(jìn)在AI和HPC領(lǐng)域中技術(shù)多樣性的目標(biāo)。在這些領(lǐng)域,更多選擇是實(shí)現(xiàn)解決全球最迫切問題所需創(chuàng)新的關(guān)鍵。
Arm 首席執(zhí)行官 Simon Segars 表示:“作為全球授權(quán)范圍最廣的處理器架構(gòu),Arm 每天正在以不可思議的新方式推動創(chuàng)新。NVIDIA 推出Grace 數(shù)據(jù)中心 CPU 明確表明Arm的授權(quán)模式如何促進(jìn)一項重要創(chuàng)新,這將進(jìn)一步支持世界各地 AI 研究人員和科學(xué)家們非凡的工作。”
Grace 的首批使用者
CSCS 和洛斯阿拉莫斯國家實(shí)驗(yàn)室計劃將于 2023 年推出由慧與(Hewlett-Packard Enterprise)構(gòu)建的、搭載Grace的Alps系統(tǒng)。該系統(tǒng)采用新的 HPE Cray EX 超級計算機(jī)產(chǎn)品線以及 NVIDIA HGX 超級計算平臺,除了全新的Grace CPU,還包括 NVIDIA GPU 和 NVIDIA HPC SDK 。
CSCS 總監(jiān) Thomas Schulthess教授表示:“利用 NVIDIA 全新的 Grace CPU,使得我們能將 AI 技術(shù)和傳統(tǒng)的超級計算融合在一起,來解決計算科學(xué)領(lǐng)域一些最難的問題。我們很高興能夠向我們的瑞士和全球用戶提供這款全新 NVIDIA CPU,用于處理分析海量和復(fù)雜的科學(xué)數(shù)據(jù)集。”
洛斯阿拉莫斯國家實(shí)驗(yàn)室主任 Thom Mason 表示:“通過創(chuàng)新地平衡內(nèi)存帶寬和容量,新一代系統(tǒng)將重塑我們機(jī)構(gòu)的計算策略。憑借 NVIDIA 全新 Grace CPU,我們可以在比以前更大的數(shù)據(jù)集上完成高逼真度3D仿真和分析,從而進(jìn)行先進(jìn)的科學(xué)研究工作。”
Alps 系統(tǒng)是新一代超級計算機(jī)中的一員,將取代 CSCS 現(xiàn)有的 Piz Daint 超級計算機(jī)。新一代超級計算機(jī)利用 GPU 加速的深度學(xué)習(xí)技術(shù),將超級計算擴(kuò)展到傳統(tǒng)的建模和模擬領(lǐng)域之外。
Thomas Schulthess 表示:“深度學(xué)習(xí)只是我們添加到工具箱中的一組功能非常強(qiáng)大的工具而已?!?/p>
Alps 利用 NVIDIA CPU 和 GPU 之間的緊密耦合,預(yù)計僅需兩天就能訓(xùn)練出全球最大的自然語言處理模型 GPT-3,比 NVIDIA 的 2.8-AI exaflops Selene 超級計算機(jī)快 7 倍。Selene 超級計算機(jī)目前被 MLPerf 認(rèn)定為世界領(lǐng)先的 AI 超級計算機(jī)。
CSCS 用戶能夠?qū)⑦@種超強(qiáng)的 AI 性能廣泛地應(yīng)用到從自然語言理解中獲益的新興科學(xué)研究。例如,這包括分析和理解科學(xué)論文中提供的海量知識,以及生成用于藥物發(fā)現(xiàn)的新分子。
實(shí)現(xiàn)性能突破
據(jù)英偉達(dá)方面資料,Grace基于第四代 NVIDIA NVLink? 互聯(lián)技術(shù),該技術(shù)在Grace和 NVIDIA GPU 之間提供創(chuàng)紀(jì)錄的 900 GB/s 連接速度,使總帶寬比當(dāng)今領(lǐng)先的服務(wù)器高 30 倍。從CPU到CPU的速度超過600GB/s。
Grace 還將利用創(chuàng)新的 LPDDR5x 內(nèi)存子系統(tǒng),該子系統(tǒng)的帶寬是 DDR4 內(nèi)存的兩倍,能效達(dá) DDR4 的 10 倍。此外,新架構(gòu)提供單一內(nèi)存地址空間的緩存一致性,將系統(tǒng)和 HBM GPU 內(nèi)存相結(jié)合,以簡化可編程性。
Grace將獲得 NVIDIA HPC軟件開發(fā)套件以及全套 CUDA? 和 CUDA-X? 庫的支持,可以對 2,000 多個 GPU 應(yīng)用程序加速,使得應(yīng)對全球重大挑戰(zhàn)的科學(xué)家和研究人員探索速度更快。