123,123,123

英伟达对决英特尔：Arm服务器CPU挑战至强处理器，AV芯片PK Mobileye

日期： 2021-04-14

來源：电子工程专辑

關鍵詞： 英伟达英特尔 ARM服务器

　　上周，英特爾發(fā)布采用其10nm工藝的第三代至強可擴展處理器Ice Lake。本周一，被英特爾收購的以色列自動駕駛芯片公司Mobileye宣布與自動駕駛（AV）初創(chuàng)公司Udelv 合作，采用其EyeQ 5芯片和全棧AV系統(tǒng)平臺開發(fā)無人駕駛貨運車Transporters。

　　同樣在本周一，英偉達發(fā)布基于Arm架構的數(shù)據(jù)中心處理器Grace，同時發(fā)布自動駕駛（AV）平臺DRIVE Hyperion 8和AV芯片DRIVE Atlan（號稱性能高達1000TOPS）。

　　在服務器CPU市場，Intel擁有超過90%的份額，AMD霄龍系列服務器CPU始終無法撼動Intel的地位。英偉達與Arm聯(lián)合開發(fā)的Grace能否對抗英特爾？英偉達最高性能的自動駕駛芯片和平臺能否勝過英特爾旗下的Mobileye?

　　在全球兩大最高性能計算和最熱門需求的市場上—數(shù)據(jù)中心和自動駕駛，英偉達開始正面對決英特爾。多年生活在英特爾陰影下的英偉達這次能否與英特爾平分秋色，稱霸全球高性能計算（HPC）市場？在回答這個問題之前，讓我們先看看兩家公司各自的“當家武器”。

　　英偉達AV平臺Hyperion 8和AV芯片DRIVE Atlan

　　英偉達CEO黃仁勛在GTU虛擬大會上宣布了DRIVE Atlan，這款計劃2025年量產的下一代DRIVE SoC將提供高達1,000 TOPS的性能，集成有CPU、GPU和深度學習加速器（DLA），并為下一代AV提供最新的網絡和安全性。

　　Nvidia自動駕駛芯片DRIVE Atlan。（來源： Nvidia）

　　英偉達同時發(fā)布了自動駕駛開發(fā)平臺DRIVE Hyperion 8，以及數(shù)字孿生仿真工具DRIVE Sim。該公司聲稱已經簽署價值80億美元的汽車合作開發(fā)協(xié)議，合作伙伴包括沃爾沃汽車、奔馳、蔚來、上汽、TuSimple、Zoox、Cruise、法拉第未來和VinFast等公司傳統(tǒng)車廠及造車新勢力。

　　DRIVE Hyperion 8 AV平臺可以支持數(shù)據(jù)采集、AV開發(fā)和測試。（來源： Nvidia）

　　在英偉達發(fā)布的所有技術和產品中，EETimes汽車專欄作家和資深汽車行業(yè)分析師Egil Juliussen認為Hyperion 8可能是最有價值的。這個AV開發(fā)平臺可能吸引更多汽車OEM廠商、自動駕駛初創(chuàng)公司和運輸公司因為它可以極大地簡化AV系統(tǒng)設計流程，并為未來產品的開發(fā)鋪平道路。這類似于IC設計行業(yè)的開發(fā)系統(tǒng)，或者基于AI的自動駕駛行業(yè)的云計算平臺。在主題演講中，黃仁勛確實提到了分別與亞馬遜AWS和Google Cloud達成的合作協(xié)議。

　　Drive Atlan展示出英偉達基于GPU持續(xù)提升其自動駕駛SoC的一貫做法，但Linley調研公司高級分析師Mike Demler注意到，英偉達似乎越來越早地宣布其未來處理器產品，這難道是讓業(yè)界和競爭對手毫無喘息之力嗎？Orin都還沒有量產，他們現(xiàn)在又發(fā)布了下一代產品Atlan。Atlan原理圖和1,000 TOPS性能規(guī)格可能只是頂層設計目標罷了。

　　Nvidia的DRIVE SoC規(guī)劃圖。（Source: Nvidia）

　　Mike Demler提出質疑，采用320 TOPS Xavier的Drive Pegasus是L5系統(tǒng)，然后Orin升級到400 TOP，現(xiàn)在Atlan更是躍升至1000 TOPS?英特爾旗下的Mobileye提供的同類AV芯片大約是“ TOPS”性能評級的1/10，而功耗卻低得多，顯然TOPS不是一個可靠的衡量標準。他補充道，贏得奔馳和沃爾沃的設計是很不錯的，但是不到量產階段就毫無意義。

　　Juliussen也表示認同，1,000 TOPS固然很好，但這幾乎不可能達到。他認為TOPS應該代表極度樂觀的處理器速度（Totally Optimistic Processor Speed），加上功耗才有意義。

　　Demler還對Atlan的SoC架構提出了質疑，英偉達希望Atlan一顆芯片就能集成儀表盤、信息娛樂、ADAS/AV、駕駛員監(jiān)控（DMS），以及網絡網關等全部汽車駕駛功能。在英偉達看來，汽車就是有輪子的服務器。但是，與數(shù)據(jù)中心不同的是，自動駕駛汽車沒有無限的電力供應?，F(xiàn)在尚不清楚將所有這些功能都集成在一塊芯片上是否最好的方法，盡管英偉達會推出一系列Atlan芯片。

　　Mobileye采取系統(tǒng)級AV策略

　　英偉達如何領先汽車市場？憑借其完善的生態(tài)系統(tǒng)（硬件、軟件和AI模型），以及性能不斷提升的SoC。而Mobileye則采取系統(tǒng)級AV策略，其秘密武器是“真正的冗余（true redundancy）”。

　　與Mobileye合作的AV初創(chuàng)公司Udelv計劃到2028年生產3.5萬輛Transporter無人駕駛貨運車，均采用Mobileye的全棧自動駕駛系統(tǒng)。據(jù)Udelv聯(lián)合創(chuàng)始人兼CEO Daniel Laury稱，他們最初采用百度的Apollo平臺，但最終還是選擇了Mobileye，主要是看重后者的“冗余自動駕駛”功能，因為這是“真正的冗余”。Mobileye還采用了一種獨特的方法，將傳感器分離為兩個通道-一個用于攝像頭，另一個用于雷達和激光雷達。其理念是讓每個通道獨立地證明各自的安全性，然后在將兩個通道融合。相比之下，競爭對手的方法是部署互補性傳感器，即從一開始就將它們融合在一起，以創(chuàng)建一個單一的模型。

　　Udelv的Transporter無人駕駛貨運車采用Mobileye全棧自動駕駛系統(tǒng)。（來源： Udelv）

　　Udelv還喜歡Mobileye“道路體驗管理”（REM）眾包地圖方案，可以支持廣泛的地圖覆蓋范圍。Mobileye聲稱，他們每天可以繪制超過800萬公里的道路，而且已經繪制了將近10億公里的道路。該公司預計到2024年，每天可以繪制100萬公里的地圖。

　　英特爾至強Xeon處理器通吃云端、網絡和智能邊緣

　　據(jù)英特爾宣傳，與前一代產品相比，最新的第三代至強可擴展處理器在主流數(shù)據(jù)中心工作負載上性能平均提升46%，同時增加了針對AI加速的深度學習加速技術（DL Boost）。采用10nm工藝的至強可擴展處理器可以加速云端、人工智能、企業(yè)端、高性能計算、網絡、安全和邊緣應用上的部署。

　　英特爾執(zhí)行副總裁兼數(shù)據(jù)平臺事業(yè)部總經理Navin Shenoy發(fā)布第三代英特爾至強可擴展處理器。（來源：Intel）

　　據(jù)英特爾2021年第一季度業(yè)績顯示，該處理器出貨量已經超過20萬顆。其中，全球范圍內大型的云服務提供商即將部署服務，在50個獨立OxM合作伙伴中有超過250個基于該處理器的設計，超過20個高性能計算（HPC）實驗室和HPC即服務環(huán)境正在利用全新至強可擴展處理器。

　　英偉達基于 Arm 架構的數(shù)據(jù)中心 CPU 處理器“Grace”

　　在GTC2021大會上，英偉達發(fā)布其首款基于 Arm 架構的數(shù)據(jù)中心 CPU 處理器“Grace”，在最復雜的 AI和高性能計算工作負載下，可實現(xiàn) 10 倍于當今最快服務器的超高性能。

　　分析認為，英偉達此舉是直接挑戰(zhàn)英特爾在服務器和數(shù)據(jù)中心計算領域的主導地位，因為發(fā)布會后，英特爾和AMD的股價應聲下跌了幾個百分點。

　　為什么要做這款CPU?

　　英偉達認為，AI模型的數(shù)據(jù)量和規(guī)模正在成倍增長。當今最大的AI模型包括數(shù)十億個參數(shù)，并且每兩個半月就會翻一番。訓練它們需要一個新的CPU，可以與GPU緊密結合，以消除系統(tǒng)瓶頸。

　　英偉達創(chuàng)始人兼首席執(zhí)行官黃仁勛表示，“NVIDIA Grace? CPU 是超過10,000個工程年的成果，專為滿足全球最先進應用的計算要求而設計?！薄?這些應用包括自然語言處理、推薦系統(tǒng)、AI 超級計算 —— 其所進行的海量數(shù)據(jù)分析需要超高速計算性能和大容量內存。

　　老黃仍然穿著他標志性的皮衣，在他們家標志性的廚房開著發(fā)布會。唯一的變化是頭發(fā)長了，有人說“老黃這都是被缺貨給愁的”

　　Grace這個名字來自美國海軍少將、計算機編程先驅Grace Hopper。她是計算機科學的先驅之一，也是哈佛Mark 1的第一批程序員和第一個鏈接器的發(fā)明者。

　　Grace Hopper在20世紀50年代開創(chuàng)了計算機編程，發(fā)明了世界上第一個編譯器，被稱為“計算機軟件工程第一夫人”。

　　這款CPU產品采用了Arm Neoverse核心，與低功耗內存子系統(tǒng)相結合，以高能效提供高性能。也有人認為，這英偉達是在收購Arm的關鍵時刻，英偉達表達誠意的一款作品。

　　“前沿的AI和數(shù)據(jù)科學正推動當今的計算機架構超越其極限，以處理規(guī)模難以想象的海量數(shù)據(jù)。NVIDIA 借助 Arm授權的 IP設計了 Grace，這是一款專為大規(guī)模AI和HPC設計的CPU。與GPU和DPU一起， Grace為我們提供了計算的第三種基礎技術，以及為了推進AI發(fā)展重構數(shù)據(jù)中心的能力。NVIDIA現(xiàn)在是一家擁有三種芯片的公司。” 黃仁勛說到。

　　比 x86 CPU如何？

　　英偉達在新聞稿中描述，Grace是高度專業(yè)化的處理器，工作負載面向例如訓練具有超過1萬億個參數(shù)的新一代NLP模型等。當與NVIDIA GPU緊密耦合時，搭載Grace CPU的系統(tǒng)速度比如今基于 NVIDIA DGX ?打造的最先進的系統(tǒng)（在 x86 CPU 上運行）快 10 倍。

　　在絕大多數(shù)數(shù)據(jù)中心由現(xiàn)有的CPU提供服務的同時，Grace將為計算的細分市場提供服務。

　　瑞士國家超級計算機中心（CSCS）和美國能源部洛斯阿拉莫斯國家實驗室（Los Alamos National Laboratory）率先宣布計劃構建搭載Grace的超級計算機，以支持國家科學研究工作。

　　NVIDIA推出Grace的背景是數(shù)據(jù)量和 AI 模型規(guī)模呈指數(shù)級增長。如今最大的 AI 模型包含數(shù)十億個參數(shù)，并且參數(shù)數(shù)量每兩個半月就會翻一番。訓練這些模型需要一個與 GPU 緊密耦合的新 CPU，以消除系統(tǒng)瓶頸。

　　NVIDIA 利用 Arm 數(shù)據(jù)中心架構極大的靈活性構建了 Grace。通過推出新的服務器級 CPU，NVIDIA正在推進在AI和HPC領域中技術多樣性的目標。在這些領域，更多選擇是實現(xiàn)解決全球最迫切問題所需創(chuàng)新的關鍵。

　　Arm 首席執(zhí)行官 Simon Segars 表示：“作為全球授權范圍最廣的處理器架構，Arm 每天正在以不可思議的新方式推動創(chuàng)新。NVIDIA 推出Grace 數(shù)據(jù)中心 CPU 明確表明Arm的授權模式如何促進一項重要創(chuàng)新，這將進一步支持世界各地 AI 研究人員和科學家們非凡的工作。”

　　Grace 的首批使用者

　　CSCS 和洛斯阿拉莫斯國家實驗室計劃將于 2023 年推出由慧與（Hewlett-Packard Enterprise）構建的、搭載Grace的Alps系統(tǒng)。該系統(tǒng)采用新的 HPE Cray EX 超級計算機產品線以及 NVIDIA HGX 超級計算平臺，除了全新的Grace CPU，還包括 NVIDIA GPU 和 NVIDIA HPC SDK 。

　　CSCS 總監(jiān) Thomas Schulthess教授表示：“利用 NVIDIA 全新的 Grace CPU，使得我們能將 AI 技術和傳統(tǒng)的超級計算融合在一起，來解決計算科學領域一些最難的問題。我們很高興能夠向我們的瑞士和全球用戶提供這款全新 NVIDIA CPU，用于處理分析海量和復雜的科學數(shù)據(jù)集?！?/p>

　　洛斯阿拉莫斯國家實驗室主任 Thom Mason 表示：“通過創(chuàng)新地平衡內存帶寬和容量，新一代系統(tǒng)將重塑我們機構的計算策略。憑借 NVIDIA 全新 Grace CPU，我們可以在比以前更大的數(shù)據(jù)集上完成高逼真度3D仿真和分析，從而進行先進的科學研究工作?！?/p>

　　Alps 系統(tǒng)是新一代超級計算機中的一員，將取代 CSCS 現(xiàn)有的 Piz Daint 超級計算機。新一代超級計算機利用 GPU 加速的深度學習技術，將超級計算擴展到傳統(tǒng)的建模和模擬領域之外。

　　Thomas Schulthess 表示：“深度學習只是我們添加到工具箱中的一組功能非常強大的工具而已。”

　　Alps 利用 NVIDIA CPU 和 GPU 之間的緊密耦合，預計僅需兩天就能訓練出全球最大的自然語言處理模型 GPT-3，比 NVIDIA 的 2.8-AI exaflops Selene 超級計算機快 7 倍。Selene 超級計算機目前被 MLPerf 認定為世界領先的 AI 超級計算機。

　　CSCS 用戶能夠將這種超強的 AI 性能廣泛地應用到從自然語言理解中獲益的新興科學研究。例如，這包括分析和理解科學論文中提供的海量知識，以及生成用于藥物發(fā)現(xiàn)的新分子。

　　實現(xiàn)性能突破

　　據(jù)英偉達方面資料，Grace基于第四代 NVIDIA NVLink? 互聯(lián)技術，該技術在Grace和 NVIDIA GPU 之間提供創(chuàng)紀錄的 900 GB/s 連接速度，使總帶寬比當今領先的服務器高 30 倍。從CPU到CPU的速度超過600GB/s。

　　Grace 還將利用創(chuàng)新的 LPDDR5x 內存子系統(tǒng)，該子系統(tǒng)的帶寬是 DDR4 內存的兩倍，能效達 DDR4 的 10 倍。此外，新架構提供單一內存地址空間的緩存一致性，將系統(tǒng)和 HBM GPU 內存相結合，以簡化可編程性。

　　Grace將獲得 NVIDIA HPC軟件開發(fā)套件以及全套 CUDA? 和 CUDA-X? 庫的支持，可以對 2,000 多個 GPU 應用程序加速，使得應對全球重大挑戰(zhàn)的科學家和研究人員探索速度更快。

版權聲明：本站內容除特別聲明的原創(chuàng)文章之外，轉載內容只為傳遞更多信息，并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創(chuàng)文章及圖片等內容無法一一聯(lián)系確認版權者。如涉及作品內容、版權和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當措施，避免給雙方造成不必要的經濟損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

英伟达对决英特尔：Arm服务器CPU挑战至强处理器，AV芯片PK Mobileye

日期： 2021-04-14

來源： 电子工程专辑

相關內容

來源：电子工程专辑