在 2012 年的 ImageNet 挑戰(zhàn)賽(ILSVRC)上,深度卷積神經(jīng)網(wǎng)絡(luò) AlexNet 橫空出世,在圖像分類識別領(lǐng)域?qū)崿F(xiàn)了質(zhì)的飛躍,被認(rèn)為是 AI 時代的標(biāo)志性事件,代表著深度學(xué)習(xí)時代的正式開端。
在此之前,深度學(xué)習(xí)“如何出圈”的一大挑戰(zhàn),就是深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練面臨算力不足的難題。而讓 AlexNet 實現(xiàn)算力突破的關(guān)鍵,就在于當(dāng)時研究者使用了英偉達(dá)的 GPU。
GPU 一戰(zhàn)成名,成為伴隨 AI 技術(shù)一同進(jìn)化的基礎(chǔ)設(shè)施。英偉達(dá)也同時抓住了 AI 計算的新增長機(jī)遇。隨著 AI 算力要求的爆炸式增長,英偉達(dá) GPU 產(chǎn)品系列也經(jīng)歷了多輪的升級。
現(xiàn)在,英偉達(dá)的 GPU 家族又迎來一次 “史上最大”的性能升級。而此次升級距離上一次發(fā)布“地表最強(qiáng) AI 芯片”Tesla V100 已經(jīng)過去三年。
三年蟄伏,一鳴驚人。
?。∟VIDIA A100 GPU)
英偉達(dá)首次推出第 8 代安培 GPU 架構(gòu),以及首款基于安培架構(gòu)的 NVIDIA A100 GPU,采用 7nm 工藝,在和上一代 Volta 架構(gòu) V100 GPU 幾乎相同面積的晶圓上放置了超過 540 億個晶體管,晶體管數(shù)量增長了 2.5 倍,但尺寸卻僅大了 1.3%,而在 AI 訓(xùn)練和推理算力上,均較上一代 Volta 架構(gòu)提升 20 倍,HPC 性能提升到上一代的 2.5 倍。
A100 GPU 的獨(dú)特之處在于,作為一個端到端機(jī)器學(xué)習(xí)加速器,第一次在一個平臺上面統(tǒng)一了 AI 訓(xùn)練和推理,同時也將作為數(shù)據(jù)分析、科學(xué)計算和云圖形設(shè)計等通用工作負(fù)載的加速器。簡單來說 A100 GPU 就是為數(shù)據(jù)中心而生的。
在 A100 GPU 的基礎(chǔ)上,英偉達(dá)同時發(fā)布了全球最強(qiáng) AI 和 HPC 服務(wù)器平臺——HGX A100,全球最先進(jìn)的 AI 系統(tǒng)——DGX A100 系統(tǒng),以及由 140 個 DGX A100 系統(tǒng)組成的 DGX SuperPOD 集群。此外,還有涉及智能網(wǎng)卡、邊緣 AI 服務(wù)器、自動駕駛平臺合作以及一系列軟件層面的平臺型產(chǎn)品的發(fā)布。
可以說,英偉達(dá)這次不是放出一顆“核彈”,而是一個“核彈集群”,還是飽和攻擊的那種。英偉達(dá)從云端到邊緣再到端側(cè),從硬件到軟件再到開源生態(tài),幾乎建立起一個堅不可摧的 AI 計算的壁壘,同時也將 AI 芯片的競爭帶上了一個小玩家難以企及的高度。
英偉達(dá)的 AI 服務(wù)器芯片業(yè)務(wù)正在發(fā)生哪些新變化?A100 GPU 的發(fā)布,對于 AI 服務(wù)器芯片市場有哪些影響,以及對于云計算市場帶來哪些變化?這成為我們在“看熱鬧”之余,要重點(diǎn)探討的幾個問題。
AI 服務(wù)器芯片:英偉達(dá) AI 計算增長新極點(diǎn)
眾所周知,游戲、數(shù)據(jù)中心、專業(yè)視覺化以及自動駕駛等新興業(yè)務(wù)是英偉達(dá)的四大核心業(yè)務(wù)板塊。其中,游戲業(yè)務(wù)雖仍然是營收的支柱板塊,但是受到 PC 游戲市場趨于飽和并向移動端轉(zhuǎn)移的影響,獨(dú)顯業(yè)務(wù)的比重正在逐步縮??;專業(yè)視覺化業(yè)務(wù)一直為英偉達(dá)貢獻(xiàn)著穩(wěn)定營收,但受其他業(yè)務(wù)增長的影響,業(yè)務(wù)占比也在持續(xù)下滑;自動駕駛等新興業(yè)務(wù)板塊,目前只占整體應(yīng)收的很小部分,且增速有限,但可以看作是英偉達(dá)未來的長線市場。
(Nvidia: Sequential Revenue Change)
最明顯的則是英特爾在數(shù)據(jù)中心業(yè)務(wù)板塊的增長。近幾年中其營收大部分時間處于高速增長狀態(tài),且營收占比逐步靠近游戲業(yè)務(wù)。
根據(jù)英偉達(dá)最新的 2020 財年 Q4 財報數(shù)據(jù)顯示,”游戲“收入高達(dá) 14.9 億美元,約占總營收的 47%;而增長強(qiáng)勁的數(shù)據(jù)中心板塊,AI 服務(wù)器芯片的營收達(dá)到 9.68 億美元,同比增長了 42.6%,,逼近 10 億美元大關(guān),遠(yuǎn)遠(yuǎn)超出市場預(yù)期的 8.29 億美元。
整體上,隨著全球數(shù)據(jù)中心,特別是超大型數(shù)據(jù)中心,對 AI 芯片需求的加速擴(kuò)張,英偉達(dá)的 AI 服務(wù)器芯片也迎來了高速增長,正在躍升為英偉達(dá)最具有市場拓展?jié)摿Φ臉I(yè)務(wù)分支。
從業(yè)務(wù)增長的前景上看,英偉達(dá)推出 A100 GPU 服務(wù)器芯片以及 AI 系統(tǒng)集群,所要把守住的正是在當(dāng)前數(shù)據(jù)中心中 AI 服務(wù)器市場的霸主地位。
那么,英偉達(dá)正在如何構(gòu)建這一 AI 服務(wù)器芯片的產(chǎn)品體系呢?
一般來說,對于深度神經(jīng)網(wǎng)絡(luò)算法模型,其模型框架的訓(xùn)練需要涉及非常龐大的數(shù)據(jù)計算,但運(yùn)算方法要求又相對簡單,所以需要在云端進(jìn)行大量高并行、高效率和高數(shù)據(jù)傳輸?shù)倪\(yùn)算。因此相較于擅長復(fù)雜邏輯運(yùn)算、但核心數(shù)較少的 CPU,擁有多個計算單元的 GPU 更適合于進(jìn)行深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練任務(wù)。
這是英偉達(dá)的 GPU 在全球云端 AI 服務(wù)器芯片市場,尤其是訓(xùn)練端,贏得市場先機(jī)的根本原因。與此同時,英偉達(dá)針對一系列 AI 服務(wù)開發(fā)的完備的 TESLA GPU 產(chǎn)品線以及成功布局針對 GPU 的“CUDA”開發(fā)平臺,才是英偉達(dá)在 AI 服務(wù)器芯片市場一家獨(dú)大的主要原因。
從 2016 年推出第一個專為深度學(xué)習(xí)優(yōu)化的 Pascal GPU,到 2017 年又推出性能相比 Pascal 提升 5 倍的新 GPU 架構(gòu) Volta,再到現(xiàn)在推出比 Volta 性能高 20 倍的 Ampere(安培)架構(gòu),英偉達(dá)在數(shù)據(jù)中心的 GPU 產(chǎn)品一直成功實現(xiàn)高速且穩(wěn)定的性能提升。
此外,英偉達(dá)推出了神經(jīng)網(wǎng)絡(luò)推理加速器 TensorRT,可以為深度學(xué)習(xí)應(yīng)用提供低延遲、高吞吐率的部署推理加速,兼容目前幾乎所有主流的深度學(xué)習(xí)框架,使其能夠滿足超大數(shù)據(jù)中心從 AI 訓(xùn)練到部署推理的完整的 AI 構(gòu)建。
而在去年 3 月,英偉達(dá)宣布以 68 億美金收購了以色列網(wǎng)絡(luò)通信芯片公司 Mellanox。通過對 Mellanox 的加速網(wǎng)絡(luò)平臺的整合,英偉達(dá)可以解決通過智能網(wǎng)絡(luò)結(jié)構(gòu)連接大量快速計算節(jié)點(diǎn),以形成巨大的數(shù)據(jù)中心規(guī)模計算引擎的整體架構(gòu)。
就在發(fā)布 A100 GPU 的同時,英偉達(dá)也基于 Mellanox 技術(shù),推出全球第一款高度安全、高效的 25G/50G 以太智能網(wǎng)卡 SmartNIC,將廣泛應(yīng)用于大型云計算數(shù)據(jù)中心,大幅優(yōu)化網(wǎng)絡(luò)及存儲的工作負(fù)載,實現(xiàn) AI 計算的更高安全性和網(wǎng)絡(luò)連接效能。
當(dāng)然,收購 Mellanox 的意義不止于此,除了解決高性能的網(wǎng)絡(luò)連接和算力輸出問題,英偉達(dá)還將也擁有 GPU、SoC、NPU 面向不同細(xì)分領(lǐng)域的三大處理器,這意味著英偉達(dá)已基本具備了獨(dú)立打造 AI 數(shù)據(jù)中心的能力。
整體上,隨著云端數(shù)據(jù)中心正在從傳統(tǒng)的數(shù)據(jù)存儲向著進(jìn)行深度學(xué)習(xí)、高性能計算(HPC)和大數(shù)據(jù)分析的方向演變,英偉達(dá)也將在其中扮演著更加重要的 AI 計算服務(wù)商的角色。
跨越英偉達(dá)的堅壁高墻,AI 計算競賽加劇
當(dāng)然,云端 AI 服務(wù)器芯片市場還遠(yuǎn)未到格局已定的地步,反而在 2019 年迎來最激烈的競爭態(tài)勢。
英偉達(dá)的 GPU 產(chǎn)品,因其高耗能和高價格一直制約著云計算數(shù)據(jù)中心的 AI 算力的成本。從服務(wù)器芯片市場的另一位大佬英特爾,到 AMD、高通,云計算服務(wù)商亞馬遜、谷歌、阿里、華為以及眾多新興的 AI 芯片創(chuàng)業(yè)公司,都在積極投入云端 AI 服務(wù)器芯片的研發(fā),尋求替代 GPU 的解決方案??梢娞煜驴唷癎PU”久矣。
在 2019 年,相比英偉達(dá)的略顯沉寂,其他各家則紛紛推出了自己的 AI 服務(wù)器芯片產(chǎn)品。比如去年上半年,英特爾、亞馬遜、Facebook 以及高通都陸續(xù)推出或宣布推出自己的專用 AI 服務(wù)器芯片,試圖在 AI 推理運(yùn)算上實現(xiàn)對 GPU 和 FPGA 的替代。年中,我國的主要云端 AI 廠商也集體發(fā)力,寒武紀(jì)在 6 月宣布推出第二代云端 AI 芯片思云 270;8 月,華為正式發(fā)布算力最強(qiáng)的 AI 處理器 Ascend910 及全場景 AI 計算框架 MindSpore;9 月,阿里推出當(dāng)時號稱全球最強(qiáng)的 AI 推理芯片含光 800,基本都在對標(biāo)英偉達(dá)的 T4 系列產(chǎn)品。
在所有 AI 芯片的競爭者中,作為第二名的英特爾顯然是最想挑戰(zhàn)英偉達(dá)的霸主位置,也是最有可能挑戰(zhàn)英偉達(dá)的代表。
作為通用服務(wù)器芯片的傳統(tǒng)巨頭,英特爾最有可能的策略就是把 GPU 和 AI 都融入到自己的 CISC 指令集和 CPU 生態(tài)中,也就是把 CPU 和 GPU 部署在一起,云服務(wù)商們只需購買一家的產(chǎn)品,就能更好地發(fā)揮 AI 計算的效能。
在 All IN AI 的英特爾那里,他們是如何來構(gòu)建這一 AI 計算策略的?
英特爾最先補(bǔ)足的就是 AI 硬件平臺版圖,而收購則是最快的方案。2015 年,英特爾先是天價收購了 FPGA 的制造商 Altera,一年后又收購了 Nervana,為全新一代 AI 加速器芯片組奠定了基礎(chǔ)。
去年 12 月,英特爾再次花掉 20 億美元高價收購了成立僅 3 年的以色列數(shù)據(jù)中心 AI 芯片制造商 Habana Labs。與英偉達(dá)收購 Mellanox 一樣異曲同工,通過收購 Habana,英特爾也將補(bǔ)足數(shù)據(jù)中心場景下的通信和 AI 兩種能力。
受到這一收購的激勵,英特爾宣布停止去年 8 月才發(fā)布的用于 AI 訓(xùn)練的 Nervana NNP-T,轉(zhuǎn)而專注于推進(jìn) Habana Labs 的 Gaudi 和 Goya 處理器產(chǎn)品,以對標(biāo)英偉達(dá)的 tesla V100 和推理芯片 T4。此外,一款基于 Xe 架構(gòu)的 GPU 也將在今年中旬面世。
在軟件層面,為應(yīng)對異構(gòu)計算帶來的挑戰(zhàn),英偉達(dá)在去年 11 月發(fā)布了 OneAPI 公開發(fā)行版。不管是 CPU、GPU、FPGA 還是加速器,OneAPI 都嘗試最大程度來簡化和統(tǒng)一這些跨 SVMS 架構(gòu)的創(chuàng)新,以釋放硬件性能。
盡管英特爾以“全力以赴”的姿態(tài)投入到 AI 計算當(dāng)中,通過四處出手收編了涵蓋 GPU、FPGA 到 ASIC 的 AI 芯片產(chǎn)品陣列,并建立了廣泛適用的軟硬件生態(tài)。但是在挑戰(zhàn)英偉達(dá)的通用 GPU 產(chǎn)品上面,仍然還有一定距離。
首先,英特爾通過 CPU 適用于 AI 計算的策略一直未能得到主要云計算廠商的青睞,大多數(shù)廠商仍然樂于選擇 CPU+GPU 或 FPGA 的方案來部署其 AI 訓(xùn)練的硬件方案。而 GPU 仍然是英偉達(dá)的主場,V100 和 T4 仍然是當(dāng)下數(shù)據(jù)中心主流的通用 GPU 和推理加速器。
其次,英特爾在 AI 芯片的布局才剛剛發(fā)力,受到 Nervana AI 芯片一再延遲的影響,Habana 產(chǎn)品才剛剛開始進(jìn)行整合,這將使得英特爾短期內(nèi)難以挑戰(zhàn)英偉達(dá)的 AI 服務(wù)器芯片的市場份額。
而現(xiàn)在英偉達(dá)最新的安培架構(gòu)的 A100 GPU 以及 AI 系統(tǒng)集群的發(fā)布,更是給英特爾以及市場其他競爭對手一場飽和攻擊。盡管說,長期來看云計算廠商和 AI 服務(wù)器芯片廠商開發(fā)的定制芯片會侵蝕一部分 GPU 的份額,而如今都要先跨越英偉達(dá) A100 所搭起的 AI 計算的堅壁與高墻。
AI 計算升級,帶來數(shù)據(jù)中心全新布局方案
我們先看數(shù)據(jù)中心本身的變化。受到 AI 相關(guān)應(yīng)用需求和場景的爆發(fā)式增長,中小型數(shù)據(jù)中心無法承受如此巨量的“AI 計算之痛”,市場對超大型數(shù)據(jù)中心的需求越發(fā)強(qiáng)烈。
第一,以亞馬遜 AWS、微軟 Azure、阿里、谷歌為代表的公有云巨頭,正在占據(jù)超大型數(shù)據(jù)中心的主要市場份額。一方面,超大型數(shù)據(jù)中心將帶來更多的服務(wù)器及配套硬件的增長;另一方面,AI 算法的復(fù)雜度增加和 AI 處理任務(wù)的持續(xù)增長,又需要服務(wù)器的配置以及結(jié)構(gòu)得到持續(xù)升級。
在一些視覺識別為主的 AI 企業(yè),建立一個超算中心就需要部署上萬塊 GPU,對于那些 TOP 級云服務(wù)商的云計算數(shù)據(jù)中心,為支持深度學(xué)習(xí)訓(xùn)練任務(wù),所需要的 GPU 量級也將是海量級別。
第二,云服務(wù)廠商都在推出自研的芯片,來緩解因為價格昂貴和數(shù)據(jù)量巨大而帶來的 GPU 計算成本飆升的問題。這些廠商推出的大多是推理芯片,以節(jié)省 GPU 的通用算力。但這些推理芯片只在通用性上面的不足,造成其很難突破自研自用的局面。
那么,英偉達(dá)的 A100 GPU 芯片的發(fā)布,對云計算數(shù)據(jù)中心帶來哪些新的變化呢?或者說為 AI 服務(wù)器芯片的對手們設(shè)立了怎樣的門檻呢?
首先,作為采用全新的安培架構(gòu)的 A100 GPU,支持每秒 1.5TB 的緩沖帶寬處理,支持 TF32 運(yùn)算和 FP64 雙精度運(yùn)算,分別帶來高達(dá) 20 倍 FP32 的 AI 計算性能和 HPC 應(yīng)用 2.5 倍的性能提升。此外還包括 MIG 新架構(gòu)、NVLink 3.0 以及 AI 運(yùn)算結(jié)構(gòu)的稀疏性等特性,這些使得 A100 加速卡不僅可用于 AI 訓(xùn)練和 AI 推理,還可以用于科學(xué)仿真、AI 對話、基因組與高性能數(shù)據(jù)分析、地震建模及財務(wù)計算等多種通用計算能力。而這一解決方案有可能緩解很多云服務(wù)廠商在推理上面的計算壓力,也對其他廠商的推理芯片帶來一定的競爭壓力。
其次,英偉達(dá)發(fā)布的第三代的 DGX A100 的 AI 系統(tǒng)在提高吞吐量同時,大幅降低數(shù)據(jù)中心的成本。由于 A100 內(nèi)置了新的彈性計算技術(shù),可以分布式的方式進(jìn)行靈活拆分,多實例 GPU 能力允許每個 A100 GPU 被分割成多達(dá)七個獨(dú)立的實例來推斷任務(wù),同時也可以將多個 A100 作為一個巨型 GPU 運(yùn)行,以完成更大的訓(xùn)練任務(wù)。
(“The more you buy,the more money you save!”)
用黃仁勛舉的例子來說,一個典型的 AI 數(shù)據(jù)中心有 50 個 DGX-1 系統(tǒng)用于 AI 訓(xùn)練,600 個 CPU 系統(tǒng)用于 AI 推理,需用 25 個機(jī)架,消耗 630kW 功率,成本逾 1100 萬美元;而完成同樣的工作,一個由 5 個 DGX A100 系統(tǒng)組成的機(jī)架,達(dá)到相同的性能要求,只用 1 個機(jī)架,消耗 28kW 功率,花費(fèi)約 100 萬美元。
也就是說,DGX A100 系統(tǒng)用一個機(jī)架,就能以 1/10 的成本、1/20 的功率、1/25 的空間取代一整個 AI 數(shù)據(jù)中心。
總體而言,英偉達(dá)用一套性能驚人又極具創(chuàng)新性的 AI 計算架構(gòu)與 AI 服務(wù)器芯片硬件,帶來了 AI 數(shù)據(jù)中心計算平臺的全新升級。英偉達(dá)的野心將不再只是提供性能升級的 GPU 硬件產(chǎn)品,而是要重新定義數(shù)據(jù)中心的 AI 計算的規(guī)則,將數(shù)據(jù)中心視作基本的計算單元。
實際來講,一個 DGX A100 GPU 系統(tǒng)的單價就要 20 萬美元,對于要為了 AI 訓(xùn)練而采購成千上萬塊企業(yè)級 GPU 的云計算廠商來說,可想而知成本將有多高?,F(xiàn)在,也只有全球主要的云計算廠商、IT 巨頭以及政府、實驗室為 DGX A100 下了初始訂單。
對于其他競爭對手而言,英偉達(dá)這次在 AI 服務(wù)器芯片及 AI 數(shù)據(jù)中心計算平臺鑄就的堅壁高墻,似乎在短期內(nèi)難以逾越。同時,也會成為未來幾年,AI 服務(wù)器芯片廠商努力去對標(biāo)的性能標(biāo)準(zhǔn)。當(dāng)然,對英偉達(dá) A100 的挑戰(zhàn),也自然就此開始。至于是英特爾、AMD 還是 AWS、谷歌,我們拭目以待。