很遺憾,英偉達(dá)CEO黃仁勛缺席了昨天的GTC CHINA大會,作為英偉達(dá)一年一度的大會,并且極其看重中國市場的英偉達(dá),“教主”級別的人物沒有慣例露面,還真是讓整個(gè)大會寡淡了許多。
看完主論壇以及高峰論壇的我,突然頓悟,雖人未到,但隔著一個(gè)大洋洲,我都感覺到黃教主皮衣下藏著的小心思。
“我不出現(xiàn),不代表沒有我”
公元2020年12月15日,我必須在日期前加上“公元”,因?yàn)槲业男∮钪娓惺艿近S教主想在這天創(chuàng)造一個(gè)改變產(chǎn)業(yè)的定律——“黃氏定律”(Huang's Law),即便我知道黃氏定律一詞在媒體上已經(jīng)傳播好幾年,但黃教主都沒有親自說出口。
“摩爾定律已死,新的定律正在形成,由于技術(shù)的飛速進(jìn)步,圖形處理單元(GPU)有其自己的發(fā)展定律?!睅啄昵暗狞S教主已經(jīng)瘋狂暗示,訓(xùn)練有素的科技圈記者們點(diǎn)頭示意。但黃教主終歸不好意思自己說出口,你看人家戈登摩爾,有在論文上寫“我今天創(chuàng)造一個(gè)摩爾定律”這句話嗎?最好的方法,就是借他人之口,這個(gè)“他人”就是英偉達(dá)首席科學(xué)家Bill Dally。
皮衣沒有出現(xiàn),帶貨的性感姿勢沒有出現(xiàn),“黃氏定律”出現(xiàn)了。一個(gè)本人都不要開口,卻充滿凡爾賽味道的定律出現(xiàn)了。
摩爾定律也不是摩爾一個(gè)人說有就有的,而是通過英特爾數(shù)十年的努力,來達(dá)到預(yù)期,所以才能閃耀半導(dǎo)體歷史,并且死去活來。聽Bill Dally的說法,“黃氏定律”也是如此。
英偉達(dá)首席科學(xué)家Bill Dally
屏幕中的Bill Dally以三個(gè)項(xiàng)目為例,講述了自己帶領(lǐng)的200人的研究團(tuán)隊(duì)如何成功實(shí)現(xiàn)“黃氏定律”——預(yù)測GPU將推動AI性能實(shí)現(xiàn)逐年翻倍:“如果我們真想提高計(jì)算機(jī)性能,黃氏定律就是一項(xiàng)重要指標(biāo),且在可預(yù)見的未來都將一直適用?!?/p>
NVIDIA助力 AI推理性能每年提升一倍以上
此前,Dally曾負(fù)責(zé)NVIDIA在AI、光線追蹤和高速互連領(lǐng)域的相關(guān)研究。
二號凡爾賽玩家必須是Bill Dally,此人擁有120多項(xiàng)專利,在2009年加入NVIDIA之前,曾任斯坦福大學(xué)計(jì)算機(jī)科學(xué)系主任。當(dāng)然我要說的是,全天下玩AI芯片的那么多,為什么且憑什么是你英偉達(dá)的GPU推動AI性能逐年翻倍,都不給其他GPU玩家,甚至AI芯片玩家機(jī)會?如此想來,Bill Dally秀的每一個(gè)技術(shù)背后的參數(shù)都是凡爾賽,且閃耀整個(gè)巴啦啦小魔仙芯球。
首先是一種名為MAGNet的工具,據(jù)介紹,其生成的AI推理加速器在模擬測試中,能夠達(dá)到每瓦 100 TeraOPS 的推理能力,比目前的商用芯片高出一個(gè)數(shù)量級。資料顯示,MAGNet采用了一系列新技術(shù)來協(xié)調(diào)并控制通過設(shè)備的信息流,最大限度地減少數(shù)據(jù)傳輸,而數(shù)據(jù)傳輸正是當(dāng)今芯片中最耗能的環(huán)節(jié)。這一研究原型以模組化實(shí)現(xiàn),因此能夠靈活擴(kuò)展。
另外,還有一項(xiàng)以更快速的光鏈路取代現(xiàn)有系統(tǒng)內(nèi)的電氣鏈路的研究。
Bill Dally表示:“我們可以將連接GPU的NVLink速度提高一倍,也許還會再翻番,但電子信號最終會消耗殆盡?!痹搱F(tuán)隊(duì)正在與哥倫比亞大學(xué)的研究人員密切合作,探討如何利用電信供應(yīng)商在其核心網(wǎng)絡(luò)中所采用的技術(shù),通過一條光纖來傳輸數(shù)十路信號。
這種名為“密集波分復(fù)用”的技術(shù),有望在僅一毫米大小的芯片上實(shí)現(xiàn)Tb/s級數(shù)據(jù)的傳輸,是如今互連密度的十倍以上。
除了更大的吞吐量,光鏈路也有助于打造更為密集型的系統(tǒng)。Dally舉例展示了一個(gè)未來將搭載160多個(gè)GPU的NVIDIA DGX系統(tǒng)模型。
軟件方面,NVIDIA的研究人員開發(fā)了全新編程系統(tǒng)原型Legate。開發(fā)者借助Legate,即可在任何規(guī)模的系統(tǒng)上,運(yùn)行針對單一GPU編寫的程序——甚至適用于諸如Selene等搭載數(shù)千個(gè)GPU的巨型超級計(jì)算機(jī)。
Legate將一種新的編程速記融入了加速軟件庫和高級運(yùn)行時(shí)環(huán)境Legion,目前它正在美國國家實(shí)驗(yàn)室接受測試。
Bill Dally語速頗快,迅速的介紹完英偉達(dá)的項(xiàng)目,隨后便是一場線上圓桌式的高峰論壇,與其說是論壇,不如說是大型凡爾賽飆車現(xiàn)場。
凡爾賽圓桌
包括主持人在內(nèi)的5位嘉賓,都是在來自英偉達(dá),分別是英偉達(dá)亞太區(qū)銷售與營銷副總裁Raymond Teh、英偉達(dá)全球業(yè)務(wù)運(yùn)營執(zhí)行副總裁Jay Puri、英偉達(dá)企業(yè)市場兼開發(fā)者計(jì)劃全球副總裁Greg Estes、英偉達(dá)醫(yī)療業(yè)務(wù)全球副總裁Kimberly Powell、英偉達(dá)亞太區(qū)戰(zhàn)略運(yùn)營與合作伙伴副總裁Ashok Pandey。
這陣容,一唱一和,連上地球wifi,看直播的火星觀眾都直呼內(nèi)行。
關(guān)于Arm,Jay Puri首先猛夸Arm,比如每年銷售220億個(gè)CPU,比如開創(chuàng)了IP許可模式,比如在移動端和嵌入式領(lǐng)域非常成功。這可以理解,畢竟是我英偉達(dá)看中的人,能有差的?
隨后話鋒一轉(zhuǎn),為什么高通、博通、Marvell都嘗試用Arm進(jìn)軍通用市場和云數(shù)據(jù)中心市場,為什么都失敗了呢?Jay Puri認(rèn)為,Arm技術(shù)沒有問題,問題在于生態(tài),所以的應(yīng)用領(lǐng)域都是圍繞X86生態(tài)建立的,Arm想要撬開一個(gè)口子,并大放異彩太難。
接著,又話鋒一轉(zhuǎn)。咱英偉達(dá)生態(tài)牛逼啊,未來數(shù)據(jù)中心的工作負(fù)載都圍繞加速計(jì)算和人工智能,英偉達(dá)平臺成熟,擁有可用的完整堆棧,且必要的生態(tài)伙伴都囊括了,還有200萬開發(fā)者。Jay Puri還許下諾言,一旦收購成功,將著重布局Arm在數(shù)據(jù)中心的成功,會有一個(gè)X86的替代方面。
醫(yī)療方面,Kimberly Powell口中的英偉達(dá)簡直賽華佗,“如今一個(gè)季度產(chǎn)生的數(shù)據(jù)規(guī)模,比大多數(shù)制藥行業(yè)300年積累的數(shù)據(jù)還要多?!盞imberly Powell這句話打開了醫(yī)療話題的話匣子:“研發(fā)新療法和疫苗的周期太長,有時(shí)即便投入10年20億美元的成本,最終也只是10%的成功幾率?!?/p>
Kimberly Powell強(qiáng)調(diào)了數(shù)據(jù)防御系統(tǒng)建立的必要性。隨后話鋒一轉(zhuǎn),介紹了超級計(jì)算機(jī)DGX SuperPOD和Clara Discovery平臺。
其中,DGX SuperPOD系統(tǒng)以借助NVIDIA Mellanox HDR InfiniBand網(wǎng)絡(luò)互聯(lián)的20個(gè)模塊來銷售,AI性能最低可達(dá)到100 petaflops,最高可達(dá)700 petaflops,可運(yùn)行最復(fù)雜的AI工作。此外,英偉達(dá)今年宣布的Cambridge-1建造計(jì)劃,是一款80節(jié)點(diǎn)的DGX SuperPOD,具備400 petaflops 的AI性能。今年年底一經(jīng)部署便將成為英國最快的超級計(jì)算機(jī)。該系統(tǒng)將被用于英國學(xué)術(shù)界、業(yè)界和初創(chuàng)企業(yè)在AI和醫(yī)療健康領(lǐng)域的合作研究。
Clara Discovery是專為 NVIDIA DGX 優(yōu)化的先進(jìn)工具套件。包含多種框架、應(yīng)用程序和 AI 模型,可實(shí)現(xiàn) GPU 加速的藥物研發(fā),支持的研究領(lǐng)域涵蓋基因組學(xué)、蛋白質(zhì)組學(xué)、顯微鏡學(xué)、虛擬篩選、計(jì)算化學(xué)、可視化、臨床成像和自然語言處理(NLP)。
在與中國的云服務(wù)提供商(CSP)的合作中,Ashok Pandey用中文介紹了合作情況,他表示,與中國CSP已經(jīng)合作七年多,從一開始的深度學(xué)習(xí)訓(xùn)練,到現(xiàn)在云服務(wù)。英偉達(dá)還聲稱,多家中國頂級云服務(wù)提供商及系統(tǒng)制造商紛紛采用NVIDIA A100 Tensor Core GPU和NVIDIA技術(shù),為企業(yè)和行業(yè)的各類AI應(yīng)用提速。
今年5月,英偉達(dá)推出了首款基于NVIDIA Ampere架構(gòu)的NVIDIA A100 Tensor Core GPU。迄今為止,包括阿里云、百度智能云、滴滴云、騰訊云等在內(nèi)的眾多中國云服務(wù)提供商紛紛推出搭載了NVIDIA A100的多款云服務(wù)及GPU實(shí)例。
A100 GPU配備了具有更高精度的第三代Tensor Core核心,性能較上一代產(chǎn)品有顯著提升??商峁?00GB/每秒GPU間連接傳輸速率的第三代NVIDIA NVLink、NVIDIA NVSwitch、PCIe Gen4與NVIDIA Magnum IO軟件SDK的組合,可實(shí)現(xiàn)成千上萬個(gè)GPU集群的高效擴(kuò)展,這些技術(shù)得到了來自于NGC容器注冊中NVIDIA市場領(lǐng)先生態(tài)系統(tǒng)的支持。
在A100得到中國云服務(wù)提供商的迅速采用之外,最新發(fā)布的NVIDIA A100 PCIe版本以及NVIDIA A100 80GB GPU也迅速成為了包括新華三、浪潮、聯(lián)想、寧暢等在內(nèi)的中國領(lǐng)先系統(tǒng)制造商的首選。
如果是前幾年,這些技術(shù)的厲害之處還得靠凡爾賽一號玩家黃教主來說出口,但由于黃氏定律官方發(fā)布的避嫌問題,我們有幸看到了英偉達(dá)內(nèi)部各路凡爾賽高手登場。整個(gè)GTC CHINA2020大會,也隨著筆者抽獎抽到三次“謝謝參與”而結(jié)束,科技發(fā)展本就如一場夢。GTC大會,一場被大佬洗腦卻又無法反駁,只想靜靜思考穿皮衣是否真的有助于治療脫發(fā)的大會。凡爾賽的英偉達(dá):科技就是這么枯燥且乏味。