《電子技術(shù)應用》
您所在的位置:首頁 > 電子元件 > 業(yè)界動態(tài) > GPU進入新三國鼎立時代

GPU進入新三國鼎立時代

2022-02-09
來源: 半導體行業(yè)觀察
關(guān)鍵詞: GPU 英特爾 AMD 英偉達

  近些年,GPU在業(yè)界的重要性愈加凸出,無論是在高性能計算,還是在消費級領域,其對用戶的粘性越來越強,英偉達的火爆就是得益于其核心的GPU技術(shù)和產(chǎn)品,在這種情況下,傳統(tǒng)巨頭英特爾坐不住了,原本只是在消費級市場生產(chǎn)集成GPU顯卡,市場需求的變化使得英特爾開始組建獨立GPU研發(fā)團隊,并投入了越來越多的資源,以應對英偉達和AMD的競爭,特別是在高性能計算領域。

  在高性能應用領域,對GPU的功耗和成本可控的要求越來越高,這就對相關(guān)技術(shù)提出了更高的要求,包括芯片設計方法、EDA工具、制程工藝,以及封裝技術(shù),要想實現(xiàn)高性能與功耗、成本的有效平衡,以上這些技術(shù)環(huán)節(jié)缺一不可,而隨著摩爾定律的逐步“失效”,先進封裝技術(shù)的重要性越來越凸出,而英特爾、AMD和英偉達這三巨頭都看到了這一環(huán)節(jié)的重要性,并不斷加強研發(fā)力度。特別是在近期,這三家公司不約而同地在MCM(多芯片模塊)方面披露了重要信息。

  MCM打入GPU

  MCM是為解決單一芯片集成度低和功能不夠完善的問題而生的,它把多個高集成度、高性能、高可靠性的die,在高密度多層互聯(lián)基板上用SMD技術(shù)組成多種多樣的電子模塊系統(tǒng),形成多芯片模塊。MCM具有以下特點:封裝延遲時間縮小,易于實現(xiàn)模塊高速化;縮小整機/模塊的封裝尺寸和重量;系統(tǒng)可靠性大大提高。

  以前,MCM主要用于CPU和存儲設備,特別是在CPU領域應用較為普遍,如早期IBM的Power4 雙核處理器,就是4塊雙核Power4 以及附加的 L3 高速緩存形成的MCM,還有英特爾的Pentium D(研發(fā)代號:Presler)、Xeon,以及AMD的Zen 2架構(gòu)Ryzen (核心代號:Matisse)、EPYC處理器等,都是應用MCM的典型代表。

  近些年,在AMD的引領下,MCM封裝技術(shù)開始走向GPU。之所以如此,主要是因為傳統(tǒng)顯卡是帶有多個GPU的PCB板卡,需要連接兩個獨立顯卡的Crossfire或SLI橋接器。傳統(tǒng)的SLI 和 CrossFire需要 PCIe 總線來交換數(shù)據(jù)、紋理、同步等。由于GPU之間的渲染時間會產(chǎn)生同步問題,因此在許多情況下,傳統(tǒng)的雙GPU顯卡,即單個PCB上的兩個芯片由它互連,每個芯片都有自己的VRAM。SLI或CrossFire的能耗很大,冷卻也是一個挑戰(zhàn),這些在很長一段時間內(nèi)都困擾著工程師。

  MCM GPU則是一個單獨的封裝,其板載橋接器取代了傳統(tǒng)兩個獨立顯卡之間的Crossfire或SLI橋接器。

  在高性能計算應用領域,這種MCM GPU的優(yōu)勢很明顯,也值得花費更多時間和精力在解決封裝和互連方面的軟件問題,以應對更高的MCM設計復雜度。目前來看,MCM GPU主要用于數(shù)據(jù)中心和云計算應用領域。隨著技術(shù)的不斷成熟,以及PC應用性能的提升,其在消費電子領域的應用也將會出現(xiàn)。

  三巨頭發(fā)力

  最早將MCM封裝技術(shù)引入GPU的是AMD。2020年,該公司把游戲卡與專業(yè)卡的GPU架構(gòu)分家了,游戲卡的架構(gòu)是RDNA,而專業(yè)卡的架構(gòu)叫做CDNA,首款產(chǎn)品是Instinct MI100系列。2021年,AMD的Q2財報確認CDNA 2 GPU已經(jīng)向客戶發(fā)貨了,其GPU核心代號是Aldebaran,它成為AMD第一款采用MCM封裝的產(chǎn)品,是為數(shù)據(jù)中心準備的。在PC方面,2022年引入下一代RDNA 3架構(gòu)后,基于MCM的消費級Radeon GPU也會出現(xiàn)。

  制造多芯片計算 GPU 類似于制造多核 MCM CPU,例如Ryzen 5000或Threadripper處理器。首先,將芯片靠得更近可以提高計算效率。AMD 的 Infinity 架構(gòu)確保了高性能互連,有望使兩個芯片的效率接近一個的。其次,使用先進的工藝技術(shù)批量生產(chǎn)多個小芯片比大芯片更容易,因為小芯片通常缺陷較少,因此比大芯片的產(chǎn)量更好。

  前些天,在2021年財報電話會議上,AMD確認,今年會有幾項重要產(chǎn)品發(fā)布,包括基于RDNA 3架構(gòu)的GPU,也就是Radeon RX 7000。目前來看,該系列最新顯卡會有三款GPU,分別是Navi 31、Navi 32和Navi 33,其中,Navi 31和Navi 32將采用MCM封裝。之前有傳聞稱,Navi 31和Navi 32的Infinity Cache將采用3D堆棧的設計,會單獨添加到MCD小芯片中,與Zen 3架構(gòu)上采用3D V-Cache的原理類似,性能會有較大提升。

  由于Navi 31和Navi 32采用了MCM封裝,AMD將會使用兩種不同制程,GPU會使用臺積電的5nm工藝,緩存I/O芯片則會采用臺積電的6nm工藝。

  英偉達也在跟進MCM封裝GPU。

  2017年,英偉達展示了通過四個小芯片構(gòu)建的設計方案,不但提升了性能,還有助于提高產(chǎn)量(較小的芯片良品率會提高),而且還允許將更多的計算資源集合在一起。這種多芯片設計還有助于提高供電效率,具有更好的散熱效果。

  近日,英偉達研究人員發(fā)表了一篇技術(shù)文章,概述了該公司對MCM的探索,英偉達目前在MCM封裝GPU上的做法稱為“Composable On Package GPU”(COPA),該團隊講述了COPA GPU 的各項優(yōu)勢,尤其是能夠適應各種類型的深度學習工作負載。

  由于傳統(tǒng)融合 GPU 解決方案正迅速變得不太實用,研究人員才想到到 COPA-GPU 的理念。融合GPU解決方案依賴于由傳統(tǒng)芯片組成的架構(gòu),輔以高帶寬內(nèi)存(HBM)、張量核心/矩陣核心(Matrix Cores)、光線追蹤(RT)等專用硬件的結(jié)合。

  此類硬件或在某些任務下非常合適,但在面對其它情況時卻效率低下。與當前將所有特定執(zhí)行組件和緩存組合到一個包中的單片 GPU 設計不同,COPA-GPU 架構(gòu)具有混合 / 匹配多個硬件塊的能力。如此一來,它就能夠更好地適應當今高性能計算只能呈現(xiàn)的動態(tài)工作負載、以及深度學習(DL)環(huán)境。

  這種整合更適應多種類型工作負載的能力,可帶來更高水平的 GPU 重用。更重要的是,對于數(shù)據(jù)科學家們來說,這使他們更有能力利用現(xiàn)有資源,來突破潛在的界限。

  微信圖片_20220209093708.jpg

  面向數(shù)據(jù)中心和消費市場,英偉達將分別推出基于Hopper架構(gòu)和Ada Lovelace架構(gòu)的GPU。據(jù)悉,該公司只會在Hopper架構(gòu)GPU上采用MCM技術(shù),Ada Lovelace架構(gòu)GPU仍會保留傳統(tǒng)的封裝設計,并不會像AMD基于RDNA 3架構(gòu)的Navi 31那樣,將MCM多芯片封裝引入到消費級GPU。

  近日,有消息稱,基于Hopper架構(gòu)的GH100的晶體管數(shù)量將達到1400億,這幾乎是目前基于Ampere架構(gòu)的GA100(542億)或AMD基于CDNA 2架構(gòu)的Instinct MI200系列(580億)的2.5倍。據(jù)稱GH100的芯片尺寸接近900mm?,比此前傳言的1000mm?要小,不過比GA100(862mm?)和Instinct MI200系列(約790mm?)要大一些。傳聞GH100總共配置了288個SM,可以提供三倍于A100計算卡的性能。

  據(jù)悉,作為英偉達第一款基于MCM技術(shù)的GPU,Hopper架構(gòu)產(chǎn)品將采用臺積電5nm制程工藝,支持HBM2e和其他連接特性,預計會在2022年中旬亮相,競爭對手將是英特爾的Xe-HP架構(gòu)GPU和AMD的CDNA 2架構(gòu)產(chǎn)品。

  不過,以上說法還未得到官方證實,英偉達將于今年3月21日召開GTC 2022大會,屆時,可能會公布Hopper架構(gòu),以及相應的加速卡方案。

  作為獨立GPU的后來者,英特爾最近也是動作頻頻。

  近期,英特爾公布新專利,描述多個計算模組如何協(xié)同工作執(zhí)行圖像渲染,代表英特爾GPU將采用MCM封裝技術(shù),大幅提高運作效能。

  英特爾針對數(shù)據(jù)中心和超級計算機Ponte Vecchio的CPU已使用多芯片設計,并采用MCM封裝技術(shù)。在新專利中,英特爾提出GPU圖像渲染解決方案,將多芯片整合至同單元,解決制造和功耗等問題,同時優(yōu)化可擴展性和互聯(lián)性。

  目前,這類圖像渲染問題會通過交替渲染技術(shù)(Alternate Frame Rendering,AFR)或拆分幀渲染(Scissor Frame Rendering,SFR)等算法解決,但英特爾是整合運算模組的棋盤格式渲染,同時有分布式運算,使多芯片設計GPU有更高運算效率。雖然英特爾沒有多描述架構(gòu)層面細節(jié),但可預期Intel Arc品牌顯卡搭載MCM封裝技術(shù)GPU應只是時間問題。

  微信圖片_20220209093740.jpg

  結(jié)語

  在GPU研發(fā)方面,英特爾、AMD和英偉達顯得越來越“同步”,特別是在制程工藝和封裝技術(shù)方面,制程都依賴臺積電,封裝都看重MCM,在這兩方面原本領先的AMD,其優(yōu)勢越來越小,特別是在MCM方面,英偉達和英特爾發(fā)展速度很快,不僅是在高性能計算領域,在消費級市場,雖說AMD首先將MCM技術(shù)應用于PC,但英偉達和英特爾也在加快進度,相信不久也會有相應的方案推出。

  MCM封裝GPU開始進入三國鼎立時代。

  



微信圖片_20210517164139.jpg

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。