123,123

GPU进入新三国鼎立时代

日期： 2022-02-09

來源：半导体行业观察

關(guān)鍵詞： GPU 英特尔 AMD 英伟达

　　近些年，GPU在業(yè)界的重要性愈加凸出，無論是在高性能計(jì)算，還是在消費(fèi)級(jí)領(lǐng)域，其對(duì)用戶的粘性越來越強(qiáng)，英偉達(dá)的火爆就是得益于其核心的GPU技術(shù)和產(chǎn)品，在這種情況下，傳統(tǒng)巨頭英特爾坐不住了，原本只是在消費(fèi)級(jí)市場生產(chǎn)集成GPU顯卡，市場需求的變化使得英特爾開始組建獨(dú)立GPU研發(fā)團(tuán)隊(duì)，并投入了越來越多的資源，以應(yīng)對(duì)英偉達(dá)和AMD的競爭，特別是在高性能計(jì)算領(lǐng)域。

　　在高性能應(yīng)用領(lǐng)域，對(duì)GPU的功耗和成本可控的要求越來越高，這就對(duì)相關(guān)技術(shù)提出了更高的要求，包括芯片設(shè)計(jì)方法、EDA工具、制程工藝，以及封裝技術(shù)，要想實(shí)現(xiàn)高性能與功耗、成本的有效平衡，以上這些技術(shù)環(huán)節(jié)缺一不可，而隨著摩爾定律的逐步“失效”，先進(jìn)封裝技術(shù)的重要性越來越凸出，而英特爾、AMD和英偉達(dá)這三巨頭都看到了這一環(huán)節(jié)的重要性，并不斷加強(qiáng)研發(fā)力度。特別是在近期，這三家公司不約而同地在MCM（多芯片模塊）方面披露了重要信息。

　　MCM打入GPU

　　MCM是為解決單一芯片集成度低和功能不夠完善的問題而生的，它把多個(gè)高集成度、高性能、高可靠性的die，在高密度多層互聯(lián)基板上用SMD技術(shù)組成多種多樣的電子模塊系統(tǒng)，形成多芯片模塊。MCM具有以下特點(diǎn)：封裝延遲時(shí)間縮小，易于實(shí)現(xiàn)模塊高速化；縮小整機(jī)/模塊的封裝尺寸和重量；系統(tǒng)可靠性大大提高。

　　以前，MCM主要用于CPU和存儲(chǔ)設(shè)備，特別是在CPU領(lǐng)域應(yīng)用較為普遍，如早期IBM的Power4 雙核處理器，就是4塊雙核Power4 以及附加的 L3 高速緩存形成的MCM，還有英特爾的Pentium D（研發(fā)代號(hào)：Presler）、Xeon，以及AMD的Zen 2架構(gòu)Ryzen (核心代號(hào):Matisse)、EPYC處理器等，都是應(yīng)用MCM的典型代表。

　　近些年，在AMD的引領(lǐng)下，MCM封裝技術(shù)開始走向GPU。之所以如此，主要是因?yàn)閭鹘y(tǒng)顯卡是帶有多個(gè)GPU的PCB板卡，需要連接兩個(gè)獨(dú)立顯卡的Crossfire或SLI橋接器。傳統(tǒng)的SLI 和 CrossFire需要 PCIe 總線來交換數(shù)據(jù)、紋理、同步等。由于GPU之間的渲染時(shí)間會(huì)產(chǎn)生同步問題，因此在許多情況下，傳統(tǒng)的雙GPU顯卡，即單個(gè)PCB上的兩個(gè)芯片由它互連，每個(gè)芯片都有自己的VRAM。SLI或CrossFire的能耗很大，冷卻也是一個(gè)挑戰(zhàn)，這些在很長一段時(shí)間內(nèi)都困擾著工程師。

　　MCM GPU則是一個(gè)單獨(dú)的封裝，其板載橋接器取代了傳統(tǒng)兩個(gè)獨(dú)立顯卡之間的Crossfire或SLI橋接器。

　　在高性能計(jì)算應(yīng)用領(lǐng)域，這種MCM GPU的優(yōu)勢(shì)很明顯，也值得花費(fèi)更多時(shí)間和精力在解決封裝和互連方面的軟件問題，以應(yīng)對(duì)更高的MCM設(shè)計(jì)復(fù)雜度。目前來看，MCM GPU主要用于數(shù)據(jù)中心和云計(jì)算應(yīng)用領(lǐng)域。隨著技術(shù)的不斷成熟，以及PC應(yīng)用性能的提升，其在消費(fèi)電子領(lǐng)域的應(yīng)用也將會(huì)出現(xiàn)。

　　三巨頭發(fā)力

　　最早將MCM封裝技術(shù)引入GPU的是AMD。2020年，該公司把游戲卡與專業(yè)卡的GPU架構(gòu)分家了，游戲卡的架構(gòu)是RDNA，而專業(yè)卡的架構(gòu)叫做CDNA，首款產(chǎn)品是Instinct MI100系列。2021年，AMD的Q2財(cái)報(bào)確認(rèn)CDNA 2 GPU已經(jīng)向客戶發(fā)貨了，其GPU核心代號(hào)是Aldebaran，它成為AMD第一款采用MCM封裝的產(chǎn)品，是為數(shù)據(jù)中心準(zhǔn)備的。在PC方面，2022年引入下一代RDNA 3架構(gòu)后，基于MCM的消費(fèi)級(jí)Radeon GPU也會(huì)出現(xiàn)。

　　制造多芯片計(jì)算 GPU 類似于制造多核 MCM CPU，例如Ryzen 5000或Threadripper處理器。首先，將芯片靠得更近可以提高計(jì)算效率。AMD 的 Infinity 架構(gòu)確保了高性能互連，有望使兩個(gè)芯片的效率接近一個(gè)的。其次，使用先進(jìn)的工藝技術(shù)批量生產(chǎn)多個(gè)小芯片比大芯片更容易，因?yàn)樾⌒酒ǔＨ毕葺^少，因此比大芯片的產(chǎn)量更好。

　　前些天，在2021年財(cái)報(bào)電話會(huì)議上，AMD確認(rèn)，今年會(huì)有幾項(xiàng)重要產(chǎn)品發(fā)布，包括基于RDNA 3架構(gòu)的GPU，也就是Radeon RX 7000。目前來看，該系列最新顯卡會(huì)有三款GPU，分別是Navi 31、Navi 32和Navi 33，其中，Navi 31和Navi 32將采用MCM封裝。之前有傳聞稱，Navi 31和Navi 32的Infinity Cache將采用3D堆棧的設(shè)計(jì)，會(huì)單獨(dú)添加到MCD小芯片中，與Zen 3架構(gòu)上采用3D V-Cache的原理類似，性能會(huì)有較大提升。

　　由于Navi 31和Navi 32采用了MCM封裝，AMD將會(huì)使用兩種不同制程，GPU會(huì)使用臺(tái)積電的5nm工藝，緩存I/O芯片則會(huì)采用臺(tái)積電的6nm工藝。

　　英偉達(dá)也在跟進(jìn)MCM封裝GPU。

　　2017年，英偉達(dá)展示了通過四個(gè)小芯片構(gòu)建的設(shè)計(jì)方案，不但提升了性能，還有助于提高產(chǎn)量（較小的芯片良品率會(huì)提高），而且還允許將更多的計(jì)算資源集合在一起。這種多芯片設(shè)計(jì)還有助于提高供電效率，具有更好的散熱效果。

　　近日，英偉達(dá)研究人員發(fā)表了一篇技術(shù)文章，概述了該公司對(duì)MCM的探索，英偉達(dá)目前在MCM封裝GPU上的做法稱為“Composable On Package GPU”（COPA），該團(tuán)隊(duì)講述了COPA GPU 的各項(xiàng)優(yōu)勢(shì)，尤其是能夠適應(yīng)各種類型的深度學(xué)習(xí)工作負(fù)載。

　　由于傳統(tǒng)融合 GPU 解決方案正迅速變得不太實(shí)用，研究人員才想到到 COPA-GPU 的理念。融合GPU解決方案依賴于由傳統(tǒng)芯片組成的架構(gòu)，輔以高帶寬內(nèi)存（HBM）、張量核心/矩陣核心（Matrix Cores）、光線追蹤（RT）等專用硬件的結(jié)合。

　　此類硬件或在某些任務(wù)下非常合適，但在面對(duì)其它情況時(shí)卻效率低下。與當(dāng)前將所有特定執(zhí)行組件和緩存組合到一個(gè)包中的單片 GPU 設(shè)計(jì)不同，COPA-GPU 架構(gòu)具有混合 / 匹配多個(gè)硬件塊的能力。如此一來，它就能夠更好地適應(yīng)當(dāng)今高性能計(jì)算只能呈現(xiàn)的動(dòng)態(tài)工作負(fù)載、以及深度學(xué)習(xí)（DL）環(huán)境。

　　這種整合更適應(yīng)多種類型工作負(fù)載的能力，可帶來更高水平的 GPU 重用。更重要的是，對(duì)于數(shù)據(jù)科學(xué)家們來說，這使他們更有能力利用現(xiàn)有資源，來突破潛在的界限。

　　微信圖片_20220209093708.jpg

　　面向數(shù)據(jù)中心和消費(fèi)市場，英偉達(dá)將分別推出基于Hopper架構(gòu)和Ada Lovelace架構(gòu)的GPU。據(jù)悉，該公司只會(huì)在Hopper架構(gòu)GPU上采用MCM技術(shù)，Ada Lovelace架構(gòu)GPU仍會(huì)保留傳統(tǒng)的封裝設(shè)計(jì)，并不會(huì)像AMD基于RDNA 3架構(gòu)的Navi 31那樣，將MCM多芯片封裝引入到消費(fèi)級(jí)GPU。

　　近日，有消息稱，基于Hopper架構(gòu)的GH100的晶體管數(shù)量將達(dá)到1400億，這幾乎是目前基于Ampere架構(gòu)的GA100（542億）或AMD基于CDNA 2架構(gòu)的Instinct MI200系列（580億）的2.5倍。據(jù)稱GH100的芯片尺寸接近900mm?，比此前傳言的1000mm?要小，不過比GA100（862mm?）和Instinct MI200系列（約790mm?）要大一些。傳聞GH100總共配置了288個(gè)SM，可以提供三倍于A100計(jì)算卡的性能。

　　據(jù)悉，作為英偉達(dá)第一款基于MCM技術(shù)的GPU，Hopper架構(gòu)產(chǎn)品將采用臺(tái)積電5nm制程工藝，支持HBM2e和其他連接特性，預(yù)計(jì)會(huì)在2022年中旬亮相，競爭對(duì)手將是英特爾的Xe-HP架構(gòu)GPU和AMD的CDNA 2架構(gòu)產(chǎn)品。

　　不過，以上說法還未得到官方證實(shí)，英偉達(dá)將于今年3月21日召開GTC 2022大會(huì)，屆時(shí)，可能會(huì)公布Hopper架構(gòu)，以及相應(yīng)的加速卡方案。

　　作為獨(dú)立GPU的后來者，英特爾最近也是動(dòng)作頻頻。

　　近期，英特爾公布新專利，描述多個(gè)計(jì)算模組如何協(xié)同工作執(zhí)行圖像渲染，代表英特爾GPU將采用MCM封裝技術(shù)，大幅提高運(yùn)作效能。

　　英特爾針對(duì)數(shù)據(jù)中心和超級(jí)計(jì)算機(jī)Ponte Vecchio的CPU已使用多芯片設(shè)計(jì)，并采用MCM封裝技術(shù)。在新專利中，英特爾提出GPU圖像渲染解決方案，將多芯片整合至同單元，解決制造和功耗等問題，同時(shí)優(yōu)化可擴(kuò)展性和互聯(lián)性。

　　目前，這類圖像渲染問題會(huì)通過交替渲染技術(shù)（Alternate Frame Rendering，AFR）或拆分幀渲染（Scissor Frame Rendering，SFR）等算法解決，但英特爾是整合運(yùn)算模組的棋盤格式渲染，同時(shí)有分布式運(yùn)算，使多芯片設(shè)計(jì)GPU有更高運(yùn)算效率。雖然英特爾沒有多描述架構(gòu)層面細(xì)節(jié)，但可預(yù)期Intel Arc品牌顯卡搭載MCM封裝技術(shù)GPU應(yīng)只是時(shí)間問題。

　　微信圖片_20220209093740.jpg

　　結(jié)語

　　在GPU研發(fā)方面，英特爾、AMD和英偉達(dá)顯得越來越“同步”，特別是在制程工藝和封裝技術(shù)方面，制程都依賴臺(tái)積電，封裝都看重MCM，在這兩方面原本領(lǐng)先的AMD，其優(yōu)勢(shì)越來越小，特別是在MCM方面，英偉達(dá)和英特爾發(fā)展速度很快，不僅是在高性能計(jì)算領(lǐng)域，在消費(fèi)級(jí)市場，雖說AMD首先將MCM技術(shù)應(yīng)用于PC，但英偉達(dá)和英特爾也在加快進(jìn)度，相信不久也會(huì)有相應(yīng)的方案推出。

　　MCM封裝GPU開始進(jìn)入三國鼎立時(shí)代。

微信圖片_20210517164139.jpg

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請(qǐng)及時(shí)通過電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

GPU进入新三国鼎立时代

日期： 2022-02-09

來源： 半导体行业观察

相關(guān)內(nèi)容

來源：半导体行业观察