雖然英特爾正在努力使其主要制造工藝技術(shù)走上正軌,但它也把同樣多的時間和精力投入到了研究和開發(fā)芯片生態(tài)系統(tǒng)的其他部分,以及如何將其全部連接起來。在與英特爾工藝和產(chǎn)品團隊的會議上,英特爾確認了一些有關(guān)公司如何利用即將推出的高端顯卡產(chǎn)品推動新技術(shù)發(fā)展的細節(jié)。
深入了解英特爾的chiplet和封裝戰(zhàn)略
在上周同英特爾的會議中,我們采訪了英特爾處理和產(chǎn)品集成總監(jiān)Ramune Nagisetty,討論了英特爾在chiplet和封裝技術(shù)方面的戰(zhàn)略。Ramune在英特爾工作了20多年,研究領(lǐng)域包括:65nm晶體管定義、英特爾技術(shù)戰(zhàn)略和可穿戴設(shè)備實驗室,最近還負責英特爾用于產(chǎn)品集成的chiplet戰(zhàn)略。Ramune關(guān)注的是chiplet和封裝本身的藝術(shù),而不是它所涉及的具體技術(shù),這是一次令人振奮的討論。
圍繞chiplet的故事將成為下一代半導體市場的基石,能夠為特定的任務(wù)提供更小的芯片,并將它們連接在一起。chiplet構(gòu)成了英特爾目前Stratix 10 FPGA產(chǎn)品線的基礎(chǔ),以及未來的英特爾Agilex,消費類產(chǎn)品Kaby Lake G,以及用于高速存儲器HBM chiplet產(chǎn)品的基礎(chǔ)。英特爾將會如何整合自己的chiplet?此外,英特爾確認正在努力將其AI產(chǎn)品組合遷移到chiplet形態(tài),以及其他第三方IP,這些將是未來的重要戰(zhàn)略。然而,連接chiplet的藝術(shù)在于封裝。英特爾擁有自己的幾項技術(shù)。
EMIB、Foveros、Interposers:連接數(shù)據(jù)
英特爾的嵌入式芯片互連橋“EMIB”幾年來一直是一個熱門話題。由于某些高性能chiplet設(shè)計需要比傳統(tǒng)有機芯片封裝所能支持的多得多的高帶寬鏈接,因此需要更奇特的方法來建立這些密集的連接。這里的“蠻力”解決方案是silicon interposer,本質(zhì)上是把芯片堆在一個傻大笨粗的裸片上,這個裸片僅用于連線。
然而,對于EMIB,英特爾并沒有使用full silicon interposer,而是在襯底上安裝了一個很小的嵌入式silicon connection,允許主芯片和輔助chiplet以高帶寬和短距離連接在一起。該技術(shù)目前在英特爾的FPGA中,將FPGA連接到內(nèi)存或收發(fā)器或第三方IP,或用在Kaby Lake-G中,將Radeon GPU連接到on-package高帶寬內(nèi)存。
英特爾還在其FPGA產(chǎn)品中使用了full interposers,將其用作將其大型FPGA芯片連接到高帶寬內(nèi)存的更簡單、更快速的方式。英特爾表示,雖然大型interposers是全能的,但英特爾認為,EMIB設(shè)計比大型interposers便宜得多,而且提供了更好的信號完整性,允許更高的帶寬。在與英特爾的討論中,有人指出,大型interposers可能最適用于可以利用有源網(wǎng)絡(luò)的強大芯片,但是HBM在interposer上是多余的,最好通過EMIB使用。
與interposer技術(shù)類似,F(xiàn)overos是一種芯片堆疊技術(shù),允許不同芯片通過TSV(through silicon vias,chip-to-chip垂直連接的通孔)連接,這樣英特爾就可以將IO、內(nèi)核和板載LLC/DRAM作為單獨的裸片制造,并將它們連接在一起。在這種情況下,英特爾將IO裸片(堆疊底部的裸片)視為一種“active interposer”,可以處理頂部裸片之間的路由數(shù)據(jù)。最終,多裸片策略的重大挑戰(zhàn)在于所用裸片的熱約束(到目前為止,英特爾已經(jīng)在12x12mm封裝中演示了1+4核心解決方案,稱為Lakefield),以及為TSV連接對齊已確認為良好的裸片。
論策略:英特爾的工程方法
英特爾顯然致力于其目前與FPGA相關(guān)的chiplet策略,將英特爾其他方面的技術(shù)(如AI)引入到平臺中,并開發(fā)EMIB等功能。Ramune明確表示,如果英特爾的客戶在FPGA上使用他們自己的第三方IP,他們要么自己提供具有EMIB功能的chiplet,要么與英特爾的代工業(yè)務(wù)合作來實現(xiàn)它們,隨后,封裝將完全在英特爾完成。雖然英特爾已向開放市場提供連接標準,但英特爾使用的特定EMIB技術(shù)被指定為產(chǎn)品差異化,因此客戶必須與英特爾合作才能在封裝產(chǎn)品中看到他們的IP。
當談到像Foveros這樣的芯片堆疊技術(shù)時,Ramune重申了正在開發(fā)的技術(shù)的一些關(guān)鍵領(lǐng)域,例如熱限制、裸片尺寸,以及高效堆疊。其中一個關(guān)鍵變化被描述為確保在堆疊裸片時使用已知的良好裸片(即已通過屈服測試的裸片),這需要在組裝之前進行裸片測試。英特爾之前的一些開發(fā)流程需要進行調(diào)整,以便為Foveros和Lakefield等產(chǎn)品以及未來的其他產(chǎn)品提供幫助。Ramune確實聲明,英特爾還沒有專門研究用于Foveros芯片的先進冷卻方法,但他確認,預計在未來幾年內(nèi),無論是在內(nèi)部還是外部,都會在這一領(lǐng)域開展工作。
在討論未來的產(chǎn)品時,我們的談話中確實出現(xiàn)了一條批評意見。在去年12月的英特爾架構(gòu)日上,我們可能錯過了這一點,但會上重申,英特爾將把EMIB和Foveros都引入到未來圖形驅(qū)動技術(shù)的設(shè)計中。正如人們可能想象的那樣,對于規(guī)模、熱性能、互連集成或與之相關(guān)的任何東西,都沒有提供進一步的評論,但很明顯,英特爾正在研究多芯片圖形驅(qū)動技術(shù)。有人可能會憤世嫉俗地表示英特爾今天已經(jīng)在圖形驅(qū)動中使用EMIB和Foveros:Kaby G使用EMIB, Lakefield在Foveros上集成了Gen11核顯。然而,這是兩種不同的產(chǎn)品,我們從對話中得出的結(jié)論是,這兩種技術(shù)在未來都可能出現(xiàn)在同一種產(chǎn)品上。
這可以采取許多不同的形式。由EMIB連接到計算機芯片的中央控制芯片,使用Foveros增加每個控制芯片的板載緩存量。計算芯片可以被EMIB連接??刂菩酒赡苄枰粋€中央DRAM存儲庫,無論是通過Foveros還是通過EMIB。這些技術(shù)就像用樂高積木制造一艘宇宙飛船,一個摩天輪,或者一個GPU。
將GPU拆分成chiplet并不是新概念,但它是一個難以想象的概念。圍繞GPU處理數(shù)據(jù)的關(guān)鍵領(lǐng)域之一是帶寬,另一個是延遲。在圖形驅(qū)動場景中,大家競相獲得較低的幀渲染時間,最好低于16.67毫秒,從而允許60 Hz的刷新率在每個刷新周期中插入一個完整的顯示幀。隨著可變刷新顯示的出現(xiàn),這種情況有所改變,但是顯卡的主要市場(游戲玩家)嚴重依賴于其圖形驅(qū)動的快速刷新率和高幀率。對于多芯片模塊,制造商必須考慮數(shù)據(jù)從開始到結(jié)束在芯片之間必須執(zhí)行的跳數(shù)——所需的數(shù)據(jù)是直接連接到計算芯片,還是必須從設(shè)計的另一端交叉?內(nèi)存是直接堆疊,還是封裝內(nèi)連接?對于不同的內(nèi)存域,數(shù)據(jù)能否通過數(shù)學運算保持其并發(fā)性?是否存在中央管理芯片,或者每個計算chiplet管理它們自己的時序模式?與計算單元相比,每個chiplet設(shè)計有多少來自連接單元?
最終,如果這種設(shè)計能夠在性能、成本或功耗這三者的至少兩個方面有競爭力,那么這種設(shè)計才會勝出。我們已經(jīng)知道,由于額外的連接性,多芯片環(huán)境通常需要比單片設(shè)計更高的功率預算,正如市場上的多芯片CPU選項所示,所以chiplet不得不利用較小的工藝節(jié)點來彌補這種缺點。幸運的是,chiplet更容易在小的工藝節(jié)點上制造,這使得它比大型整體設(shè)計節(jié)省了潛在的成本。性能取決于架構(gòu),既包括原始計算,也包括芯片之間的互連。
英偉達MCM GPU(來源ISC '17)
我們已經(jīng)看到一些研究論文討論了多芯片圖形驅(qū)動解決方案的概念,例如英偉達的這個方案,你可以打賭,所有從事高性能圖形驅(qū)動和高性能計算的人都在關(guān)注它。鑒于計算平臺的限制比圖形驅(qū)動平臺更少,我們可能會首先看到多芯片解決方案。
我們討論的另一個要素是重申了英特爾首席工程官、技術(shù)、系統(tǒng)、架構(gòu)和客戶集團總裁Murthy Renduchintala博士先前提出的意見。Ramune表示,芯片技術(shù)和封裝技術(shù)旨在與英特爾目前的制造流程異步運行。這里的最終目標是將技術(shù)應用于當前可用的流程,而不是固定開發(fā)并將開發(fā)綁定到單一節(jié)點策略。正如我們所看到的,英特爾的10nm開發(fā)已經(jīng)取得了進展,這種產(chǎn)品和技術(shù)的分離將是英特爾未來的重要一步。
我們所知道的英特爾Xe GPU生產(chǎn)線
英特爾已經(jīng)聲明,在其未來的Ice Lake消費級處理器與Sunny Cove微架構(gòu)配合使用的Gen11核顯之后,我們將看到其Xe圖形驅(qū)動產(chǎn)品進入市場。Xe將從集成顯卡到企業(yè)計算加速,覆蓋整個消費級顯卡和游戲市場。
英特爾當時聲稱Xe系列將基于兩種不同的架構(gòu),其中一種稱為Arctic Sound,另一種尚未公開。我們的目標是為Xe創(chuàng)建一個平臺,將硬件、軟件、驅(qū)動程序、平臺和API都整合到一個任務(wù)中,英特爾稱之為“The Odyssey”。推出EMIB和Foveros技術(shù)作為Xe戰(zhàn)略的一部分似乎是英特爾計劃的重要組成部分,靜觀它的發(fā)展將是一件有趣的事情。
超越英特爾的核心技術(shù)
英特爾最近對圖形驅(qū)動技術(shù)的推動是眾所周知的。該公司聘請了來自AMD的Raja Koduri,來自Tesla的Jim Keller,來自AMD的Chris Hook,以及一些知名技術(shù)記者和AMD的GPU營銷經(jīng)理,以幫助開發(fā)其獨立顯卡產(chǎn)品。就在幾天前,英特爾還沒有完成他們的招聘狂潮,聘請了GlobalFoundries的企業(yè)公關(guān)總監(jiān),協(xié)助其制造流程和封裝技術(shù)的公關(guān)。雖然10nm正在修復,但英特爾顯然正試圖吸引人們對其新產(chǎn)品領(lǐng)域和新功能的關(guān)注——我們在12月的英特爾技術(shù)峰會上看到了新的封裝技術(shù)和核心配置,以及最近的數(shù)據(jù)中心產(chǎn)品的發(fā)布會上的除了CPU之外的一系列企業(yè)產(chǎn)品。在英特爾開發(fā)chiplet策略和封裝實現(xiàn)的同時,我們應該期望專業(yè)知識能夠滲透到英特爾的產(chǎn)品組合中,幫助這些產(chǎn)品獲得優(yōu)勢。Lakefield就是一個重要的例子,它在一個微型芯片中提供了Core、Atom和Gen 11功能,并且功耗不足7W,適用于小型器件。
圖:由Foveros構(gòu)建的Lakefield
非常感謝Ramune Nagisetty和她的團隊上周的會議,以及對我們之前沒有接觸過的英特爾產(chǎn)品的一些見解。我很高興英特爾開始在這類新領(lǐng)域開辟更多的業(yè)務(wù),并希望在未來可以繼續(xù)發(fā)展。