蘋果在本月初發(fā)布了最新一代的M1 Ultra芯片,采用了獨特的 UltraFusion 芯片架構(gòu)。借助橋接工藝,這款Ultra芯片擁有 1,140 億個晶體管,數(shù)量達到了M1的 7 倍之多。雖然芯片還是采用與上一代M1 max一樣的5nm工藝節(jié)點,但在新架構(gòu)加持下,兩顆 Max 之間的互連頻寬可達 2.5TB/s。這種架構(gòu)的好處是運行在目前M1芯片上的軟件無需修改相關(guān)的指令就可以直接運行,省去了應(yīng)用端更新軟件或開發(fā)新應(yīng)用層命令的需求。同時,增加一個芯片后,對內(nèi)存處理的帶寬也直接翻倍,收獲的性能提升非常顯著,特別是針對GPU處理能力方面,是極具爆發(fā)力的。
蘋果M1芯片進化
?。⊿ource:Apple)
近日,評測機構(gòu)也對比了幾款主流芯片與M1 Ultra的性能。在單核處理能力上,Ultra并不比Max優(yōu)秀。但在多核多線程的性能上,性能翻倍,可以說是秒殺上一代芯片。但相關(guān)的功耗并無披露,在之后的評測中可以繼續(xù)關(guān)心相關(guān)性能。
M1 Ultra多核多線程處理能力對比
?。⊿ource:WCCFtech)
從目前透露的信息,并不能確定M1 Ultra來源于哪種橋接工藝(估計隨后的Teardown即可見分曉),因為目前包括TSMC和Intel都有埋入硅橋的類似量產(chǎn)工藝。但由于使用的是2個同樣的芯片,從芯片設(shè)計角度來說并不能算嚴(yán)格意義的Chiplet,更多是一個Multi-die package的設(shè)計。作者觀點,考慮到臺積電為Apple主力代工的關(guān)系,采用臺積電埋入硅橋的可能性較大。從臺積電宣傳介紹了解到LSI在去年Q1還在做驗證,而M1 Max在去年10月左右推出,M1 Ultra今年3月推出,在開發(fā)時間上雖然很緊湊但也并非不可匹配。M1 Max在推出的時候也預(yù)留了橋接的I/O,加快了M1 Ultra的開發(fā)周期。由此可見Ultra早已在1年前或更早時間就已經(jīng)在蘋果的計劃中。
臺積電的局部硅橋(local silicon interconnect)
?。⊿ource: 臺積電)
臺積電的硅橋技術(shù)分為硅通孔橋和硅上RDL橋。所謂硅通孔橋就是在埋入的硅橋中有TSV,信號穿過硅通孔,通過TSV進行橋接。而RDL橋就是在硅上進行RDL制備,而為了確??煽啃院凸に嚰嫒?,目前主要的絕緣層材料大多采用ABF或低熱膨脹EMC。
臺積電局部硅橋(local silicon interconnect)
?。⊿ource: TSMC)
臺積電局部硅橋基于晶圓級硅工藝,比如金屬化和鈍化層形成等仍然是采用IC制造機臺,因此其RDL精度非常高,可以輕松實現(xiàn)2微米線寬。這與Intel的Embedded Multi-Tile Interconnect Bridge(EMIB)工藝完全不同,因為EMIB是使用板級基板工藝機臺,雖說硅橋本身可以做到2微米線寬,但埋入的后期工藝配合上有些挑戰(zhàn),本文后面會介紹。
臺積電高密度RDL
?。⊿ource: TSMC)
臺積電的InFO/CoW我們接收的信息比較多了,很多文章有介紹過,這里不進行詳述。接下來我們重點看看Intel的EMIB技術(shù)。
早在2011年的一個封裝國際會議上【1】, Intel的工程師就提出了用硅橋連接2個硅處理器的概念。而當(dāng)時的版本還未提及埋入這一概念,只是展示了橋接后較好的電性能。對如何封裝,如何大規(guī)模生產(chǎn),以及如何保證封裝體的可靠性等都是未知數(shù)。
硅橋連接【1】
但很快,Intel在次年(2012)的一份專利中將目前版本的雛形進行了描述【2】。而這份專利直到2015年授權(quán)之后才被公開。所以,我們其實能看到的最早對EMIB的詳細(xì)描述是Intel在2016年ECTC發(fā)表的論文【3】。在這篇論文中,Intel展示了EMIB的結(jié)構(gòu),工藝,樣品性能等。通過這一技術(shù),EMIB可以實現(xiàn)與CoWoS類似的I/O數(shù)量和帶寬。然而,開發(fā)結(jié)合封裝基板技術(shù)與芯片制備技術(shù)的混合芯片封裝體充滿挑戰(zhàn),即使強大如Intel也花費了不少時間,至今才達到了能量產(chǎn)的程度。接下來我們結(jié)合Intel發(fā)表的一些公開的論文,試圖管中窺豹。
EMIB內(nèi)部結(jié)構(gòu)示意圖【3】
相對于其他2.5D/3D封裝技術(shù),EMIB的主要技術(shù)優(yōu)勢有以下幾點【4】:
1.利用先進有機基板工藝實現(xiàn)局部高密度布線。區(qū)別于需要更大尺寸硅中介層和高密度硅通孔(TSV)的其他2.5D多芯片封裝技術(shù),能針對I/O需求實現(xiàn)局部高密度布線。
2.無光罩尺寸限制。由于要保證曝光顯影的精準(zhǔn)度和數(shù)值孔徑,光刻工藝的光罩尺寸范圍通常有其限制,例如M1 Max的芯片最大可用尺寸在19.05mmx22.06mm(約420mm?),已經(jīng)是臺積電硅橋CoWoS工藝的一半。EMIB則無需限制芯片尺寸,可以通過局部硅橋?qū)崿F(xiàn)相對自由的芯片尺寸搭配(InFO-LSI也是干這個事)
3.相對硅TSV而言,EMIB的制造工藝更簡單,成本也相對更低(如果良率相等的情況)。同時,減少更多硅的浪費,只在需要互聯(lián)的地方放置硅橋。
然而主要的挑戰(zhàn)在板級工藝。因此EMIB缺點主要集中在工藝實現(xiàn)【4】:
1.引入了更復(fù)雜的有機基板制備工藝,在精準(zhǔn)度控制上遠(yuǎn)高于目前的有機基板布線。由此需要針對這一系統(tǒng)進行特殊材料和工藝的開發(fā)。
2.跟普通的倒裝芯片類似,由于有機基板的熱膨脹系數(shù)(CTE)與硅橋芯片的CTE存在失配,使得表面貼裝的芯片引腳,芯片背面和填充熱界面材料之間產(chǎn)生較大的應(yīng)力。
EMIB工藝由于搭配了硅和有機基板工藝,所以在技術(shù)上體現(xiàn)了目前先進封裝的一個主流趨勢 - 融合,特別是前段硅制程與后端封裝制程的融合。從硅橋部分來看,通常,硅橋的尺寸在2-8毫米左右,而芯片厚度在75微米以下,從而保證跟基板工藝所匹配,同時實現(xiàn)較高精準(zhǔn)度的布線和對準(zhǔn)工藝。目前Intel針對的是4層布線結(jié)構(gòu)的開發(fā),能滿足大多數(shù)I/O需要。雖然,目前硅橋上的金屬布線的線間距可以穩(wěn)定實現(xiàn)2微米,進一步進行細(xì)微化也是非??尚械?,因為金屬布線的結(jié)構(gòu)都是在目前成熟的硅后端工藝中進行制造。然而,隨著布線寬度的減小,線電阻會急劇增加,線間的電容也會改變,這給信號的完整性(integrity)增加了挑戰(zhàn)。因此,在進行硅橋走線設(shè)計時,需要非常詳細(xì)的架構(gòu)設(shè)計和模擬工作來保證最終的產(chǎn)品性能。另外,介電層的材料介電常數(shù)和高頻損耗對布線也有影響。因此,硅橋的設(shè)計工作是非常挑戰(zhàn)的,它完全不同于目前的硅芯片設(shè)計師們的日常設(shè)計理念,而需要懂材料,懂封裝,懂制程和懂信號完整性的資深工程師(們)來共同實現(xiàn)。
硅橋內(nèi)部結(jié)構(gòu)示意圖【4,5】
從硅橋的集成部分來看大概的工藝流程涉及到幾個關(guān)鍵步驟:基板的壓合,銅制程,激光以及芯片貼裝的埋入工藝。針對特殊工藝,Intel開發(fā)了自家的埋入封裝(embedded)制程。其實在當(dāng)時埋入封裝已經(jīng)不是什么新東西,日本的廠家在早年曾做過針對電阻電容的埋入封裝。但由于那時還是PCB工藝,用的是CO2激光,非常粗糙;鍍銅工藝也相對落后,根本沒法做2微米的線寬,自然也不會有人想到用基板工藝去做芯片的高密度連接。Intel在10年前能想到用硅橋技術(shù)結(jié)合埋入封裝確實是一個大膽之舉。在加成法(Additive)鍍銅工藝和Coreless基板工藝成熟后,EMIB的實現(xiàn)也就水到渠成了。
EMIB工藝示意圖【4】
埋入的過程由于采用有機基板工藝,對公差的控制提出了更高的要求,例如芯片的厚度,芯片的切割,芯片的貼裝,和薄片的轉(zhuǎn)移等都是及其挑戰(zhàn)的,需要獨有機器進行配合。另外,整體的基板制備是扇出型的大板(FOPLP)封裝形式(500mm X 500mm),對板級的工藝一致性要求非常高。然而,在達到相對成熟的工藝良率后,產(chǎn)出的成本是相對較低的。同時,大板封裝有其先天優(yōu)勢,適合制造非常大的集成芯片,這與目前的小芯片(Chiplet)技術(shù)上的需求是吻合的。與普通FOPLP不同的是,EMIB并不需要將芯片從臨時的載板上取下,當(dāng)芯片被貼上之后就是永久固定的,減小了芯片在后續(xù)工序中位移的風(fēng)險。
埋入在有機基板中的硅橋【6】
硅橋的芯片雖然只有2-8mm,但是小于75微米的薄片會由于內(nèi)部的Cu布線結(jié)構(gòu)產(chǎn)生芯片翹曲。另外,芯片貼裝膜(DAF)的存在也會直接導(dǎo)致切割后的芯片產(chǎn)生翹曲。因此,如何控制貼裝之后的芯片不產(chǎn)生孔洞及分層,乃至芯片破裂又是一個挑戰(zhàn)所在。針對這一要求,Intel開發(fā)了針對這一工序的DAF材料,并通過優(yōu)化基板銅層的表面,貼裝材料固化工藝和有機材料的疊層工藝,實現(xiàn)了可接受的過程。
無分層的芯片貼裝截面【6】
在除了以上跟芯片貼裝相關(guān)的精準(zhǔn)控制要求之外,在進行大面積高數(shù)量激光鉆孔的對準(zhǔn)上也極其挑戰(zhàn)。硅橋表面的銅引腳尺寸在50微米左右(或更小),而間距(pitch)可能在70微米(或更?。?。因此對激光鉆孔機器本身的對準(zhǔn)要求極高。如激光開口無法與硅橋上的銅引腳對應(yīng)(部分對應(yīng)也不行),在之后的阻抗匹配和信賴性的表現(xiàn)上就有可能會出現(xiàn)問題。當(dāng)然,除了激光通孔,也可以使用掩膜版光刻的形式去形成對位孔,采用物理刻蝕的方式去形成通孔,而Intel采用何種工藝估計會根據(jù)孔的密度來進行選擇。
埋入的硅橋需要精準(zhǔn)的激光鉆孔對位【6】
在實現(xiàn)上下通孔后,要實現(xiàn)互聯(lián)的工序就是進行化學(xué)及電化學(xué)銅沉積,這在基板工藝中是成熟工藝。但通孔的尺寸實在是很小,對填銅工藝是有挑戰(zhàn)的,當(dāng)液體無法進行充分的離子交換,填銅的速度在整個500mmx500mm的大板中沉積的速度不一樣時就會導(dǎo)致不同的填充厚度。同時水平和垂直電鍍線的藥水和工藝能力也存在較大差異,相信Intel在開發(fā)過程中在這一工序上沒少嘗試。
硅橋上填充的銅通孔【6】
Intel自家的技術(shù)自然也在自家的產(chǎn)品上積極運用。針對超級計算機和人工智能應(yīng)用,Intel在2019年公布了基于Xe架構(gòu)的芯片系統(tǒng)-真的是一個芯片系統(tǒng),非常多芯片。該系統(tǒng)被命名為Ponte Vecchio,是用于高性能計算的下一代加速器。它結(jié)合47個Magical Tiles,主要由Compute Tiles、Base Tiles、Rambo Cache tile和Xe Link Tiles組成,每個Tiles都使用不同的制程制造。關(guān)于該芯片的命名,來源于意大利佛羅倫薩最古老的橋韋基奧橋(Ponte Vecchio),橋最初是以建筑師的名字命名的,類似我們中國貴州的風(fēng)雨廊橋。而Intel以此橋為名字,想必是為了體現(xiàn)該系統(tǒng)的經(jīng)典和復(fù)雜,因為在現(xiàn)實中這座橋和周圍的建筑是一個拜占庭式的龐然大物,橋的兩邊是當(dāng)?shù)氐奶厣ㄖ鼈兺ㄟ^這座橋以巧妙的方式相互連接,形成這么一個古老而又有特殊建筑風(fēng)格的大師級作品。
意大利Ponte Vecchio橋
Intel芯片架構(gòu)及Ponte Vecchio集成
?。⊿ource: Intel)
在Ponte Vecchio芯片中,不僅有EMIB,還有FOVEROS,可謂是當(dāng)今3D集成度頂尖的芯片案例。美國能源部超級計算機Aurora將以Ponte Vecchio為核心的,每個Ponte Vecchio系統(tǒng)每秒能夠進行超過45萬億次32位浮點運算。四個這樣的系統(tǒng)與兩個Sapphire Rapids CPU一起構(gòu)成一個完整的計算系統(tǒng)。超過54000個Ponte Vecchios和18000個SapphireRapids組合在一起,形成Aurora。
Ponte Vecchio高性能加速器GPU
及其EMIB結(jié)構(gòu)【7】
當(dāng)芯片節(jié)點來到5nm,僅僅通過硅工藝來延續(xù)摩爾定律似乎已經(jīng)捉襟見肘。臺積電和Intel用先進封裝結(jié)合硅工藝給半導(dǎo)體行業(yè)帶來了新的范式,通過先進封裝系統(tǒng)集成給摩爾定律的延續(xù),提供了一種新的方向。