近期,半導體業(yè)倍受關注的一大熱點事件是三星官宣量產3nm制程芯片。實際上,在官方消息發(fā)出之前,業(yè)界就一直在議論此事,焦點就是良率問題。由于在追趕臺積電的道路上不遺余力,三星幾乎用盡渾身解數(shù),這一次,在臺積電即將于下半年量產3nm制程之前,搶先宣布量產,比拼的意味濃厚。但從近些年的情況來看,在先進制程工藝方面,屢屢被臺積電碾壓,一個很重要的原因就是三星難以保證良率,這在獲取客戶信心方面是個很大的減分項。
前些年,在10nm和7nm制程剛量產的時候,高通驍龍845 SoC由三星代工生產,驍龍855、865則由臺積電7nm制程工藝生產,英偉達原計劃由三星生產的7nm制程GPU芯片,也轉移到了臺積電。那時,三星在良率方面就落后于臺積電,訂單量明顯少于對手。
2021年,4nm制程興起,高通將驍龍 8 Gen1 Plus的生產訂單轉給了臺積電,很重要的原因就是三星4nm制程工藝的良率僅為35%左右,與臺積電超過70%的良率相比差太多。
今年2月,據(jù)韓媒Infostock Daily報道,三星電子懷疑旗下晶圓代工廠的產量及良率報告存在造假行為,因此,三星DS部門受到了管理咨詢部門對其晶圓代工廠5nm制程良率的調查,緊隨其后的將是4nm和3nm調查。該事件的起因是,三星晶圓代工業(yè)務飽受低良率之苦,特別是4/5nm制程量產后,出現(xiàn)了良率極其低下的情況,交貨時間不斷延后,招致了三星高層的懷疑。一位熟悉三星電子內部情況的高管表示:“由于晶圓代工業(yè)務交付的數(shù)量難以滿足最近的訂單需求,我們對非內存工藝的良率表示懷疑,眾所周知,基于該良率(指此前良率報告的數(shù)據(jù))是可以滿足訂單交付的。”管理咨詢部門的懷疑對象是DS部門現(xiàn)任及前任高管,調查內容包括:之前遞交的良率報告是否真實,用于提升良率的資金究竟流向何方。
今年6月,三星任命了內存制造技術中心副總裁Kim Hong-shik領導晶圓代工技術創(chuàng)新團隊。通過改組,三星調動存儲芯片專家來領導代工業(yè)務的核心部門。此次,晶圓代工部門的重組,也是為了改善3nm芯片良率,努力反超臺積電。
臺積電之所以能在先進制程方面領先全球,高良率是殺手锏。據(jù)悉,該公司7nm制程在量產開始3個季度后,其不良率降至每平方厘米0.09,5nm制程量產初期,不良率低于同期的7nm,缺陷密度大約為每平方厘米0.10~0.11,隨著5nm芯片量產進程的推進,不良率降至0.10以下。
另一大芯片巨頭英特爾也飽受良率困擾,2020年7月,該公司發(fā)布消息稱,原計劃于2021年底上市的7nm芯片,因工藝存在缺陷,導致良率下降,發(fā)布時間推遲6個月。在此之前,英特爾在10nm制程的研發(fā)過程中就遇到了很多困難,多次延期,2019年初才實現(xiàn)量產。
綜上,芯片良率的重要性可見一斑。
芯片良率簡析
簡單的說,芯片良率就是晶圓上合格芯片數(shù)量與芯片總數(shù)的比值,這個數(shù)值越大,說明有用芯片數(shù)量越多,浪費越少,成本也就越低,利潤越高。
良率還可以細分為wafer(硅晶圓)良率、die良率和封測良率,這三種良率的乘積則是總良率。總良率是所有晶圓廠的核心機密,外界很難知曉。它可以反應出這家晶圓廠制造芯片的總體水平和營收能力。
芯片制造的每一個階段,從晶圓制造、中測、封裝到成測,每一步都會對總良率產生影響,其中,晶圓制造是影響良率的主要因素。
良率還受設備、原材料等因素影響,要想達到較高水平,需要穩(wěn)定工藝設備,定期做工藝能力恢復。另外,環(huán)境因素對以上提到的三種良率都會產生影響,如塵埃、濕度、溫度和光照亮度等,芯片制造和封測過程需要在超潔凈的工作環(huán)境中進行。
另外,wafer的尺寸會直接影響良率,一般情況下,中心區(qū)域的良率較高,邊緣區(qū)域的良率較低(這是由制造工藝決定的)。wafer尺寸越大,中心區(qū)面積占總面積比例也大,良率越高。
良率不是一成不變的,它會隨著工藝技術的不斷成熟而提升。一般情況下,新制程工藝剛量產的時候,良率比較低,隨著生產的推進,以及導致低良率的因素被發(fā)現(xiàn)和改進,良率會不斷提升,較為成熟的產線良率可以達到95%以上。
很多半導體公司都有專門從事良率提升工作的工程師,在晶圓廠,有專門的良率提高(YE)部門,良率工程師負責提高晶圓良率;在IC設計企業(yè),運營部門有專業(yè)的產品工程師(PE)負責提高良率。
拿什么拯救你,我的良率
芯片良率如此重要,全行業(yè)都非常關注,晶圓廠、IC設計企業(yè)、半導體設備和材料廠商,以及行業(yè)科研機構都在進行各種研究探索,為提升芯片良率添磚加瓦。
當然,提升良率的主戰(zhàn)場依然是晶圓廠(IDM廠或晶圓代工廠)。要提升良率,首先需要深入研究芯片良率與可靠性之間的關系,而可靠性與芯片缺陷有直接關系,因此,減少芯片生產過程中的缺陷數(shù)量可以提升基準良率,同時可以提高器件的可靠性。
為了提高可靠性,需要投入時間、資金和相關資源,以提高良率,這就需要進行權衡,因為不同類型芯片對可靠性的要求不同,與之對應的資源投入也不同,這也會直接影響利潤。例如,消費類電子產品用芯片對可靠性要求沒有那么高(與工業(yè)和汽車芯片相比),因此,對于這類芯片,達到一定良率之后,晶圓廠不會做再高的追求,而是將資源分配到開發(fā)下一個節(jié)點的制程和設備,這樣可以提高成熟節(jié)點的盈利能力。而對于高可靠性要求的芯片(如車用芯片,其可靠性要求比消費類芯片高兩至三個數(shù)量級),晶圓廠必須追求更高的基準良率水平,也就需要在制程工藝和設備方面投入更多資源。不過,高性能與高良率之間是存在矛盾關系的,很難兼顧。
對于晶圓廠而言,大多數(shù)影響良率的系統(tǒng)性問題都已解決,實際良率損失主要是由制程設備或環(huán)境的隨機缺陷造成的。為了檢測出可靠性缺陷,晶圓廠的產線必須具備相應的制程控制設備和檢測取樣機制,采用的缺陷檢測系統(tǒng)必須具備所需的缺陷靈敏度,并維護良好且達到規(guī)格。檢測取樣必須針對制程步驟達到足夠的頻次,以快速檢測到制程或設備的偏移。此外,必須有足夠的檢測產能用以支持加速異常偵測。
在實際操作過程中,常見的難點是精確找出基準缺陷的出處,有時,缺陷產生之后經過多個制程步驟才被檢測到,這對設備監(jiān)控系統(tǒng)和機制的要求很高,做不好的話,常常找不出問題的根源在哪。為了解決這個問題,系統(tǒng)會先檢測一片晶圓,使其在指定的制程設備中運行,然后再次檢測,第二次檢測發(fā)現(xiàn)的任何新缺陷必定是由該指定的制程設備產生的,這樣,就可以找出缺陷的根源所在。因此,設置好一套靈敏的檢測機制,可以揭示源自每個制程設備的隨機良率損失并將其解決。
此外,晶圓廠可以對每個設備上出現(xiàn)的缺陷進行分類,并生成資料庫,可作為現(xiàn)場故障的失效分析參考。這種方法需要非常頻繁的設備認證(至少每天一次)。
通過以上這些措施和方法,晶圓廠可以有效控制缺陷,從而提升芯片良率水平。當然,除了這些,晶圓廠還有其它提升良率的方式方法,這里就不再贅述了。
除了晶圓廠產線的流程控制,產業(yè)鏈上游的半導體材料廠商,特別是硅晶圓廠商,也可以通過創(chuàng)新技術,在晶圓層面為提升良率提供保障。
例如,來自韓國科學與信息通信技術部下屬的韓國機械與材料研究所(KIMM)和新加坡南洋理工大學(NTU)的科學家開發(fā)了一種技術——新型納米轉移印刷技術(Nanotransfer-basedprinting),它可以制造出高度均勻的硅晶圓。他們將無化學粘合劑打印技術與金屬輔助化學蝕刻相結合,可以用于增強表面對比度以使納米結構可見。
這種納米轉移印刷技術是通過在相對低溫(160°C)下將金(Au)納米結構層轉移到硅襯底上,形成具有納米線(nanowires)的高度均勻的晶圓,以實現(xiàn)在制造過程中控制所需的厚度。這種技術允許快速、均勻、大規(guī)模制造晶圓,同時,制造的晶圓幾乎沒有缺陷,生產出的芯片良率非常高。在實驗室測試中,能夠將99%的20nm厚Au薄膜轉移到6英寸晶圓上。當采用該方法加工6英寸晶圓時,結果顯示印刷層保持完整,在蝕刻過程中彎曲最小,證明該Nanotransfer-basedprinting技術具有出色的均勻性和穩(wěn)定性。
KIMM-NTU團隊認為該技術可以很容易地擴展到12英寸晶圓上,而這是三星,英特爾、臺積電和GlobalFoundries等晶圓廠產線中的主流晶圓尺寸。
性能與良率之爭
談到芯片良率,就不能不談性能,因為這兩者之間是存在矛盾關系的。在消費類電子產品芯片大行其道的時代,良率占絕對上風,因為消費電子產品對性能的要求沒那么高。但隨著近些年消費電子市場的疲軟,相應地,高性能計算(HPC)、汽車電子市場快速發(fā)展,且潛力巨大,而這些類型的芯片對性能要求極高,此時,良率就不得不做些讓步了,因為在絕對高性能的量產要求下,良率不可能做得像消費類芯片那么高。
這樣,各種新型芯片架構就涌現(xiàn)了出來。最具代表性的,也是最極端的就是Cerebras的晶圓級大芯片。
2019年8月,人工智能初創(chuàng)公司Cerebras Systems發(fā)布了Cerebras Wafer Scale Engine(WSE)處理器,這是一個超大芯片,由一個12英寸晶圓制成。而傳統(tǒng)芯片則很小,一個12英寸晶圓可以制造出三、四百個芯片。
WSE擁有1.2萬億個晶體管,專門面向AI任務開發(fā),這顆巨型芯片,面積達到42225平方毫米。
通常情況下,晶圓廠不會制造這么大的芯片,因為在單個晶圓的加工過程中通常會出現(xiàn)一些雜質,雜質會直接影響芯片良率,而單個芯片越大,整體良率越低。像Cerebras這么大的芯片,其良率保障是個凸出的問題。不過,Cerebras Systems公司表示,其設計的芯片留有冗余,一種雜質不會導致整個芯片都不能用。
2021年4月,Cerebras Systems公司又推出了WSE的升級版WSE-2,集成了2.6萬億個晶體管。該公司稱設計出了一個可以繞過任何制造缺陷的系統(tǒng)來實現(xiàn)100%的良率,最初,Cerebras有1.5%的額外內核允許缺陷的存在。
之所以會出現(xiàn)WSE這樣的超大芯片,原因在于,高性能計算市場對性能的敏感度高于價格,高性能計算市場的主要客戶并非C端,而是B端的行業(yè)客戶,他們對成本不敏感,最關心的是性能。特別是近些年,AI在云計算市場的應用風起云涌,云端AI芯片的客戶主要是谷歌這樣的互聯(lián)網(wǎng)巨頭,在這些巨頭眼里,算力就是王道,它們對算力的追求幾乎是無止境的,這一點和信奉“夠用就好”的消費電子市場完全不同。
當然,像Cerebras Systems公司這樣的芯片屬于極端案例,大多數(shù)情況下,高性能計算市場的芯片尺寸還是在傳統(tǒng)范圍以內。但良率與性能之間的矛盾問題還是有增無減。需要有新的解決方案。
此時,Chiplet應運而生,它在兼顧性能和良率方面有獨到之處。如果要提升性能就必須減少片外通信,而想提升良率則必須保證單一芯片面積不能太大。Chiplet方案恰恰能同時兼顧這兩點。Chiplet可將單一芯粒(die)面積做?。ù_保良率),并用高級封裝技術把不同的芯粒集成在一起。這樣,芯粒之間的通信并不需要走PCB板,可以在封裝內進行,這就大大降低了片外通信的開銷。AMD最先在數(shù)據(jù)中心商用了Chiplet方案,且取得了良好的效果,看到商機后,英特爾也在跟進,開發(fā)了一整套先進制程工藝和封裝技術。
總之,在先進制程不斷迭代的今天,芯片良率問題變得越來越突出,與此同時,高性能需求也在給良率找麻煩。一切都好難,能夠玩轉這些的廠商恐怕會越來越少。