最近的一則新聞把一個原本在學術界的詞匯——“后摩爾”拉升到了公眾視野。什么是“后摩爾”?為什么“后摩爾”要提升到國家戰(zhàn)略程度?“后摩爾”技術包含哪些?本期矽說小編就來談一談我眼中的后摩爾,因為一直欠著大家一篇ISSCC 2021的review,正好有機會借著這個話題來一起討論下。
先插一個硬廣:第三屆華人芯片設計技術研討會(ICAC 2021)明天就要在深圳開幕了,屆時將網羅今年在ISSCC 2021上發(fā)表論文的大部分作者與報告,不出國門、不倒時差的ISSCC體驗就在5.20,千萬不要錯過。
接下來開始正文——
后摩爾定義:尺寸微縮的邊際效應遞減
歷史上的摩爾定律,一般分為兩個階段,第一個階段是從Gordon Moore提出摩爾定律開始,到2000年前后,這個階段一般稱為 Full Scaling或者恒定電場微縮階段,這個階段的摩爾定律是溫馨且甜蜜的童話,所有的性能指標都微縮,單位面積上的發(fā)熱量保持不變。PPA(Power/Performance/Area),無論哪個都在有條不紊提升。也正是這個時期開始,芯片廠商們意識到,押注摩爾定律穩(wěn)賺不賠,就像投資北上廣深的房價。
然而好景不長,由于晶體管的閾值電壓在到100nm以后幾乎無法下降,Full scale的摩爾定律遇到了阻礙。于是一種新的摩爾定律產生——我們一般稱為恒定電壓微縮。雖然尺寸還在變小,速度還在變快,但是恒定電壓微縮下,單位面積下的發(fā)熱量是隨微縮節(jié)點平方率上升。換言之,這樣的摩爾定律一定帶來芯片發(fā)熱的爆炸。如果我們芯片充分利用微縮帶來益處,小小芯片很可能其發(fā)熱密度能趕上核電站甚至是火箭推進器。
問題來了,20nm以下的工藝發(fā)展,且不論能否造出來,假設CMOS器件制造無礙,能否繼續(xù)享受摩爾定律器件微縮帶來的芯片性能的上升紅利?由于發(fā)熱宛如小火爐現象,實際摩爾定律發(fā)展邊際效應已然遞減。而且,更現實的問題是設計成本。20nm以下的工藝采用FinFET/GAA等立體結構,無論數字還是模擬電路,設計難度指數級上升,設計成本更是讓一般的芯片公司望洋興嘆。一顆5nm SoC的設計成本是28nm的10倍之多。相比之下,帶來性能躍遷只有2、3倍。從經濟的角度,除了少部分出貨量超過100KK的芯片,大部分芯片的微縮已經停滯在了28nm節(jié)點上下。當然,這種停滯還可能源于某些國際政治的因素。比如某西方大國不讓我們的某實力大廠在某島的代工廠上流14nm以下的工藝等。還有就是,2nm以下的芯片能不能造出來,大家也沒啥譜。畢竟已經是十幾個原子的事情了,現在基于量子力學的半導體物理理論管不管用還兩說呢。
總而言之,所謂“后摩爾”指的就是當摩爾定律對于大部分芯片設計公司來說已經停滯時,有沒有什么顛覆性技術可以讓芯片在沒有尺寸微縮的前提下繼續(xù)保持PPA的提升。
簡單而言,可以從器件、架構、集成方法的角度來討論后摩爾的關鍵技術。
后摩爾器件:CMOS工藝的百尺竿頭
既然CMOS器件在先進節(jié)點已經如此掙扎,那“后摩爾”時期,是否可以找一些能和CMOS工藝的兼容的新器件代替?zhèn)鹘y(tǒng)的MOS器件呢?這一想法的率先在存儲器中完成落地。
ISSCC 2021中,中科院微電子所在14nm FinFET工藝節(jié)點上,用憶阻器實現的阻變RAM(ReRAM)代替了傳統(tǒng)的基于Flash 浮柵MOS管。在CMOS兼容的工藝里,采用新原理器件實現了FinFet工藝的非易失存儲。相比之下,Flash工藝在28nm,甚至40nm就已經達到了工藝微縮的極限。
不僅用于存儲,由于ReRAM的器件具有電阻特性,與電流、電壓可通過歐姆定律、基爾霍夫定律實現乘和累加的物理關系,因此可被廣泛用于并行模擬計算電路中,這種電路也被稱為存算一體。ISSCC 2021中,臺灣清華大學通過數模混合的計算電路,首次基于ReRAM的實現8位的存算一體電路,且能效保持在11TOPS/W。其電路模塊結構如下所示:
后摩爾架構:算法與電路的緊耦合契機
除了器件本身,“后摩爾”的另一潛力的來源是其專用性。傳統(tǒng)的通用電路性能飽和,所以這兩年“領域專用”的設計如火如荼。ISSCC自然也不能缺席。特別是在人工智能芯片領域。目前AI算法發(fā)展速度是每3.4個月算力翻倍,而摩爾定律最快也得1.5年單位面積上的尺寸翻倍。若要能稍稍趕上這一發(fā)展速度,就得聯合算法尋找新的契機。
在ISSCC的AI芯片Session中,幾乎所有芯片設計都緊緊擁抱了算法,基于協(xié)同設計催化出更好的性能。例如,IBM提出的基于混合8位浮點的AI訓練芯片。通過自定義FP8的數據格式,完成訓練。精度上,和標準32位浮點的訓練精度相差不超過1%,同時功耗又能保持在3TOPS/W以上,避免GPU百瓦級的耗電與發(fā)熱。
還有清華大學在ISSCC 2021報告的兩篇存算一體SoC的論文。
第一篇通過利用傳統(tǒng)Cache一致性機制中的Set Associative技術,存算一體系統(tǒng)芯片中的再發(fā)明,完成了對稀疏輸入的高效讀寫與計算,用更小的硬件代價完成更大規(guī)模的計算。
第二篇通過利用In-tensor decomposition train算法將最占據存儲空間的神經網絡權重最大的三維卷積核 分解為多個小向量的乘積,通過僅存儲這些小向量的方式,結合量化和稀疏性優(yōu)化實現高性能片上存儲空間。
可見,上述方法的性能提升及其背后的新架構探索,都不適用于通用計算,但是通過算法與電路的更緊密結合,突破目前“摩爾時期”通用模塊的性能瓶頸的效果顯著。
后摩爾集成:3D視角重新定義芯片與互聯
摩爾定律的“初心”判斷標準是單位面積上的晶體管數量的增長速度。在過去的很多年里,摩爾定律關心的都是二維平面上CMOS器件的尺寸微縮。但在后摩爾時代,如果二維的增長飽和了,為什么不考慮三維呢?ISSCC 2021上有多篇從3D視角切入的芯片可以提供討論。
首先是來自Sony的智能CIS傳感芯片。由于人工智能應用的興起,進傳感器側的AI芯片一直是CIS領域的熱門話題。Sony通過三維封裝與Cu-Cu互聯,將一個CMOS圖像傳感器陣列與模擬前端、AI芯片集成在一個封裝內。利用Cu-Cu互聯高帶寬避免了額外的傳感器與處理器數據通信瓶頸。
此外,三維封裝的另一個火熱話題是Chiplet。雖然ISSCC 2021的論文中未有太多的Chiplet paper,但是在forum上,也披露了不少已發(fā)表的Chiplet高性能處理器的設計細節(jié)。
比如AMD 二代EPYC架構服務器處理器芯片中基于Chiplet、無源連接基板和有源硅互聯芯片的協(xié)同設計方法,闡述了其從芯片級到板級到系統(tǒng)級的考慮。
還有Nvidia的Chiplet多AI加速器MCM集成芯片,進一步討論了其互聯與軟件部署算法的系統(tǒng)設計考慮。這種場景下,芯片的設計視角需要跳脫單芯片的局部優(yōu)化,而走向超大規(guī)模算力集成下的軟硬件協(xié)同優(yōu)化。有可能,我們即將來到一個3D封裝重新定義單芯片的新格局。
在這一背景下,大廠們也開始積極布局面向Die-to-Die的互聯電路,Wireline session中Samsung、Cadence都有高性能片間互聯的新電路設計。但目前為止,還是經典的Serdes的高能效設計,能否有顛覆性技術出現讓我們拭目以待。
其實還有很多ISSCC 的好paper難以窮舉,你眼中的后摩爾技術還有什么呢?