兩個月前,也就是曾經(jīng)的FPGA巨頭Altera被英特爾收購的4年之后,英特爾推出了“全面借助自身能力”開發(fā)的新一代FPGA產(chǎn)品——Agilex。與此前Altera推出的Stratix、Arria、Cyclone、Max等產(chǎn)品系列完全不同,Agilex是一個全新的FPGA系列,“體現(xiàn)了你能想象到的所有與Intel相關的技術資源”,被英特爾寄予了更多的期待。
這里所提到的“相關技術資源”,基本上等同于英特爾在2018年底“架構日”上所提出的制程和封裝、架構、內存和存儲、互連、安全、軟件這“六大技術支柱”。盡管當時英特爾官方表示將會盡快把六大技術支柱運用于自己的整個工程部門,落實在已經(jīng)或即將推出的產(chǎn)品與技術規(guī)劃中。但只用了不到半年的時間,Agilex FPGA就成為“六大技術支柱”落地的最佳載體,英特爾強大的系統(tǒng)研發(fā)和整合能力可見一斑。
窺一斑而知全豹
Agilex是Agile(敏捷)和Flexible(靈活)兩個詞語的結合體,而這兩個特點也正是現(xiàn)代FPGA技術最為核心的兩大要點。英特爾在2015年時就承諾說未來會根據(jù)不同的客戶需求提供不同點5的異構架構,包括:分立的CPU+FPGA、封裝集成的CPU+FPGA、以及將Intel CPU/FPGA/ARM三者進行管芯集成的FPGA。
理由是顯而易見的。通過集成,不但能夠降低延時,提高效能和性能/瓦,更可以統(tǒng)一處理器和FPGA之間的工具流程,為不同的性能需求提供更廣泛的體系結構支持。4年之后,Agilex FPGA通過異構架構,實現(xiàn)了對不同制程工藝、不同邏輯單元之間的集成,在靈活性和定制化方面實現(xiàn)了突破。
根據(jù)英特爾2月份的基準測試,Agilex在最大時鐘速率(Fmax)上比Stratix 10提高了40%,而總能耗降低高達40%。此外,Agilex還具有高達40 TFLOP的DSP性能(FP16配置)和92 TOP DSP性能(INT8配置)。
坦率的說,僅憑異構架構這一點,Agilex FPGA其實是無法實現(xiàn)上述性能指標的,那么,Agilex FPGA中還隱藏著哪些不為人知的“黑科技”呢?
10納米工藝和高級3D封裝
對于英特爾這樣擁有“端到端”解決方案的半導體巨頭來說,擁有先進的半導體制程技術和封裝技術,是構建領先產(chǎn)品的基礎與關鍵。在架構日以及隨后的CES 2019展上,英特爾相繼展示了覆蓋云到端的10納米產(chǎn)品,包括“Ice Lake”PC 處理器、“Lakefield”客戶端平臺、“Snow Ridge”網(wǎng)絡系統(tǒng)芯片、“Ice Lake”英特爾至強可擴展處理器,以及被外界視為繼2018年推出的嵌入式多芯片互連橋接(EMIB)封裝技術之后,又一個具備“里程碑”意義的創(chuàng)新突破——“Foveros”3D封裝技術。
為了確保性能的一致性,Agilex FPGA器件核心的FPGA邏輯結構芯片同樣采用了英特爾10納米芯片制程技術構建,這也是目前世界上最先進的FinFET制程技術之一。同時,Agilex還融合了英特爾專有嵌入式多芯片互連橋接(EMIB)集成的 3D 異構系統(tǒng)級封裝(SiP)技術,它提供了一種高性能、低成本的方法,有助于將Chiplets和FPGA邏輯結構芯片集成至相同的封裝中。
第二代英特爾HyperFlex架構和Chiplets架構
Agilex FPGA的邏輯結構芯片采用了第二代英特爾HyperFlex架構,除了與第一代架構一樣,在整個核心結構中都使用額外的寄存器Hyper-Registers外,二代架構還提升了整體結構性能,同時最大限度地降低了功耗,其中最顯著的一項改進是在超級寄存器中添加了高速旁路。
而Chiplets是一種物理IP模塊,可通過封裝級集成方法和標準化接口集成其他Chiplets。借助Chiplets這種混合搭配模式,收發(fā)器數(shù)量不再受通道數(shù)量的限制。設計人員要想增加或減少收發(fā)器通道數(shù)量,只需添加所需的收發(fā)器Chiplets即可,無需重新布局芯片以集成不同數(shù)量的通道。僅此一項,英特爾就將單個收發(fā)器通道的速度從58Gbps提升到112Gbps。
高性能處理器接口
在數(shù)據(jù)中心里作為CPU的硬件加速器,用來加速深度學習的模型訓練、金融計算、網(wǎng)絡功能卸載等各類應用,是當前FPGA的一個主要應用場景。但該領域亟待解決的核心問題之一,就是緩存一致性。換句話說,就是必須要明確CPU與硬件加速器之間的內存互聯(lián)協(xié)議。
今年3月,英特爾宣布聯(lián)合微軟、阿里、思科、戴爾EMC、Facebook、谷歌、惠普企業(yè)HPE和華為等公司,共同推出一個全新的互聯(lián)標準,取名為Compute Express Link(CXL),應用目標鎖定互聯(lián)網(wǎng)數(shù)據(jù)中心、通信基礎設施、云計算與云服務等領域,而這也正是FPGA大顯身手的重要平臺。
為了確保高性能在線處理和處理器負載加速,英特爾Agilex FPGA支持最新一代高性能處理器接口,包括PCIe Gen 5和CXL,并將成為首款采用Xeon可擴展處理器的一致的高速緩存和內存互聯(lián)結構的FPGA。
先進的內存層級結構
Agilex FPGA 支持各個層級的內存資源,包括通過專用接口提供的嵌入式內存資源、封裝內內存和片外內存。該層級結構的第一層是嵌入式片上內存,包括MLAB、塊RAM和eSRAM,每種內存均可提供不同的容量,以滿足不同的處理需求。此外,英特爾在設計中還使用SIP技術將高帶寬內存(HBM)直接集成至Agilex FPGA器件中,有助于縮減電路板尺寸和成本,簡化與降低電源需求。
另一個值得關注的重點是Agilex平臺還集成了eASIC技術。這種集成eASIC芯片定制技術能夠實現(xiàn)從FPGA到結構化ASIC的遷移。換句話說,用戶可以利用eASIC自身具備的可復用 IP 的自定義邏輯連續(xù)體,在整個產(chǎn)品生命周期內進行靈活優(yōu)化,快速從FPGA轉移到ASIC。
軟件
全新硬件架構每一個數(shù)量級的性能提升,軟件能相應帶來兩個數(shù)量級的性能提升。在新一代Agilex FPGA上,配套支持軟件Quartus Prime可縮短硬件開發(fā)者30%的編譯時間,內存利用率也提高了15%。同時,新一代的Agilex FPGA也納入到One API的架構當中。
即將于今年第四季度推出的“OneAPI”軟件編程框架,,為軟件開發(fā)者提供了單一源的異構編程環(huán)境,支持常見的性能庫API、Intel VTune和Advisor等軟件開發(fā)工具,能夠將軟件匹配到能最大程度加速軟件代碼的硬件上,用以簡化包括FPGA、CPU、GPU、人工智能和其它加速器在內的各種計算引擎的編程接口,降低各種架構和工作負載下的開發(fā)復雜性,加速六大技術支柱的大規(guī)模部署。
迎接多元化計算時代
讓我們先暫時跳出FPGA這個小圈子,來看看為什么英特爾要提出“六大技術支柱”?
有人說這“六大技術支柱”是英特爾為抵御NVIDIA、AMD和賽靈思等公司而筑起的堅固城防,也有人不惜溢美之詞,將其稱之為英特爾引領未來計算發(fā)展的“創(chuàng)新矩陣”。但其實無論叫法如何,在英特爾看來,這六大技術支柱之間是相互關聯(lián)、緊密耦合的,既能夠帶來指數(shù)級的創(chuàng)新,也是英特爾未來十年甚至未來五十年的主要驅動力。
從英特爾發(fā)布的數(shù)據(jù)來看,其10nm工藝下的晶體管密度達到了100.8Mtr/mm2,大約是上一代的14nm工藝的2.7倍。也就是說在2015-2018這3年左右的時間內,英特爾實現(xiàn)了晶體管密度2.7倍的增長。同時,英特爾還正在積極研究如納米線晶體管、III-V材料(如砷化鎵和磷化銦)晶體管、硅晶片3D堆疊、高密度內存與互聯(lián)、紫外光(EUV)光刻技術、自旋電子、神經(jīng)元計算等前沿項目。
發(fā)展半導體精尖制造技術和平臺,生產(chǎn)世界上最好的芯片,持續(xù)推動制程和封裝工藝技術創(chuàng)新,當然是英特爾的使命,但還不是全部。
我們現(xiàn)在正逐漸轉向以數(shù)據(jù)為中心的時代。預期到2020年,普通用戶每天產(chǎn)生的數(shù)據(jù)量為1.5GB,智慧醫(yī)院每天3TB,自動駕駛每天達4TB,而聯(lián)網(wǎng)飛機和智慧工廠每天分別達到了40TB和1PB!
這意味著伴隨著數(shù)據(jù)量的爆炸式增長,數(shù)據(jù)類型也發(fā)生革命性變化,人工智能、5G、自動駕駛、云計算、物聯(lián)網(wǎng)等新興應用帶來了更加多元化的計算需求。例如在嵌入式應用領域和邊緣設備端,用戶的需求是能夠實時抽取包括圖像、視頻和視覺信息在內的數(shù)據(jù);在通信基礎設施端,用戶需要高帶寬融合處理能力;在云端,相關企業(yè)的需求則是能夠高效的管理、組織和處理激增的數(shù)據(jù)。
也就是說,當我們從更高的維度來看數(shù)據(jù)架構時,就會明顯的意識到,在這個海量數(shù)據(jù)推動計算架構快速演進并呈指數(shù)級擴展的時代,沒有一種單一的技術可以全面滿足消費者或企業(yè)客戶對未來的計算需求,不可能只通過直接的標量架構就能解決所有應用,他們需要的是在多樣化的層級結構中連接多樣化的架構,比如分別應用于CPU、GPU、AI和FPGA產(chǎn)品中的標量(Scalar)、矢量(Vector)、矩陣(Matrix)和空間(Spatial)架構。
同時,隨著從高度動態(tài)、非結構化自然數(shù)據(jù)中進行收集、分析和決策的需求越來越高,對計算的需求也超越了經(jīng)典的CPU和GPU架構。雖然領先的制程和CPU仍然至關重要,但要想充分把握數(shù)據(jù)爆發(fā)帶來的機遇,還需要在包括制程和封裝、架構、內存和存儲、互連、安全、軟件在內的一系列基礎構建模塊上極速創(chuàng)新。那種不去研究數(shù)據(jù)的產(chǎn)生、類別、以及所需要的處理能力,是不行的。這和以前的通用數(shù)據(jù)處理不一樣,只單純強調某一種處理器算力的做法是行不通的。
英特爾希望能通過六大技術支柱引領“超異構計算”時代。即通過提供多樣化的標量、矢量、矩陣和空間計算架構組合,以先進制程技術進行設計,由顛覆性內存層次結構提供支持,通過先進封裝集成到系統(tǒng)中,使用光速互連進行超大規(guī)模部署,提供統(tǒng)一的軟件開發(fā)接口以及安全功能。
以英特爾在CES 2019上展示的下一代CPU微架構Sunny Cove為例,它包含了可加速人工智能和加密等專用計算任務的新功能,旨在提高通用計算任務下每時鐘計算性能和降低功耗。在即將量產(chǎn)的10納米PC處理器Ice Lake中,就高度整合了Sunny Cove微架構、AI使用加速指令集以及英特爾第11代核心顯卡。
為什么要把制程封裝和架構設計組合在一起?因為通過超異構計算,英特爾可以集成不同架構、不同制程、3D封裝、互連和OneAPI等技術,確??梢宰钣行У貙崿F(xiàn)產(chǎn)品多樣性,提升產(chǎn)品穩(wěn)定度,快速滿足客戶定制化和市場化的需求。
在向數(shù)據(jù)公司轉型的過程中,英特爾將自身定義為端到端方案提供商,即產(chǎn)品線覆蓋云端、網(wǎng)絡傳輸端和終端。其中,核心來自云端的大規(guī)模數(shù)據(jù)處理,而布局端到端則可以讓英特爾掌握“數(shù)據(jù)什么時候來、是什么樣的數(shù)據(jù)、需要怎么來處理”。
為了增進處理新數(shù)據(jù)的能力,加快技術發(fā)展的步伐,并推動PC和服務器以外的計算,英特爾過去六年來不但一直在研究能夠加快經(jīng)典計算平臺的專用架構,還同時加大了對人工智能(AI)和神經(jīng)擬態(tài)計算的投資和研發(fā)。完成了制造和封裝的首款自主學習神經(jīng)擬態(tài)測試芯片Loihi、已交付的49量子位超導量子測試芯片、在300毫米晶圓制程上發(fā)明的自旋量子位制造流程等,均被業(yè)界視作英特爾對未來計算的提前布局,旨在顛覆未來計算格局。
隨著人工智能、物聯(lián)網(wǎng)、傳感器等技術的融合應用及進一步發(fā)展,越來越多無人干預的機器設備和應用場景成為可能,“自能(Autonomous)”也正取代“智能”,成為帶動新一輪創(chuàng)新發(fā)展的新趨勢。在這樣的時代大背景下,英特爾戰(zhàn)略性地跳出了單純比拼工藝和算力的低層次競爭格局,站在更高的起點上,通過構建全新的六大技術創(chuàng)新組合,將CPU、GPU、FPGA、AI加速器、通信系統(tǒng)、高速存儲等部分有機的結合到一起,重新定義了產(chǎn)品開發(fā)設計的模式,Agilex FPGA就是最佳印證之一。我們也期待看到更多基于六大技術支柱打造的產(chǎn)品上市,引領產(chǎn)業(yè)更好地解決多元化計算需求的挑戰(zhàn)。