英特爾在半導體領域稱雄幾十年,憑借的就是其x86架構和曾經(jīng)遙遙領先競爭對手的半導體制造工藝。然而在過去的三四年,英特爾在10納米工藝上卻遇到了阻礙,甚至被曾經(jīng)望塵莫及的競爭對手完成了彎道超車,并紛紛投入量產(chǎn)。痛定思痛的英特爾于2019年,一口氣發(fā)布了四款基于10納米工藝的芯片產(chǎn)品, Agilex? FPGA 正是其中一款基于英特爾10納米工藝的旗艦級FPGA產(chǎn)品。
經(jīng)過近兩年的評估期, Agilex? FPGA 已于2021年1月進行大規(guī)模量產(chǎn)出貨。5月13日,英特爾數(shù)據(jù)平臺事業(yè)部副總裁兼可編程解決方案事業(yè)部(PSG)產(chǎn)品營銷總經(jīng)理Deepali Trehan召開媒體見面會,并在一對一采訪中向媒體披露了更多技術細節(jié)。
性能巔峰:AgilexTMFPGA簡介
英特爾? AgilexTM FPGA 設備采用異構 3D 系統(tǒng)級封裝 (SiP) 技術,集成了英特爾首款基于 10 納米 SuperFin 技術的 FPGA 架構和第二代英特爾? HyperFlex? FPGA 架構,還集成了四核 Arm* Cortex-A53 處理器,以提供高度的系統(tǒng)集成性。Agilex代表著全行業(yè)最佳的收發(fā)速率,達到了每秒116Gbps。此外,測試芯片還可以達到每秒 224Gbps。英特爾? AgilexTM FPGA 目前可提供業(yè)界領先的能效和性能:
相比競爭對手的 7 納米 FPGA,視頻 IP 性能提升了 50%
相比競爭對手的 7 納米 FPGA,結構性能功耗比提升了約 2 倍,有助于幫助數(shù)據(jù)中心等應用實現(xiàn)更加靈活、高能效的設計
英特爾? AgilexTM FPGA 將數(shù)據(jù)中心、網(wǎng)絡和邊緣應用的性能平均提升了 45%
相比前代 FPGA,結構性能提升了高達 49%,可有效支持高速 5G 前傳網(wǎng)關應用
英特爾? AgilexTMFPGA平面圖(未按比例繪制)
據(jù)介紹,英特爾? AgilexTMFPGA 系列包含F(xiàn)、I、M三個系列,特別適用于需要靈活性,敏捷性和高性能的應用,例如邊緣計算,網(wǎng)絡,云或數(shù)據(jù)中心加速器。對于三個不同的系列,Agilex F系列在量產(chǎn)當中,此次重點介紹的正是該系列的產(chǎn)品;I系列在實驗室當中,預計將會在本季度向客戶發(fā)貨;M系列還在開發(fā)當中,目前并沒有公布量產(chǎn)時間。
Agilex是原FPGA巨頭Altera在2015年底被英特爾收購、并成為其可編程方案事業(yè)部(PSG)后正式推出的一個全新的FPGA系列。Agilex是Agile(敏捷)和Flexible(靈活)的合二為一,而這兩個特點正是現(xiàn)代FPGA技術最為核心的兩大要點。除了Altera的技術積累之外,Agilex的成功更離不開英特爾核心技術的加持。對于芯片制程而言,在相同的工藝節(jié)點下,英特爾的工藝往往具有更優(yōu)異的性能,這也是業(yè)界公認的事實?,F(xiàn)如今,英特爾的十納米工藝已經(jīng)達到穩(wěn)定并量產(chǎn),這也正是它敢于正面叫板競爭對手的底氣所在。
棋逢對手:與賽靈思的巔峰對決
隨著邊緣、5G網(wǎng)絡以及數(shù)據(jù)中心的不斷發(fā)展,三大領域都呈現(xiàn)了一個共同的趨勢,即數(shù)據(jù)的爆增,快速變化的環(huán)境,以及對于快速部署的需求。FPGA因其靈活性,在這一個發(fā)展趨勢中,越來越受到客戶的青睞。為了穩(wěn)固FPGA實力和擴大市場占比,近幾年,賽靈思和英特爾除了升級自身技術和產(chǎn)品陣列外,均在并購和構建生態(tài)系統(tǒng)方面加大了火力,進一步挖掘FPGA快速部署的上升空間。
相比其它7納米FPGA的卓越表現(xiàn)
Deepali Trehan提供了一系列 Agilex? FPGA 與賽靈思7nm Versal進行對比的數(shù)據(jù)。英特爾? Agilex? FPGA -2V FPGA 相對于 Xilinx Versal -2M 的對比數(shù)據(jù)顯示,Agilex? FPGA比Versal的邏輯結構性能功耗比高約2倍,在視頻IP性能上有超過50%的性能提升,邏輯結構性能功耗比高約2倍。具體:
Warp圖像轉換器快32%,
OSVP 1X 可擴展視頻處理器快48%,
OSVP 8X 可擴展視頻處理器快33%,
MPVDMA 多端口視頻直接內存訪問快71%,
Combiner 視頻流合并快73%
據(jù)介紹,Agilex中的視頻IP塊都是由Omnitek所開發(fā)的。Omnitek是一家初創(chuàng)企業(yè),主打視頻加速與推理,原來的專長是專為賽靈思的FPGA進行IP塊開發(fā)。2019年Omnitek被英特爾收購,Agilex中所使用的IP塊就是此前專為賽靈思的設備架構來進行開發(fā)的。在Agilex上使用時,Omnitek基于Agilex的架構進行了簡要的改變,僅僅改變了內存和DSP實例。
FPGA是一種非常好的能夠提升能源效率的架構,可以說它的應用非常廣泛,跨整個數(shù)據(jù)中心、云以及企業(yè)級,以及通過無線或者是有線網(wǎng)絡來實現(xiàn),包括在邊緣采取嵌入式的方式。FPGA最大的價值在于靈活性,所以它可以服務于在云、網(wǎng)絡和邊緣端的各種應用程序。雙巨頭格局下,且看FPGA雙雄英特爾和賽靈思還將如何創(chuàng)新,不斷收獲新城池。
黑科技加持:架構再次創(chuàng)新
據(jù)介紹,Agilex是專門為以數(shù)據(jù)為中心的世界設計的,目的是在數(shù)據(jù)的處理、存儲以及移動過程當中提供行業(yè)的領導力。Agilex的性能特征,包括行業(yè)內最高的達到每秒116Gbps的收發(fā)速率,以及支持PCIe Gen5、CXL與至強進行聯(lián)合使用,DDR5、HBM以及傲騰持久內存進行兼容。對于產(chǎn)品性能,Deepali Trehan表示,英特爾此前對Agilex性能的預期,是在最大時鐘速率(Fmax)上比上一代14nm Stratix 10提高40%,但最新的實測數(shù)據(jù)顯示是高出了45%的性能。
在設計當中,Agilex第一款完全從一開始的概念到設計、到實施、到驗證以及到最后的生產(chǎn)制造都是端到端在英特爾全方位開發(fā)的FPGA。我們來看看Agilex究竟是通過怎樣的設計來實現(xiàn)這些優(yōu)勢的。
10納米SuperFin技術
Agilex? FPGA是基于10納米SuperFin技術,這也是目前世界上最先進的FinFET制程技術之一。它融入了諸多新技術,比如自對齊四重曝光(SAQP)、鈷局部互連、有源柵極上接觸(COAG)等。SuperFin晶體管技術的推出,是英特爾有史以來最為強大的單節(jié)點內性能增強。憑借該技術,英特爾實現(xiàn)了其新一代的10nm工藝可以媲美其初代的7nm工藝。
此外,Agilex? FPGA還提供了提供面向FPGA優(yōu)化的金屬層堆疊和晶體管,以及融合了英特爾專有嵌入式多芯片互連橋接(EMIB)集成的3D異構系統(tǒng)級封裝(SiP)技術,所有這些都有助于每瓦性能的提升,降低耗散功率,以及減少成本的支持。
新一代HyperFlex寄存器結構
英特爾在Stratix10 FPGA中首次引入了HyperFlex架構。它的主要思想就是在FPGA的布線網(wǎng)絡上,加入很多名為Hyper-Register的小型寄存器,這樣可以把原本比較長的時序路徑分割成多個較短的路徑,從而提升FPGA的時鐘頻率。不過HyperFlex在實際應用中還是存在很多問題,比如很多情況下并不會用到所有的hyper-register,這就需要每個寄存器都配備一個2:1選擇器用來選通。此外,這樣的架構還會帶來較大的額外延時。在賽靈思推出的ACAP中,引入了名為“Imux寄存器”的新結構,并且對上述問題進行了針對性的改進。
英特爾在第二代Hyperflex架構中也對這些問題進行了大幅度的改進,尤其是對互連路由寄存器進行了重新設計,以減少延遲和面積,這個重構的互連結構減少了負載和延遲,用較短的線路替代了高扇出線路,增加了直接邏輯塊輸出,并使用較短的連接改進了點對點的路由,減少了延遲并且縮小了面積。并在資源配置上也進行了優(yōu)化,從而降低功耗和提高性能。
基于Chiplets架構的收發(fā)器設計
Chiplets是一種物理IP模塊,它代表了一種創(chuàng)新的方法,被認為是處理器的未來。Chiplets通過用多個較小的芯片代替一個硅芯片來有效地繞過摩爾定律,這些芯片在統(tǒng)一的封裝解決方案中一起工作。與單片微芯片相比,這種方法提供了更多的硅來添加晶體管。
收發(fā)器眼圖,224 Gbps PAM4測試芯片
在收發(fā)器的設計上,Agilex采取了異構基于Chiplet的一種設計,因此它可以針對具體的應用程序需求,可以適用于任何代工廠,制程節(jié)點,以及任何IP開發(fā)商,所以它真正的帶來了一種自由度,使得用戶可以根據(jù)應用的需求來具體開發(fā)行業(yè)領先的功能。僅此一項,英特爾就將單個收發(fā)器通道的速度從58Gbps提升到了代表著全行業(yè)最佳收發(fā)速率的116Gbps。
基于chiplet的開發(fā),英特爾還在繼續(xù)挖掘。Deepali Trehan說:“Agilex I系列包括一個特別的chiplet,它支持F系列中沒有的CXL接口;M系列包括一個增強的核心結構chiplet,讓接口支持DDR5和英特爾傲騰持久內存。如果需要,我們現(xiàn)在的測試芯片還可以達到每秒224Gbps?!?/p>
進一步優(yōu)化Quartus?Prime軟件
在軟件方面,Intel對Quartus軟件進行了極大的優(yōu)化提升,和Agilex同步開發(fā)。Intel優(yōu)化了重定時感知綜合,包括在布局布線以及全局重定時算法方面得到了優(yōu)化,從而實現(xiàn)它的最大性能,另外通過精細的寄存器重新定時和時鐘偏斜調度,實現(xiàn)并發(fā)的建立和保持時間優(yōu)化,達到簽核質量(signoff-quality)的時序分析。
Intel同時還開發(fā)了多個編譯流程來符合客戶不同的開發(fā)需求,以滿足他們提升運行時間以及快速故障排除方面的需求。通過這些在軟件方面所付出的努力,將編譯時間下降了45%。同時Intel又進行多達135種的Design Assistant規(guī)則,以便在規(guī)則方面實現(xiàn)好的控制。通過這些努力可以實現(xiàn)快速的編譯以及減少在FPGA方面的迭代的需求。
典型應用案例:SmartNIC
SmartNIC是英特爾Agilex? FPGA和其至強處理器進行聯(lián)合使用的一個很好的例子?;谝蕴W(wǎng)的NIC如今在整個網(wǎng)絡中都得到廣泛使用,提供服務器、CPU和其它網(wǎng)絡處理元件的端點連接性能。英特爾在SmartNIC領域進行了大量投資,并制定了新產(chǎn)品的長期路線圖,以保持領先優(yōu)勢。
英特爾Agilex FPGA對于快速增長的英特爾SmartNIC品類至關重要。在至強當中插入Agilex FPGA,可以用于至強處理器工作負載的加速。這樣CPU的一些管理功能進行卸載,它可以直接訪問CPU和RAM,而不需要用虛擬化的方式。通過全新的優(yōu)化,英特爾Agilex FPGA提供比競爭對手的7納米FPGA高30%的邏輯結構性能和高2倍的結構每瓦性能,能夠為FPGA加速的應用實現(xiàn)更高的性能、更快速的實時功能和更低的總體擁有成本。
—— 結束語 ——
當前,處理器巨頭都在重點布局5G、數(shù)據(jù)中心和邊緣三大領域。英特爾認為,這三大領域的需求多種多樣而且不斷變化,面臨的挑戰(zhàn)是繼續(xù)在核心領域取得進步,例如提高數(shù)據(jù)傳輸和處理的性能,同時還要滿足每個具體領域的獨特需求。具體來看,在5G方面,基礎設施的某些環(huán)節(jié)需要超高能效,而無線應用中常見的信號處理功能需要高性能;在云和企業(yè)領域,不斷變化的基礎設施和應用加速中有相當多的工作負載需要高性能和高能效;在邊緣,需要更高的計算力來滿足對更高的交互、更多富媒體內容和更低的時延的需求,同時仍需滿足嚴苛的功耗、散熱和空間限制要求。
以數(shù)據(jù)為中心的世界需要更高的能效
所有正在發(fā)生行業(yè)轉型的重要技術,包括邊緣、5G、云計算等,背后都是數(shù)據(jù)的爆增所驅動的。無論是網(wǎng)絡、數(shù)據(jù)中心還是邊緣都有大量激增的數(shù)據(jù)處理要求,數(shù)據(jù)的爆增正在驅動著比以往更多的對計算力的要求。因此對于整個參與處理的所有部件以及產(chǎn)品,提升其性能就變得至關重要。但性能提升并不意味著功耗的下降。當前,能耗的不斷增加導致TCO(即總擁有成本,包括產(chǎn)品采購到后期使用、維護的成本)巨大的提升,非常缺乏可持續(xù)性,同時對環(huán)境產(chǎn)生巨大影響。大家都在尋求降低功耗的方式,降低功耗的目的是一方面去滿足不斷增長的數(shù)據(jù)處理需求,另一方面也要不斷提高能源效率來降低功耗,也就是說大家關注的是每瓦性能這樣的指標。越高的每瓦性能就越好,這意味著能有更優(yōu)的計算力以及更少的能源消耗。
除此之外,還需要更高的靈活性。要想成功,解決方案提供商必須通過得到良好支持的開發(fā)流程快速地把處理、內存、數(shù)字信號處理、專門接口和FPGA靈活性整合到高度集成化的組件中,滿足目標市場的確切需求。英特爾正在轉型以加速增長。他們已經(jīng)圍繞關鍵轉折性技術建立了龐大的業(yè)務,例如云、人工智能、5G和智能自主邊緣。英特爾擁有針對從邊緣到云的工作負載的廣泛計算架構,而英特爾FPGA產(chǎn)品是其中的關鍵組成部分。Deepali表示:“就是對于靈活性需求非常高的時候。加速器方面,可以說發(fā)展變化十分迅速,同時會不斷涌現(xiàn)出新的用例。一切都是基于應用的,英特爾提供全方位的選擇,同時我們又提供統(tǒng)一開發(fā)的策略?!?/p>