《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 電子元件 > 業(yè)界動(dòng)態(tài) > Xilinx,Intel和Lattice的三者FPGA對(duì)比

Xilinx,Intel和Lattice的三者FPGA對(duì)比

2022-11-22
來源:FPGA之家
關(guān)鍵詞: 機(jī)器學(xué)習(xí) FPGA

  在過去的一個(gè)月中,FPGA市場蓬勃發(fā)展。在本文中,我們將簡要研究Xilinx,Intel和LatTIce的三款最新發(fā)布的FPGA。

  這些FPGA中的每一個(gè)都專注于提高性能的不同方面:Xilinx VU57P試圖繞過要求苛刻的應(yīng)用程序中的存儲(chǔ)器帶寬挑戰(zhàn)。英特爾StraTIx 10 NX FPGA集成了AI優(yōu)化的DSP模塊,可幫助以低延遲實(shí)現(xiàn)大型AI模型。而且,萊迪思Nexus FPGA試圖重新定義低功耗,小尺寸的FPGA。

  Xilinx VU57P FPGA —高帶寬存儲(chǔ)器

  在過去的十年中,許多應(yīng)用領(lǐng)域的計(jì)算帶寬呈指數(shù)增長。例如,賽靈思FPGA為機(jī)器學(xué)習(xí)應(yīng)用提供的DSP切片的數(shù)量已從最大的Virtex 6 FPGA的約2,000個(gè)切片增加到現(xiàn)代Virtex UltraScale +器件的約12,000個(gè)切片。如下所示,在其他應(yīng)用領(lǐng)域(如網(wǎng)絡(luò)技術(shù)和視頻應(yīng)用)中也觀察到了類似的趨勢。

 10.JPG

  對(duì)內(nèi)存帶寬的要求

  上圖顯示,在過去十年中,DDR技術(shù)的內(nèi)存帶寬僅略有增加-從DDR3到DDR4大約增加了2倍。(值得注意的是,從DDR4到DDR5的飛躍可能更具影響力。)

  圖中的帶寬差距意味著FPGA和存儲(chǔ)器之間有限的數(shù)據(jù)傳輸速率是這些應(yīng)用中的瓶頸。為了解決這個(gè)問題,設(shè)計(jì)人員通常會(huì)并行使用多個(gè)DDR芯片來增加內(nèi)存帶寬(不一定是內(nèi)存容量)。但是,由于功耗高,外形尺寸和成本問題以及PCB設(shè)計(jì)挑戰(zhàn),這種方法在內(nèi)存帶寬大于約85GB/s時(shí)變得無法使用。

  另外,內(nèi)存帶寬問題的有效解決方案是一種基于DRAM的內(nèi)存類型,稱為高帶寬內(nèi)存(簡稱HBM)。在這種情況下,可以利用硅堆疊技術(shù)在同一封裝中同時(shí)實(shí)現(xiàn)DRAM存儲(chǔ)器和FPGA,如下圖所示。

09.JPG

  硅堆疊有助于并行實(shí)現(xiàn)DRAM存儲(chǔ)器和FPGA

  HBM技術(shù)使我們能夠消除將DDR芯片連接到FPGA的相對(duì)較長的PCB走線。使用帶有大量引腳的集成HBM接口可以顯著提高存儲(chǔ)帶寬,其延遲類似于基于DDR的技術(shù)。

  Xilinx 最近發(fā)布了VU57P FPGA(來自Virtex UltraScale +系列),該FPGA集成了16 G HBM和高達(dá)460GB/s的存儲(chǔ)器帶寬。該設(shè)備采用了集成的AXI端口交換機(jī),使我們能夠從任何內(nèi)存端口訪問任何HBM內(nèi)存位置。

  除了上面討論的節(jié)能計(jì)算功能和大內(nèi)存帶寬外,VU57P還提供了高速接口,例如帶有RS-FEC的100G以太網(wǎng),150G Interlaken和PCIe Gen4。新設(shè)備的58G PAM4收發(fā)器支持與最新光學(xué)標(biāo)準(zhǔn)的連接。這在不同的應(yīng)用程序中很有用,例如下一代防火墻以及具有QoS的交換機(jī)和路由器。

  英特爾StraTIx 10 NX FPGA — AI優(yōu)化的DSP模塊

  數(shù)字信號(hào)處理(DSP)的許多常規(guī)應(yīng)用都需要高精度算術(shù)。這就是FPGA通常具有帶高精度乘法器和加法器的DSP模塊的原因。例如,XC7A50T(Xilinx)和5CGXC4(Intel)分別具有120和140個(gè)18×18的乘法器。

  事實(shí)證明,可以使用較少的位數(shù)來實(shí)現(xiàn)許多深度學(xué)習(xí)應(yīng)用,而不會(huì)顯著犧牲準(zhǔn)確性。較低精度的近似值會(huì)減少計(jì)算資源的數(shù)量以及所需的內(nèi)存帶寬。

  降低位寬的另一個(gè)優(yōu)點(diǎn)是,由于精度較低的計(jì)算和每個(gè)內(nèi)存事務(wù)需要傳輸?shù)奈粩?shù)較少,因此可以節(jié)省功耗。實(shí)際上,根據(jù)UC Davis研究人員的說法,在許多深度學(xué)習(xí)應(yīng)用中,INT8甚至更低的精度計(jì)算都可以得出可接受的結(jié)果。

  在英特爾的StraTIx 10 NX的FPGA是從英特爾首款A(yù)I優(yōu)化的FPGA。這些器件集成了稱為AI Tensor Blocks的算術(shù)塊,其中包含密集的低精度乘法器陣列。這些塊的基本精度是INT8和INT4,盡管它們通過共享指數(shù)支持硬件支持FP16和FP12數(shù)值格式。

  與標(biāo)準(zhǔn)Intel Stratix 10 FPGA的DSP模塊相比,AI Tensor模塊(在Stratix 10 NX FPGA中使用)可以將INT8吞吐量提高15倍。AI Tensor Block的高層框圖如下所示。

08.JPG

  AI Tensor Block的框圖

  英特爾Stratix 10 NX FPGA最顯著的特點(diǎn)是由AI優(yōu)化的計(jì)算塊提供的高計(jì)算密度。然而,新器件還集成了另外兩個(gè)功能,進(jìn)一步幫助設(shè)計(jì)人員以低延遲的方式實(shí)現(xiàn)它的大型AI模型:它支持豐富的近似計(jì)算內(nèi)存(集成HBM)和高帶寬網(wǎng)絡(luò)(高達(dá)57.8 G的PAM4收發(fā)器)。

  Lattice Nexus — 低功耗,小尺寸FPGA

  萊迪思半導(dǎo)體最近發(fā)布了其 Certus-NX FPGA系列,該系列使用28nm的全耗盡型絕緣體上硅(FD-SOI)工藝技術(shù)。FD-SOI最初由三星公司開發(fā),與傳統(tǒng)的CMOS工藝有點(diǎn)相似。但是,如下圖所示,它可為大部分晶體管提供可編程偏置。

  萊迪思半導(dǎo)體公司最近發(fā)布了其Certus-NX FPGA系列,該系列采用了28納米完全耗盡絕緣體上硅(FD-SOI)工藝技術(shù)。FD-SOI最初是由三星開發(fā)的,有點(diǎn)類似于傳統(tǒng)的CMOS工藝;然而,它可以為大部分晶體管提供可編程的偏置,概念性說明如下。

07.JPG

  Lattice Nexus平臺(tái)的電路架構(gòu)

  可編程的buck電壓使芯片面積和功耗大大降低。與具有類似邏輯單元數(shù)量的其他FPGA相比,Certus-NX的功耗最多降低了四倍。

  由于采用了FD-SOI技術(shù),因此新器件的尺寸可小至6mm x 6mm,與類似的FPGA相比,每mm2的 I/O多達(dá)兩倍。下表將Certus-NX-40與Intel和Xilinx的類似產(chǎn)品進(jìn)行了比較。

 06.JPG

  三種用于PCIe設(shè)計(jì)的流行FPGA的比較

  需要注意的是,新設(shè)備支持用于批量加密的AES和用于身份驗(yàn)證的橢圓曲線(ECDSA)。因此,它可以為聯(lián)網(wǎng)設(shè)備提供更高的安全性。此外,它還具有較高的抗軟誤差能力,這使得該裝置適合于航空航天應(yīng)用。

  FPGA發(fā)展趨勢

  通過研究Xilinx,Intel和Lattice Semiconductors的這些最新發(fā)布的FPGA,我們可以更清楚地了解FPGA的發(fā)展方式-集中于更高的存儲(chǔ)器帶寬、AI優(yōu)化、低功耗和小尺寸。



更多信息可以來這里獲取==>>電子技術(shù)應(yīng)用-AET<<

mmexport1621241704608.jpg

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請(qǐng)及時(shí)通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。