最近幾年,FPGA加速應(yīng)用在金融、網(wǎng)絡(luò)安全、存儲(chǔ)、AI等領(lǐng)域都有較多應(yīng)用空間。隨之而來(lái)的,則是利用FPGA開(kāi)發(fā)智能加速卡的火爆。在很多場(chǎng)景下,由于FPGA的自定義邏輯,相比于GPU能夠有更高的加速能力。而即將于11月6日在北京舉辦的英特爾?FPGA技術(shù)大會(huì)上,將會(huì)有海量基于FPGA加速的應(yīng)用展示哦~
英特爾? FPGA可編程加速卡 (PAC) D5005是目前英特爾? FPGA的高端FPGA加速卡。自發(fā)布以來(lái),經(jīng)過(guò)英特爾? FPGA及眾多合作伙伴的努力,PAC D5005加速卡已經(jīng)可以實(shí)現(xiàn)對(duì)較多工作負(fù)載的加速,如視頻編解碼、AI領(lǐng)域的語(yǔ)音到文本轉(zhuǎn)換、圖像處理、網(wǎng)絡(luò)安全等。
在 Myrtle 的可擴(kuò)展推理引擎上運(yùn)行的語(yǔ)音到本文 (STT) 轉(zhuǎn)錄應(yīng)用(基于該公司的 MAU 加速器內(nèi)核)是最近發(fā)表的一篇博文中討論的四個(gè)加速工作負(fù)載之一。這篇博文指出,HPC 在其 ProLiant DL380 Gen10 服務(wù)器中添加了英特爾? FPGA 可編程加速卡 (PAC) D5005選件。通過(guò)集成到英特爾? FPGA PAC 卡 D5005 的一個(gè)英特爾? FPGA 加速時(shí),這種 STT 工作負(fù)載即可實(shí)時(shí)處理超過(guò) 4000 個(gè)語(yǔ)音通道。
英特爾? FPGA 可編程加速卡 D5005
借助在 FPGA 中實(shí)例化的 MAU 加速器內(nèi)核網(wǎng)格,Myrtle 的可擴(kuò)展推理引擎能夠高效處理高性能 STT 工作負(fù)載。MAU 加速器內(nèi)核針對(duì)英特爾 FPGA PAC D5005 進(jìn)行了優(yōu)化。Myrtle 發(fā)布了一篇長(zhǎng)達(dá) 9 頁(yè)的論文,題為“利用下一代數(shù)據(jù)中心硬件的非結(jié)構(gòu)化稀疏性”,文中討論了 MAU 加速器的細(xì)節(jié)信息。您還可以在英特爾FPGA 加速中心網(wǎng)頁(yè)的 AI 選項(xiàng)卡下找到一篇題為“加速數(shù)據(jù)中心的語(yǔ)音工作負(fù)載”的英特爾解決方案文章,這篇文章將為您提供更多詳細(xì)信息。
在這里我們就不重復(fù) Myrtle STT 解決方案的諸多技術(shù)細(xì)節(jié)了,直接跳到這篇解決方案簡(jiǎn)介文章的結(jié)論:
01
PART
ONE
在英特爾? Stratix? 10 FPGA 上運(yùn)行的 MozillaDeepSpeech 工作負(fù)載(使用 Myrtle STT,針對(duì)稀疏性和量化進(jìn)行了優(yōu)化)達(dá)到了 54 TOPS,略高于 NVIDIA Tesla V100 GPU (針對(duì)吞吐量進(jìn)行了代碼優(yōu)化)的性能。同時(shí),基于 FPGA 的 MAU 加速器的每瓦 TOPS 比 GPU 高 6 倍。Myrtle STT 的每秒語(yǔ)音輸入延遲為 0.343 毫秒,而相比之下, GPU 的延遲則高達(dá) 126 毫秒,相差多達(dá) 365 倍。性能提升的代價(jià)是精度下降了約0.23%(由于 Myrtle STT 針對(duì)稀疏性和量化進(jìn)行了優(yōu)化)。
02
PART
TWO
針對(duì)延遲而非吞吐量?jī)?yōu)化的 GPU 解決方案可將 GPU 的延遲降低至 10.1 毫秒,這比 利用 FPGA 加速的 Myrtle 解決方案所實(shí)現(xiàn)的 0.343 毫秒延遲慢 29 倍。然而,GPU 延遲的降低卻帶來(lái)了吞吐量性能的大幅下降:其吞吐量性能從 53.37 降至了 1.12 TOPS。與 FPGA 加速的 Myrtle STT 解決方案相比,性能相差 48 倍。(請(qǐng)注意,F(xiàn)PGA 加速的 Myrtle STT 解決方案同時(shí)提供高吞吐量和低延遲。)