作為一種硬件可重構(gòu)的體系結(jié)構(gòu),FPGA經(jīng)常被用作專(zhuān)用芯片(ASIC)的小批量替代品,隨著全球數(shù)據(jù)中心的大規(guī)模部署,以及人工智能應(yīng)用的落地,F(xiàn)PGA憑借強(qiáng)大的計(jì)算能力和高度的靈活性有了更多的用武之地。
FPGA最大的優(yōu)勢(shì)就是處理速度快,因?yàn)橐_比較多,而且其邏輯單元可以根據(jù)算法需求重組而產(chǎn)生定制化的數(shù)據(jù)通路,非常適合處理大批量的數(shù)據(jù)流。
簡(jiǎn)單來(lái)說(shuō),CPU中有控制取指、譯碼等流程,數(shù)據(jù)處理流程復(fù)雜;而FPGA是可編程的,每個(gè)邏輯單元的功能在重編程(燒寫(xiě))時(shí)就已經(jīng)確定,不需要指令。其實(shí)FPGA和GPU內(nèi)都有大量的計(jì)算單元,計(jì)算能力都很強(qiáng),但是GPU在數(shù)據(jù)處理過(guò)程中,需要反復(fù)調(diào)取片外存儲(chǔ)器中的數(shù)據(jù),F(xiàn)PGA只要數(shù)據(jù)一次性流入再流出,算法就完成了,因此在批量數(shù)據(jù)處理方面,F(xiàn)PGA完勝。
正是因?yàn)閿?shù)據(jù)處理的優(yōu)勢(shì),F(xiàn)PGA在數(shù)據(jù)中心加速和AI推理中成了香餑餑,銷(xiāo)量大漲,2018年全球FPGA市場(chǎng)達(dá)到了60億美金,MRFR預(yù)測(cè)FPGA在2025年有望達(dá)到約125.21億美元,Xilinx也預(yù)估數(shù)據(jù)中心對(duì)芯片的需求在未來(lái)五年將有67%的年復(fù)合增長(zhǎng)率。
FPGA是否能夠獨(dú)立部署?
雖然FPGA有很強(qiáng)的計(jì)算能力,但是在數(shù)據(jù)中心都是和CPU協(xié)同工作,采用“CPU+FPGA”的異構(gòu)架構(gòu)進(jìn)行加速。隨著FPGA應(yīng)用范圍的增加,業(yè)內(nèi)有人也提出,未來(lái)FPGA是否會(huì)脫離CPU獨(dú)立部署?
計(jì)算存儲(chǔ)架構(gòu)
賽靈思數(shù)據(jù)中心業(yè)務(wù)部產(chǎn)品規(guī)劃和市場(chǎng)營(yíng)銷(xiāo)總監(jiān)Jamon Bowen在接受與非網(wǎng)記者的采訪中,用一個(gè)應(yīng)用案例做了解釋?zhuān)斑@是合作伙伴開(kāi)發(fā)的一個(gè)存儲(chǔ)盒的解決方案,采用了Alveo U50,其前端是以太網(wǎng),后端是固態(tài)硬盤(pán),其中加速I(mǎi)P和存儲(chǔ)幾乎是放在了同一個(gè)空間里,有意思的是這個(gè)系統(tǒng)沒(méi)有CPU,是加速器和外圍直接連到網(wǎng)絡(luò)上,所以未來(lái)數(shù)據(jù)中心會(huì)被異構(gòu)計(jì)算驅(qū)動(dòng),沒(méi)有必要和這個(gè)系統(tǒng)連在同一個(gè)地方,也就是因?yàn)閳?zhí)行的處理器的高性能,深度學(xué)習(xí)、存儲(chǔ)、加速等就沒(méi)有必要進(jìn)行本地連接,可以做異地系統(tǒng)連接,這也預(yù)示著未來(lái)數(shù)據(jù)中心一個(gè)布局的趨勢(shì)?!?/p>
在終端,有些自動(dòng)駕駛公司的車(chē)上系統(tǒng)中就采用了FPGA 完成一些實(shí)時(shí)檢測(cè)識(shí)別任務(wù)。小鵬汽車(chē)的副總裁、機(jī)器學(xué)習(xí)專(zhuān)家谷俊麗女士曾經(jīng)提到,F(xiàn)PGA 可以憑借信號(hào)處理和低能耗方面的優(yōu)勢(shì),成為一個(gè)可靠的第二系統(tǒng),在汽車(chē)的第一系統(tǒng)出現(xiàn)失誤的時(shí)候,作為安全模式介入進(jìn)來(lái)。
FPGA需要克服的難題
面對(duì)未來(lái)的大好前景,F(xiàn)PGA廠商自然喜笑顏開(kāi),但是FPGA想成為主流,也要克服更大的挑戰(zhàn)。
針對(duì)浮點(diǎn)運(yùn)算,F(xiàn)PGA的計(jì)算速度似乎還難以超越GPU。英偉達(dá)的Tesla V100 ,在理論上最大運(yùn)算速度可達(dá)15 TFLOPS(萬(wàn)億次浮點(diǎn)運(yùn)算/ 秒);搭載英特爾Statix 10的Nallatech 520C,理論最大運(yùn)算速度為9.2 TFLOPS,功耗約為225 瓦特。英偉達(dá)曝光的最新Quadro GV100,能夠提供高達(dá)每秒7.4萬(wàn)億次的雙精度浮點(diǎn)運(yùn)算性能以及每秒14.8萬(wàn)億次的單精度浮點(diǎn)運(yùn)算性能和每秒118.5萬(wàn)億次的深度學(xué)習(xí)浮點(diǎn)運(yùn)算性能,從這一點(diǎn)來(lái)看,F(xiàn)PGA追趕GPU還需要一些時(shí)日。
另外,F(xiàn)PGA開(kāi)發(fā)工程師反應(yīng),基于FPGA做設(shè)計(jì)的編譯時(shí)間很長(zhǎng),幾乎占到整個(gè)工程的80%,而且每次只要修改其中一個(gè)參數(shù)都需要重新編譯,造成了調(diào)試效率很低,這也成為FPGA走向主流的一大障礙。