123,123,123

CPU主频比FPGA快，但为啥FPGA才可以加速？

日期： 2018-05-21

關(guān)鍵詞： CPU FPGA SOC

　　CPU的主頻高達(dá)幾個(gè)GHz，FPGA的速率往往在幾百兆。但是，往往我們會(huì)說FPGA會(huì)給CPU進(jìn)行加速。

　　雖然CPU主頻很高，但其是通用處理器，做某個(gè)特定運(yùn)算(如信號(hào)處理，圖像處理)可能需要很多個(gè)時(shí)鐘周期；而FPGA可以通過編程重組電路，直接生成專用電路，加上電路并行性，可能做這個(gè)特定運(yùn)算只需要一個(gè)時(shí)鐘周期。

　　假設(shè)我們用FPGA完整的實(shí)現(xiàn)了CPU，然后再跑軟件的話，的確比CPU慢。問題是FPGA不會(huì)那么干，它會(huì)直指問題本質(zhì)，解決問題。

　　即使我們用FPGA實(shí)現(xiàn)一個(gè)CPU，也是為了做一些芯片驗(yàn)證或者說需要一些需要CPU和FPGA需要緊密結(jié)合的場(chǎng)景，這種場(chǎng)景現(xiàn)在也逐步由SoC的FPGA實(shí)現(xiàn)了。

　　舉個(gè)具體的例子，比如有兩個(gè)數(shù)組，其中有256個(gè)32位數(shù)，我們現(xiàn)在要把它們對(duì)應(yīng)相加變成一個(gè)數(shù)組，用CPU寫最快大概是這樣子的：

　　r[0] = a[0] + b[0];

　　r[1] = a[1] + b[1];

　　...

　　r[255] = a[255] + b[255];

　　當(dāng)然也可能會(huì)這么寫（在分支預(yù)測(cè)準(zhǔn)確，指令緩存不大的情況下可能更快）：

　　for (int i = 0; i < 255; i++)

　　r[i] = a[i] + b[i];

　　CPU指令流水線

　　根據(jù)之前描述的基礎(chǔ)，指令進(jìn)入流水線，通過流水線處理，從流水線出來的過程，對(duì)于我們程序員來說，是比較直觀的。

　　I486擁有五級(jí)流水線。分別是：取指(Fetch)，譯碼(D1, main decode)，轉(zhuǎn)址(D2, translate)，執(zhí)行(EX, execute)，寫回(WB)。某個(gè)指令可以在流水線的任何一級(jí)。

　　流水線的數(shù)量不可能無限制增加，流水線的加速也有很多風(fēng)險(xiǎn)。即使流水線可以無限制增加，不管CPU的流水線又多少條，每個(gè)指令執(zhí)行都必須順序執(zhí)行。對(duì)速率的提升也是有限的。

　　對(duì)于上圖中的流水線有一個(gè)明顯的缺陷。對(duì)于下面的指令代碼，它們的功能是將兩個(gè)變量的內(nèi)容進(jìn)行交換。

　　第二條xor指令需要第一條xor指令計(jì)算的結(jié)果a，但是直到第一條指令執(zhí)行完成才會(huì)寫回。所以流水線的其他指令就會(huì)在當(dāng)前流水級(jí)等待直到第一條指令的執(zhí)行和寫回階段完成。第二條指令會(huì)等待第一條指令完成才能進(jìn)入流水線下一級(jí)，同樣第三條指令也要等待第二條指令完成。

　　這個(gè)現(xiàn)象被稱為流水線阻塞或者流水線氣泡。

　　對(duì)FPGA來說，也可以用上面相同的寫法，不同在于：

　　CPU是一個(gè)一個(gè)加法計(jì)算，而FPGA排好邏輯電路，在一個(gè)時(shí)鐘周期內(nèi)計(jì)算完畢。就算CPU主頻比FPGA快100倍也趕不上啊。

　　計(jì)算機(jī)最基本的功能就是運(yùn)算了，其中最基本的又要屬加法運(yùn)算。我們知道計(jì)算機(jī)使用二進(jìn)制來保存和處理數(shù)據(jù)，因此這里的加減法運(yùn)算都是用二進(jìn)制進(jìn)行。下面雅樂網(wǎng)總結(jié)了一些運(yùn)算器中加法器的設(shè)計(jì)。

　　二進(jìn)制加法

　　一位的二進(jìn)制加法非常簡(jiǎn)單，因?yàn)橹挥兴姆N情況

　　0+0=0 進(jìn)位0

　　0+1=1 進(jìn)位0

　　1+0=1 進(jìn)位0

　　1+1=0 進(jìn)位1

　　多位的二進(jìn)制加法和十進(jìn)制類似，每一位上兩個(gè)數(shù)相加后再加上進(jìn)位就可以了

　　FPGA半加器

　　半加器可以實(shí)現(xiàn)兩個(gè)1位的二進(jìn)制數(shù)字相加，并且輸出結(jié)果和進(jìn)位。

　　真值表：

　　一位半加器真值表

　　由表中可以看見，這種加法沒有考慮低位來的進(jìn)位，所以稱為半加。

　　輸出和：A和B一個(gè)為0 一個(gè)為1的時(shí)候輸出1 兩個(gè)0或兩個(gè)1輸出0 因此可以用異或門連接。

　　進(jìn)位：只有AB均為1的時(shí)候進(jìn)位輸出1 進(jìn)位Cout = AB 用與門連接。

　　一位半加器

　　FPGA全加器

　　全加器在半加器的基礎(chǔ)上增加了進(jìn)位它輸入三個(gè)數(shù)字兩個(gè)加數(shù) 和一個(gè)進(jìn)位 Cin，輸出結(jié)果和進(jìn)位

　　一位全加器真值表

　　從真值表很容易寫出如下邏輯表達(dá)式

　　S=P異或Cout 其中P=A異或B

　　Cout=P·Cin+G 其中G=A·B

　　一位全加器

　　四位行波加法器

　　將四個(gè)全加器每一個(gè)的僅為輸出連接到下一個(gè)的進(jìn)位輸入就可以構(gòu)成一個(gè)4位串行加法器了

　　四位行波加法器

　　這樣構(gòu)成的加法器連接起來很簡(jiǎn)單，但是也有不足：每一個(gè)全加器計(jì)算的時(shí)候必須等待它的進(jìn)位輸入產(chǎn)生后才能計(jì)算，所以四個(gè)全加器并不是同時(shí)進(jìn)行計(jì)算的，而是一個(gè)一個(gè)的串行計(jì)算。這樣會(huì)造成較大的延遲。

　　超前進(jìn)位加法器（Carry-Lookahead Adder，CLA）

　　超前進(jìn)位加法器的思路是提前算出每一位上的進(jìn)位。

　　分析每一個(gè)全加器的局部

　　一個(gè)全加器 A B Cn 如果有兩個(gè)或兩個(gè)以上的1 那么進(jìn)位Cn+1就是1

　　因此 Cn+1 = AB + ACn + BCn = AB + Cn（A+B）

　　記生成（Generate）信號(hào)：Gi=Ai·Bi

　　傳播（Propagate）信號(hào)：Pi=Ai+Bi

　　那么Ci+1=Gi+Pi·Ci

　　根據(jù)這個(gè)遞推關(guān)系，可以推導(dǎo)出每一位的進(jìn)位

　　每一位的進(jìn)位跟前一級(jí)進(jìn)位有關(guān)，前一級(jí) 又跟前一級(jí)的前一級(jí)有關(guān) 一直向前最終是和C0相關(guān)。而最開始的第一位C0和A0 B0都是已知的

　　這樣算出結(jié)果只需要經(jīng)過三個(gè)門延遲就可以了。

　　隨著位數(shù)的增加，進(jìn)位的計(jì)算公式會(huì)越來越復(fù)雜。32位的進(jìn)位計(jì)算需要32與門

　　所以我們需要更多的計(jì)算位寬或者更大的數(shù)組，或者矩陣的運(yùn)算的時(shí)候，我們使用FPGA的優(yōu)勢(shì)就體現(xiàn)出來。再多的計(jì)算，也就是放置更多的邏輯資源。

　　FPGA的并行是真并行，CPU完全沒得比。CPU如果想并行最多也就是讓多個(gè)核并行，但是對(duì)于大部分算法實(shí)現(xiàn)來說，如上例，多個(gè)核之間的同步調(diào)度開銷遠(yuǎn)遠(yuǎn)大于計(jì)算開銷，就算多個(gè)核之間的調(diào)用開銷可以做的很小，一般CPU也就那幾個(gè)核，而FPGA只要門足夠，想并行幾路就可以并行幾路。

　　所以在做可并行的計(jì)算密集型任務(wù)時(shí)，比如信號(hào)處理，網(wǎng)絡(luò)傳輸?shù)鹊菷PGA可以幫上忙；但是如果做我們常見的串行為主的任務(wù)而言，F(xiàn)PGA的確遠(yuǎn)遠(yuǎn)比不上CPU。

　　FPGA是配角

　　使用FPGA不一定總能加速，只是在某些強(qiáng)計(jì)算和數(shù)據(jù)處理的方面，因?yàn)槠溆布娐凡⑿羞\(yùn)行和有很多DSP硬核資源供調(diào)用的特點(diǎn)，可以工作得更出色。FPGA本身也只是輔助角色，起控制的還是CPU本身，所以FPGA并不能代替CPU，只是在完成一件大任務(wù)的過程中將某部分任務(wù)分解給FPGA可以更好地一起完成任務(wù)。在這過程中也會(huì)有額外的開銷產(chǎn)生，在某些場(chǎng)合，可能用了FPGA而效果更差也是有的。

　　另外，通常說的使用FPGA加速比CPU和GPU省電，是指在完成同樣的任務(wù)下，F(xiàn)PGA耗費(fèi)的電力比起CPU和GPU更少一些，相對(duì)而言的，并不是說FPGA本身就一定省電。

　　FPGA的弱點(diǎn)

　　1.開發(fā)周期長(zhǎng)。需要對(duì)特定的應(yīng)用編寫特定的FPGA。只要干的事情稍有不同，一般來說FPGA代碼就要重新寫一遍或者是至少要修改很多東西。開發(fā)代價(jià)和碼農(nóng)碼幾行代碼完全不可比。而且一般需要若干工程師花費(fèi)若干周才能搞的定。重點(diǎn)是會(huì)寫的人還不多。

　　2.并不是所有東西都適合FPGA。FPGA適合于做那些可并行計(jì)算的東西，例如矩陣運(yùn)算。如果是一些判斷類的問題，F(xiàn)PGA算得并沒有CPU快（這個(gè)時(shí)候時(shí)鐘周期才是關(guān)鍵因素）。所以現(xiàn)實(shí)中都是有人來分析，在整個(gè)任務(wù)中有哪些地方可以并行計(jì)算，把這些地方替換為FPGA卡。

　　由于現(xiàn)在機(jī)器學(xué)習(xí)、大數(shù)據(jù)比較火，里面矩陣運(yùn)算成千上萬，所以沒有出現(xiàn)定制的ASIC之前，F(xiàn)PGA加速還是業(yè)界主流?，F(xiàn)在百度、微軟、谷歌等公司都已經(jīng)把FPGA加速運(yùn)用到了實(shí)際的商業(yè)運(yùn)營中。

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請(qǐng)及時(shí)通過電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

CPU主频比FPGA快，但为啥FPGA才可以加速？

日期： 2018-05-21

相關(guān)內(nèi)容