一種基于FPGA的CNN硬件加速器實現(xiàn)
所屬分類:技術(shù)論文
上傳者:wwei
文檔大?。?span>4132 K
標(biāo)簽: FPGA 行數(shù)據(jù)加載 模塊劃分
所需積分:0分積分不夠怎么辦?
文檔介紹:提出了一種基于FPGA的通用CNN硬件加速器設(shè)計方案。針對計算量最大的卷積層,采用了輸入通道并行、核內(nèi)并行、輸出通道并行三種加速方式,根據(jù)FPGA的片上資源,合理地設(shè)置相應(yīng)并行度。在數(shù)據(jù)加載方面,采用相鄰數(shù)據(jù)位寬合并傳輸,有效提高了加速器的實際傳輸帶寬?;谛械臄?shù)據(jù)流加載思想,設(shè)計了輸入緩存模塊。該緩存模塊只需緩存兩行數(shù)據(jù)即可開始卷積運(yùn)算,有效地提前卷積運(yùn)算的開始時間。在數(shù)據(jù)輸入、數(shù)據(jù)運(yùn)算、數(shù)據(jù)輸出模塊之間,利用流水線循環(huán)優(yōu)化方式,極大地提高了硬件的計算性能。最后將該加速器應(yīng)用于VGG16和Darknet-19網(wǎng)絡(luò),實驗表明,計算性能分別達(dá)到34.30 GOPS和33.68 GOPS,DSP計算效率分別高達(dá)79.45%和78.01%。
現(xiàn)在下載
VIP會員,AET專家下載不扣分;重復(fù)下載不扣分,本人上傳資源不扣分。