文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.201207
中文引用格式: 張旭欣,張嘉,李新增,等. 二值VGG卷積神經(jīng)網(wǎng)絡加速器優(yōu)化設計[J].電子技術(shù)應用,2021,47(2):20-23.
英文引用格式: Zhang Xuxin,Zhang Jia,Li Xinzeng,et al. Optimization design of binary VGG convolutional neural network accelerator[J]. Application of Electronic Technique,2021,47(2):20-23.
0 引言
深度卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)已經(jīng)成為了當前計算機視覺系統(tǒng)中最有前景的圖像分析方法之一。
近年來,隨著Binary-Net、Dorefa-Net、ABC-Net等[1-3]低精度量化神經(jīng)網(wǎng)絡的深入研究,越來越多的研究集中于在FPGA硬件中構(gòu)建定制的加速器結(jié)構(gòu),實現(xiàn)CNN的加速[4]。基于FPGA的低精度量化神經(jīng)網(wǎng)絡實現(xiàn)主要可分為兩類:流架構(gòu)[5-6]和層架構(gòu)[7-8]。其中,由于流架構(gòu)實現(xiàn)了流水線化,每個階段都可以獨立處理輸入且可以針對CNN逐層設計并優(yōu)化相應層的加速運算單元,因此擁有更高的吞吐率和更低的延遲以及內(nèi)存帶寬,但其邏輯資源等消耗也相當可觀。因此,現(xiàn)有的基于流架構(gòu)實現(xiàn)的二值神經(jīng)網(wǎng)絡加速器研究大多是針對32×32尺度MNIST數(shù)據(jù)集等小尺度的圖像輸入。而實際應用中更多使用如448×448尺度的YOLO、224×224尺度的VGG等作為骨干網(wǎng)絡,一方面,大尺度輸入的網(wǎng)絡結(jié)構(gòu)參數(shù)量往往較大(以VGG為例,其參數(shù)量大約500 MB),高端FPGA的片上內(nèi)存容量也僅32.1 Mb左右,這對FPGA實現(xiàn)CNN加速將是資源瓶頸。即使采用低精度量化策略,F(xiàn)PGA有限的片上內(nèi)存資源仍捉襟見肘。另一方面,雖然各層運算單元可以得到特定優(yōu)化,然而由于網(wǎng)絡拓撲結(jié)構(gòu)限制,往往各層網(wǎng)絡很難實現(xiàn)計算周期的匹配,從而造成推斷性能難以進一步提高。針對基于流架構(gòu)的二值卷積神經(jīng)網(wǎng)絡加速器設計存在的資源與性能的瓶頸,本文以224×224尺度的VGG-11網(wǎng)絡加速器設計為例,重點研究了大尺度的二值卷積神經(jīng)網(wǎng)絡硬件加速器設計、優(yōu)化及驗證,主要工作如下:
(1)針對大尺度流架構(gòu)的二值VGG卷積神經(jīng)網(wǎng)絡加速器設計存在的資源與性能瓶頸,提出了網(wǎng)絡模型優(yōu)化和流水線優(yōu)化的方法。
(2)設計并優(yōu)化了224×224尺度的基于流架構(gòu)的二值VGG卷積神經(jīng)網(wǎng)絡加速器。實驗表明基于FPGA平臺實現(xiàn)了81%的準確率,219.9 FPS的識別速度,相較于同類型的加速器識別速度最高提升了33倍。
本文詳細內(nèi)容請下載:http://ihrv.cn/resource/share/2000003365
作者信息:
張旭欣,張 嘉,李新增,金 婕
(上海工程技術(shù)大學 電子電氣工程學院,上海201600)