一種極低IO帶寬需求的大維度矩陣鏈?zhǔn)骄仃嚦朔ㄆ髟O(shè)計(jì)[模擬設(shè)計(jì)][其他]

大維度矩陣乘法常采用子矩陣分塊法實(shí)現(xiàn),子矩陣的最大規(guī)模決定了整個(gè)矩陣乘法執(zhí)行速度。針對(duì)經(jīng)典脈動(dòng)結(jié)構(gòu)直接處理的矩陣規(guī)模受IO帶寬限制嚴(yán)重的問題,提出了一種極低IO帶寬需求的大維度矩陣鏈?zhǔn)匠朔ㄆ鹘Y(jié)構(gòu),并完成了硬件設(shè)計(jì)實(shí)現(xiàn)與性能驗(yàn)證工作。主要工作如下:(1)優(yōu)化了矩陣乘法的數(shù)據(jù)組織,實(shí)現(xiàn)輸入矩陣規(guī)模與IO帶寬無關(guān),能夠最大限度地利用器件內(nèi)部邏輯和存儲(chǔ)資源;(2)根據(jù)優(yōu)化后數(shù)據(jù)組織形式設(shè)計(jì)了鏈?zhǔn)匠朔ㄆ饔布?,?shí)現(xiàn)源數(shù)據(jù)計(jì)算和傳輸重疊操作;(3)增強(qiáng)乘法器對(duì)矩陣規(guī)模的適應(yīng)性,所設(shè)計(jì)的鏈?zhǔn)匠朔ㄆ骺蓪?shí)時(shí)配置為多條獨(dú)立鏈,并行多組運(yùn)算;(4)在Xilinx C7V2000T FPGA芯片上完成不同種規(guī)模的鏈?zhǔn)匠朔ㄆ饔布?shí)現(xiàn)和性能測(cè)試工作,在該芯片上本文提出的鏈?zhǔn)匠朔ㄆ髯疃嘀С?00個(gè)運(yùn)算單元,是經(jīng)典脈動(dòng)結(jié)構(gòu)規(guī)模的8倍;在相同運(yùn)算器個(gè)數(shù)下,本文提出的鏈?zhǔn)匠朔ㄆ髦皇褂媒?jīng)典脈動(dòng)結(jié)構(gòu)運(yùn)算1/8的IO帶寬即獲得相等性能。

發(fā)表于:9/10/2019 10:29:00 AM