123,123

SM4算法在粗粒度阵列平台的并行化映射

2017年电子技术应用第4期

徐金甫，杨宇航

信息工程大学，河南郑州450000

摘要： 粗粒度可重构密码阵列提供了大量并行的密码硬件资源，是针对多种分组密码算法硬件快速实现而设计的加速平台。该平台以提升性能和资源效率为目标对SM4算法进行了映射。在直接映射方案的基础上，使用合并操作和任务并行的思路提出了3种改进方案。实验结果表明，改进方案不同程度地发挥了阵列运算资源优势，吞吐率和资源使用效率有了大幅度提升。

關(guān)鍵詞： 粗粒度可重构密码阵列并行性能资源效率 SM4

中圖分類號(hào)： TP309.7
文獻(xiàn)標(biāo)識(shí)碼： A
DOI：10.16157/j.issn.0258-7998.2017.04.010
中文引用格式： 徐金甫，楊宇航. SM4算法在粗粒度陣列平臺(tái)的并行化映射[J].電子技術(shù)應(yīng)用，2017，43(4)：39-42，46.
英文引用格式： Xu Jinfu，Yang Yuhang. The parallel mapping implementation of SM4 based on coarse-grained reconfigurable block encryption array[J].Application of Electronic Technique，2017，43(4)：39-42，46.

The parallel mapping implementation of SM4 based on coarse-grained reconfigurable block encryption array

Xu Jinfu，Yang Yuhang

Information Engineering University，Zhengzhou 450000，China

Abstract： Coarse-grained reconfigurable block encryption array(RBEA) is the accelerative platform for a great variety of block cipher algorithms twhich provides massively parallel hardware resources. In this paper, SM4 is mapped on this platform with the goal of improving the performance and resource efficiency. Based on the direct mapping scheme, three promotional implementations are proposed with the method of operation merging and task paralleling. Experimental results show that the modified schemes can develop the advantage of array to varying degrees and throughput and resource usage efficiency is improved greatly.

Key words : coarse-grained reconfigurable block encryption array；parallel；performance；resource efficiency；SM4

0 引言

隨著現(xiàn)代集成電路工藝的發(fā)展，單位面積上所能集成的晶體管數(shù)量不斷增加，時(shí)鐘頻率不斷提升，限制應(yīng)用實(shí)現(xiàn)性能提升的主要因素將不再是硬件資源，而是如何充分利用這些資源^[1]。粗粒度可重構(gòu)分組密碼陣列（Coarse-Grained Reconfigurable Block Encryption Array，RBEA）提供了大量密碼運(yùn)算資源，是針對(duì)分組密碼算法高速實(shí)現(xiàn)而設(shè)計(jì)的加速平臺(tái)。在該平臺(tái)上通過(guò)設(shè)計(jì)分組密碼算法SM4的不同映射方案，來(lái)探究提高運(yùn)算性能和資源效率的最佳方法。

1 SM4算法簡(jiǎn)介

SM4算法是2012年3月國(guó)家密碼管理局授權(quán)的分組密碼算法^[2]。該算法主要由32輪迭代組成，每輪迭代完全相同，均為非線性運(yùn)算，運(yùn)算數(shù)據(jù)位寬有8 bit和32 bit兩種。SM4算法的數(shù)據(jù)分組長(zhǎng)度為128 bit，密鑰長(zhǎng)度也為128 bit。

輪運(yùn)算的主體是F函數(shù)，該函數(shù)的運(yùn)算位寬為32 bit，每輪更新32 bit數(shù)據(jù)，其表達(dá)式如式(1)所示。

第32輪運(yùn)算結(jié)束后將運(yùn)算結(jié)果進(jìn)行交換得到最終的密文。

2 粗粒度可重構(gòu)密碼陣列

RBEA是針對(duì)分組密碼算法開發(fā)的粗粒度可重構(gòu)運(yùn)算平臺(tái)?？芍貥?gòu)設(shè)計(jì)采用數(shù)據(jù)流驅(qū)動(dòng)，通過(guò)可重構(gòu)單元的配置來(lái)滿足不同密碼算法的需求，具有高效率和高并行度的特點(diǎn)^[3]。粗粒度單元的設(shè)計(jì)不同于傳統(tǒng)的細(xì)粒度可重構(gòu)單元，在實(shí)現(xiàn)分組密碼算法時(shí)速度更快、效率更高^[4]。

2.1 陣列結(jié)構(gòu)

RBEA的基本結(jié)構(gòu)如圖1所示，由輸入輸出控制器、共享存儲(chǔ)區(qū)和運(yùn)算陣列組成。

FB中的4種運(yùn)算單元FU1-4是在文獻(xiàn)[4]中有所描述。對(duì)分組密碼算法操作分析分類的基礎(chǔ)上，通過(guò)整合三輸入布爾函數(shù)、移位、模加減、模乘、比特置換、S盒運(yùn)算和有限域乘法等7種基本操作而設(shè)計(jì)形成的異構(gòu)單元。分組密碼算法中常用的非線性操作SBOX通過(guò)共享存儲(chǔ)與FB聯(lián)合實(shí)現(xiàn)。在功能單元（簡(jiǎn)稱FU）輸出端增加異或單元，主要用于完成指定運(yùn)算操作后結(jié)果與其他數(shù)據(jù)進(jìn)行后異或運(yùn)算。

運(yùn)算陣列使用分散-聚簇設(shè)計(jì)方案，一行中相鄰的4個(gè)FB中的FU通過(guò)固定連線共同完成64 bit和128 bit的運(yùn)算。該陣列固定輸入輸出結(jié)點(diǎn)，由輸入控制器負(fù)責(zé)數(shù)據(jù)注入和運(yùn)算啟動(dòng)，輸出控制器負(fù)責(zé)數(shù)據(jù)輸出。配置單元提供的配置信息將FB重構(gòu)為需要的運(yùn)算功能和數(shù)據(jù)路徑，共享存儲(chǔ)在本地控制器控制下完成運(yùn)算存儲(chǔ)操作。

2.2 算法映射過(guò)程

不同于傳統(tǒng)以指令流驅(qū)動(dòng)的處理器平臺(tái)，陣列平臺(tái)在實(shí)現(xiàn)算法映射時(shí)，通過(guò)運(yùn)算、路由和存儲(chǔ)單元的重構(gòu)配置來(lái)完成數(shù)據(jù)流的實(shí)現(xiàn)，通過(guò)控制單元配置來(lái)完成控制流的實(shí)現(xiàn)^[1]。映射基本流程如下：

（1）數(shù)據(jù)流配置

使用圖形化編程工具搭建算法任務(wù)中的數(shù)據(jù)路徑，主要包括運(yùn)算結(jié)點(diǎn)、寄存結(jié)點(diǎn)和結(jié)點(diǎn)連接等，并將這些任務(wù)分配到1個(gè)或多個(gè)FB上。最后通過(guò)布局布線算法完成陣列結(jié)構(gòu)上的數(shù)據(jù)路徑搭建。

（2）控制流配置

通過(guò)設(shè)置周期級(jí)參數(shù)，在不同時(shí)刻產(chǎn)生所需的控制信號(hào)。使用匯編語(yǔ)言對(duì)輸入輸出與FB中的控制器進(jìn)行編程，完成數(shù)據(jù)輸入輸出和運(yùn)算控制任務(wù)。

（3）陣列配置信息生成

通過(guò)集成的編譯器將配置好的數(shù)據(jù)路徑和控制參數(shù)信息編譯成陣列配置信息，完成算法映射。

3 SM4算法的不同映射方案

通過(guò)對(duì)SM4算法的研究，結(jié)合RBEA的結(jié)構(gòu)特點(diǎn)，本文采用操作合并、循環(huán)展開和任務(wù)并行復(fù)制等策略設(shè)計(jì)了不同的算法映射方案，并對(duì)這些方案進(jìn)行評(píng)估來(lái)探究提高性能和資源效率的最佳映射策略。

通過(guò)對(duì)SM4算法的分析，僅需要移位、異或和S盒3種操作就可以完成全部運(yùn)算。移位操作通過(guò)配置移位單元可以實(shí)現(xiàn)，異或操作通過(guò)配置三輸入布爾函數(shù)單元或直接使用各FU輸出端口的異或單元實(shí)現(xiàn)，S盒操作由配置共享存儲(chǔ)器實(shí)現(xiàn)。運(yùn)算過(guò)程中的以32 bit為單位的數(shù)據(jù)移位可以直接通過(guò)路由實(shí)現(xiàn)，不占用功能單元資源。

使用吞吐率和性能面積比來(lái)量化地比較不同方案的性能和資源效率情況[5]。式(4)為吞吐率公式，表示單個(gè)時(shí)鐘內(nèi)的平均數(shù)據(jù)處理量，單位為bit/cycle。式(5)為性能面積比公式，表示平均每個(gè)FB上單個(gè)時(shí)鐘內(nèi)的平均數(shù)據(jù)處理量，單位為bit/cycle perFB。

其中S為處理分組個(gè)數(shù)，C為分組大小，T為數(shù)據(jù)運(yùn)算所需時(shí)鐘數(shù)，N為映射方案中FB的個(gè)數(shù)。

3.1 操作合并

將各步驟操作獨(dú)立的映射到各個(gè)FB上，如圖2所示。由于數(shù)據(jù)輸入端口的限制，輪運(yùn)算共需9個(gè)FB，6個(gè)時(shí)鐘周期完成。由于最后的交換可以通過(guò)路由單元進(jìn)行交換，不占用運(yùn)算資源和時(shí)間。因此完成1組數(shù)據(jù)加密共占用9個(gè)FB，(6×32)+3=195個(gè)時(shí)鐘周期，其吞吐率為0.65 bit/cycle，性能面積比為0.07 bit/cycle perFB。

這種映射方案，對(duì)于每個(gè)FB來(lái)說(shuō)，只利用到了其中的1種FU，而對(duì)于其他FU完全沒有利用，F(xiàn)B的利用率僅為25%。通過(guò)分析發(fā)現(xiàn)，輪密鑰異或可以與S盒操作合并，而線性變換L的操作也可以合并，其合并后的映射結(jié)構(gòu)如圖3所示。合并方案中輪運(yùn)算只占用6個(gè)FB，4個(gè)時(shí)鐘周期，完成1組數(shù)據(jù)的加密時(shí)，N=6，T=131，性能為0.98 bit/cycle，提高了1.5倍，性能面積比為0.16 bit/cycle perFB，提高了2.25倍，效果非常明顯。

由于陣列結(jié)構(gòu)中單元的獨(dú)立性允許將算法映射到更多的單元上進(jìn)行并行運(yùn)算，因此操作合并方案減少了資源占用，提高了性能，為其他并行方案打下了基礎(chǔ)。

3.2 任務(wù)并行

為提高SM4算法的性能，需要使用大量單元來(lái)承擔(dān)計(jì)算任務(wù)。本文認(rèn)為使用這些單元的方式無(wú)非是將運(yùn)算任務(wù)分配到這些單元上，并利用陣列特點(diǎn)，使這些單元能夠并行運(yùn)算。分配方式主要有兩種，一種是不同的單元組合獨(dú)立地承擔(dān)不同數(shù)據(jù)的運(yùn)算任務(wù)，即基于數(shù)據(jù)分配的任務(wù)復(fù)制方案；另一種是使不同的單元組合分別承擔(dān)同一數(shù)據(jù)運(yùn)算的不同階段的計(jì)算任務(wù)，即基于循環(huán)展開的流水方案。

任務(wù)復(fù)制方案在合并操作的基礎(chǔ)上，將各個(gè)算法任務(wù)完整復(fù)制到未利用的單元上。由于輸入輸出的限制，只能將任務(wù)復(fù)制為4份，如圖4所示，4個(gè)陰影部分表示為4份復(fù)制后的任務(wù)。

在當(dāng)前的映射方案中，理想情況下，性能提升4倍，但資源利用率是原始方案的37.5%，性能面積比僅為0.06 bit/cycle perFB，還不如操作合并前的資源利用率。因此，采用任務(wù)復(fù)制的方案關(guān)鍵在于如何能夠保證資源利用率不被顯著地降低，這樣才能最大化地提高性能。

循環(huán)展開流水方案在合并操作的基礎(chǔ)上，將輪運(yùn)算進(jìn)行復(fù)制映射，不同的輪運(yùn)算承擔(dān)不同迭代次序的運(yùn)算，被映射的單元接力處理數(shù)據(jù)，共同完成對(duì)一組數(shù)據(jù)的加/解密運(yùn)算。針對(duì)陣列提供的資源不同，其流水形式也有所不同，可以分為全展開流水和集合展開流水。全展開流水以合并操作后的輪運(yùn)算為基本單位進(jìn)行復(fù)制映射，復(fù)制次數(shù)與迭代次數(shù)相同，如圖5(a)。集合展開流水同樣以輪運(yùn)算為基本單元，而復(fù)制次數(shù)則根據(jù)外部條件設(shè)定，每個(gè)輪運(yùn)算映射的單元不再承擔(dān)單次迭代任務(wù)而是多個(gè)輪運(yùn)算任務(wù)的集合，如圖5(b)所示。集合展開方案需要滿足L×P×Q≥32?？梢钥闯?，全展開方案是集合展開在P=0，Q=1設(shè)定情況下的特殊形式。

根據(jù)流水線工作原理，吞吐率計(jì)算公式為：

其中II為迭代間隔，ET為處理一組數(shù)據(jù)所用的時(shí)鐘周期數(shù)。

在全展開方案中，II=4，ET=131，N=192，其吞吐率極限值為32 bit/cycle，性能面積比最大為0.167 bit/cycle perFB。性能提升明顯，而資源利用效率與操作合并方案基本相同。

在集合展開方案中，為達(dá)到最小II，應(yīng)使Q=1，P=4，為簡(jiǎn)化布線，映射時(shí)直接認(rèn)為每輪運(yùn)算占用兩行共8個(gè)FB。共占用48個(gè)FB，II=16，ET=131，其吞吐率極限值為8 bit/cycle，性能面積比最大為0.125 bit/cycle perFB。相對(duì)于操作合并后的方案，其性能提高了約7.8倍，而資源利用效率卻下降了，這是因?yàn)檫@種映射方案中共有16個(gè)FB未使用。為了提高資源利用效率需要研究自動(dòng)布局布線算法，能夠?qū)⑽词褂玫腇B充分使用起來(lái)。

4 實(shí)驗(yàn)驗(yàn)證與分析

在65 nm工藝下，RBEA的工作頻率為320 MHz，測(cè)試數(shù)據(jù)量大小分別為1 KB、16 KB、32 KB、48 KB、64 KB，不同方案的測(cè)試結(jié)果如表1所示。

對(duì)比操作合并前后的實(shí)驗(yàn)數(shù)據(jù)可以看出，SM4算法實(shí)現(xiàn)性能有較大提升，而且性能面積比提升效果非常明顯。采用任務(wù)復(fù)制的方案能夠線性地提升算法性能，但是由于陣列結(jié)構(gòu)的限制，其資源利用率卻有所降低。采用循環(huán)展開流水方案能夠顯著地提升算法實(shí)現(xiàn)性能，但是同樣地其性能面積比有所下降。

對(duì)于與SM4結(jié)構(gòu)相似的算法，采用合并操作能夠?qū)崿F(xiàn)提升性能和資源利用率的雙重效果，而任務(wù)復(fù)制和循環(huán)展開方案僅能夠提高性能卻對(duì)資源利用的提升沒有貢獻(xiàn)。究其原因，是由于SM4算法實(shí)現(xiàn)的輪運(yùn)算完全相同，一輪運(yùn)算硬件可以實(shí)現(xiàn)完整算法映射，該組硬件在迭代運(yùn)算過(guò)程中，始終處理被占用狀態(tài)，即以該組硬件為模板進(jìn)行復(fù)制設(shè)計(jì)其他方案時(shí)資源利用率不會(huì)提高。因此，基于合并操作的后續(xù)方案中不能夠超越這一方案。若想進(jìn)一步提升資源效率，應(yīng)該進(jìn)一步降低II，增加流水深度。

5 結(jié)論

基于操作合并和任務(wù)并行這兩種思路，本文在RBEA平臺(tái)上對(duì)SM4算法設(shè)計(jì)了不同的映射方案，并通過(guò)實(shí)驗(yàn)數(shù)據(jù)分析了不同方案對(duì)性能和資源效率提升的影響。實(shí)驗(yàn)結(jié)果表明，合并操作減少了操作時(shí)間和資源，顯著地提升了算法實(shí)現(xiàn)性能和資源效率；任務(wù)并行使用更多資源來(lái)提升性能，但沒有提升硬件資源使用效率。通過(guò)增加流水深度、減少迭代間隔和使用自動(dòng)化布局布線算法，將會(huì)進(jìn)一步提升算法的在該平臺(tái)上的實(shí)現(xiàn)性能和資源使用效率。

參考文獻(xiàn)

[1] 魏少軍，劉雷波，尹首一.可重構(gòu)計(jì)算處理器技術(shù)[J].中國(guó)科學(xué)：信息科學(xué)，2012(12)：1559-1576.

[2] 國(guó)家密碼管理局.國(guó)家密碼管理局公告第23號(hào)[EB/OL].GM/T 0002-2012.(2012-03-21).http：//www.oscca.gov.cn/News/201204/News_1227.htm.

[3] 楊子煜，嚴(yán)明，王大偉，等.面向CGRA循環(huán)流水映射的數(shù)據(jù)并行優(yōu)化[J].計(jì)算機(jī)學(xué)報(bào)，2013，36(6)：1280-1289.

[4] Li Wei，Zeng Xiaoyang，Nan Longmei，et al.A reconfigurable block cryptographic processor based on VLIW architecture[J].China Communications，2016，13(1)：91-99.

[5] LIU B，BAAS B M.Parallel AES encryption engines for many-core processor arrays[J].Computers IEEE Transactions on，2013，62(3)：536-547.

[6] SIM H，LEE H，SEO S，et al.Mapping imperfect loops to coarse-grained reconfigurable architectures[J].IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems，2016，35(7)：1092-1104.

[7] SHAO S，YIN S，LIU L，et al.Map-reduce inspired loop parallelization on CGRA[C]//IEEE International Symposium on Circuits and Systems.2014：1231-1234.

[8] ZHOU L，LIU H，ZHANG J.Loop acceleration by cluster-based CGRA[J].Ieice Electron Express，2013，10(16).

[9] 朱敏，劉雷波，尹首一，等.面向?qū)ΨQ密碼領(lǐng)域的可重構(gòu)陣列設(shè)計(jì)[J].微電子學(xué)，2012，42(6)：815-818.

作者信息:

徐金甫，楊宇航

（信息工程大學(xué)，河南鄭州450000）

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容