《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 其他 > 設(shè)計應(yīng)用 > 基于三維時空注意的密集連接視頻超分算法
基于三維時空注意的密集連接視頻超分算法
網(wǎng)絡(luò)安全與數(shù)據(jù)治理 2期
何嘯林,吳麗君
(福州大學(xué) 物理與信息工程學(xué)院,福建 福州350116)
摘要: 針對視頻超分對時間幀間信息以及分層信息的利用不充分,設(shè)計了一種具有空間時序注意力機制的密集可變形視頻超分辨率重建網(wǎng)絡(luò)。利用三維卷積來提取經(jīng)可變形卷積模塊對齊后的相鄰幀之間的時間序列信息,同時設(shè)計具有步幅卷積層的輕量級模塊來提取空間注意力信息。在特征重構(gòu)階段引入密集連接,充分利用分層特征信息以實現(xiàn)更好的特征重建。選取公共數(shù)據(jù)集進行實驗驗證,結(jié)果表明,提出的算法在客觀評價指標(biāo)與視覺對比效果上都有提升。
中圖分類號: TP391
文獻標(biāo)識碼: A
DOI: 10.19358/j.issn.2097-1788.2023.02.011
引用格式: 何嘯林,吳麗君. 基于三維時空注意的密集連接視頻超分算法[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,2023,42(2):70-75.
Densely connected video super-resolution based on three-dimensional spatial-sequential attention
He Xiaolin,Wu Lijun
(College of Physics and Information Engineering,F(xiàn)uzhou University,F(xiàn)uzhou 350116,China)
Abstract: Aiming at the insufficient utilization of temporal inter-frame information and hierarchical information in video super-resolution, a dense deformable video super-resolution reconstruction network with spatial-sequential attention mechanism is designed. Three-dimensional convolution is used to extract sequence information between adjacent frames aligned by deformable convolution module, and a lightweight module with strided convolution layer is designed to extract spatial attention information. Dense connections are introduced in the feature reconstruction stage to make full use of hierarchical feature information to achieve better feature reconstruction. The public datasets are selected for experimental verification. The results show that the proposed algorithm has improved both objective evaluation indicators and visual contrast effects.
Key words : video super-resolution;three-dimensional spatial-sequential attention;deformable convolution;dense connection

0 引言

視頻超分辨(Video Super-Resolution,VSR)算法是一項具有挑戰(zhàn)性的課題,倍受人們的關(guān)注。相較于單圖像的超分辨率重建,視頻超分辨率重建可以利用幀之間的相關(guān)性和連續(xù)幀間的時間信息。視頻超分的目標(biāo)是在相鄰的低分辨率幀(Low Resolution,LR)的幫助下,重建出高分辨率幀(High Resolution,HR)。早期的研究[1-3]將視頻超分視為圖像重建的簡單擴展,并沒有考慮到物體運動,性能較差。對此,人們開始研究一些顯式運動補償?shù)姆椒?,最為廣泛的是使用光流來估計幀之間的運動并執(zhí)行變形。然而,對光流進行準(zhǔn)確的預(yù)測是比較困難的,尤其是在存在遮擋或大運動時,當(dāng)對光流量的不準(zhǔn)確預(yù)測時可能會引入偽影[4]。為了解決這個問題,研究人員開始研究隱式運動補償方法。在隱式補償方法中,可變形卷積較為常用[5]。時序可變形對齊視頻超分網(wǎng)絡(luò)(Temporally Deformable Alignment Network,TDAN)[4]首次將可變形卷積引入視頻超分任務(wù)中;增強型可變形卷積視頻超分網(wǎng)絡(luò)(Video Restoration with Enhanced Deformable Convolutional Networks,EDVR)[6]將跨幀信息與可變形網(wǎng)絡(luò)和注意力機制融合在一起。相比光流法,可變形卷積的方法解決了偽影問題,但注意力機制的設(shè)計仍有改進空間。對于連續(xù)幀的視頻任務(wù),視頻的序列信息是至關(guān)重要的。由于在時間注意力模塊中僅僅采用二維卷積,無法提取時間序列維度的信息,以往方法中的時空注意力模塊僅僅只是在兩幀之間進行自注意力加權(quán)。

本文設(shè)計了一種具有三維空間順序注意機制的密集可變形視頻超分辨率重建網(wǎng)絡(luò)。在視頻幀對齊模塊之后引入空間時序注意力模塊,利用三維卷積操作來捕獲幀間序列信息。在超分任務(wù)中,引入空間注意力中金字塔結(jié)構(gòu)使得網(wǎng)絡(luò)能夠獲得更大的感受野,但也帶來了冗余參數(shù)。本文通過幾個卷積層和池化層的組合來重新設(shè)計空間注意模塊,利用更少的參數(shù)保持一個大的感受野。此外,為了在特征重建階段充分利用分層特征,設(shè)計了一個由密集連接和殘差組成的密集連接重建模塊。

綜上所述,本文設(shè)計了一種三維空間時序注意力機制。應(yīng)用三維卷積來獲取時間注意模塊中的幀間序列信息。在空間注意力模塊中,修改卷積的步長,使用卷積組結(jié)合池化來實現(xiàn)輕量化。同時設(shè)計密集連接重建模塊,通過密集連接充分利用分層特征信息,更好地完成特征重建。



本文詳細內(nèi)容請下載:http://ihrv.cn/resource/share/2000005216




作者信息:

何嘯林,吳麗君

(福州大學(xué) 物理與信息工程學(xué)院,福建 福州350116)


此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。