《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 其他 > 設(shè)計(jì)應(yīng)用 > 基于三維時(shí)空注意的密集連接視頻超分算法
基于三維時(shí)空注意的密集連接視頻超分算法
網(wǎng)絡(luò)安全與數(shù)據(jù)治理 2期
何嘯林,吳麗君
(福州大學(xué) 物理與信息工程學(xué)院,福建 福州350116)
摘要: 針對(duì)視頻超分對(duì)時(shí)間幀間信息以及分層信息的利用不充分,設(shè)計(jì)了一種具有空間時(shí)序注意力機(jī)制的密集可變形視頻超分辨率重建網(wǎng)絡(luò)。利用三維卷積來(lái)提取經(jīng)可變形卷積模塊對(duì)齊后的相鄰幀之間的時(shí)間序列信息,同時(shí)設(shè)計(jì)具有步幅卷積層的輕量級(jí)模塊來(lái)提取空間注意力信息。在特征重構(gòu)階段引入密集連接,充分利用分層特征信息以實(shí)現(xiàn)更好的特征重建。選取公共數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)驗(yàn)證,結(jié)果表明,提出的算法在客觀評(píng)價(jià)指標(biāo)與視覺(jué)對(duì)比效果上都有提升。
中圖分類號(hào): TP391
文獻(xiàn)標(biāo)識(shí)碼: A
DOI: 10.19358/j.issn.2097-1788.2023.02.011
引用格式: 何嘯林,吳麗君. 基于三維時(shí)空注意的密集連接視頻超分算法[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,2023,42(2):70-75.
Densely connected video super-resolution based on three-dimensional spatial-sequential attention
He Xiaolin,Wu Lijun
(College of Physics and Information Engineering,F(xiàn)uzhou University,F(xiàn)uzhou 350116,China)
Abstract: Aiming at the insufficient utilization of temporal inter-frame information and hierarchical information in video super-resolution, a dense deformable video super-resolution reconstruction network with spatial-sequential attention mechanism is designed. Three-dimensional convolution is used to extract sequence information between adjacent frames aligned by deformable convolution module, and a lightweight module with strided convolution layer is designed to extract spatial attention information. Dense connections are introduced in the feature reconstruction stage to make full use of hierarchical feature information to achieve better feature reconstruction. The public datasets are selected for experimental verification. The results show that the proposed algorithm has improved both objective evaluation indicators and visual contrast effects.
Key words : video super-resolution;three-dimensional spatial-sequential attention;deformable convolution;dense connection

0 引言

視頻超分辨(Video Super-Resolution,VSR)算法是一項(xiàng)具有挑戰(zhàn)性的課題,倍受人們的關(guān)注。相較于單圖像的超分辨率重建,視頻超分辨率重建可以利用幀之間的相關(guān)性和連續(xù)幀間的時(shí)間信息。視頻超分的目標(biāo)是在相鄰的低分辨率幀(Low Resolution,LR)的幫助下,重建出高分辨率幀(High Resolution,HR)。早期的研究[1-3]將視頻超分視為圖像重建的簡(jiǎn)單擴(kuò)展,并沒(méi)有考慮到物體運(yùn)動(dòng),性能較差。對(duì)此,人們開(kāi)始研究一些顯式運(yùn)動(dòng)補(bǔ)償?shù)姆椒?,最為廣泛的是使用光流來(lái)估計(jì)幀之間的運(yùn)動(dòng)并執(zhí)行變形。然而,對(duì)光流進(jìn)行準(zhǔn)確的預(yù)測(cè)是比較困難的,尤其是在存在遮擋或大運(yùn)動(dòng)時(shí),當(dāng)對(duì)光流量的不準(zhǔn)確預(yù)測(cè)時(shí)可能會(huì)引入偽影[4]。為了解決這個(gè)問(wèn)題,研究人員開(kāi)始研究隱式運(yùn)動(dòng)補(bǔ)償方法。在隱式補(bǔ)償方法中,可變形卷積較為常用[5]。時(shí)序可變形對(duì)齊視頻超分網(wǎng)絡(luò)(Temporally Deformable Alignment Network,TDAN)[4]首次將可變形卷積引入視頻超分任務(wù)中;增強(qiáng)型可變形卷積視頻超分網(wǎng)絡(luò)(Video Restoration with Enhanced Deformable Convolutional Networks,EDVR)[6]將跨幀信息與可變形網(wǎng)絡(luò)和注意力機(jī)制融合在一起。相比光流法,可變形卷積的方法解決了偽影問(wèn)題,但注意力機(jī)制的設(shè)計(jì)仍有改進(jìn)空間。對(duì)于連續(xù)幀的視頻任務(wù),視頻的序列信息是至關(guān)重要的。由于在時(shí)間注意力模塊中僅僅采用二維卷積,無(wú)法提取時(shí)間序列維度的信息,以往方法中的時(shí)空注意力模塊僅僅只是在兩幀之間進(jìn)行自注意力加權(quán)。

本文設(shè)計(jì)了一種具有三維空間順序注意機(jī)制的密集可變形視頻超分辨率重建網(wǎng)絡(luò)。在視頻幀對(duì)齊模塊之后引入空間時(shí)序注意力模塊,利用三維卷積操作來(lái)捕獲幀間序列信息。在超分任務(wù)中,引入空間注意力中金字塔結(jié)構(gòu)使得網(wǎng)絡(luò)能夠獲得更大的感受野,但也帶來(lái)了冗余參數(shù)。本文通過(guò)幾個(gè)卷積層和池化層的組合來(lái)重新設(shè)計(jì)空間注意模塊,利用更少的參數(shù)保持一個(gè)大的感受野。此外,為了在特征重建階段充分利用分層特征,設(shè)計(jì)了一個(gè)由密集連接和殘差組成的密集連接重建模塊。

綜上所述,本文設(shè)計(jì)了一種三維空間時(shí)序注意力機(jī)制。應(yīng)用三維卷積來(lái)獲取時(shí)間注意模塊中的幀間序列信息。在空間注意力模塊中,修改卷積的步長(zhǎng),使用卷積組結(jié)合池化來(lái)實(shí)現(xiàn)輕量化。同時(shí)設(shè)計(jì)密集連接重建模塊,通過(guò)密集連接充分利用分層特征信息,更好地完成特征重建。



本文詳細(xì)內(nèi)容請(qǐng)下載:http://ihrv.cn/resource/share/2000005216




作者信息:

何嘯林,吳麗君

(福州大學(xué) 物理與信息工程學(xué)院,福建 福州350116)


此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。