文獻標(biāo)識碼: A
DOI: 10.19358/j.issn.2097-1788.2023.02.011
引用格式: 何嘯林,吳麗君. 基于三維時空注意的密集連接視頻超分算法[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,2023,42(2):70-75.
0 引言
視頻超分辨(Video Super-Resolution,VSR)算法是一項具有挑戰(zhàn)性的課題,倍受人們的關(guān)注。相較于單圖像的超分辨率重建,視頻超分辨率重建可以利用幀之間的相關(guān)性和連續(xù)幀間的時間信息。視頻超分的目標(biāo)是在相鄰的低分辨率幀(Low Resolution,LR)的幫助下,重建出高分辨率幀(High Resolution,HR)。早期的研究[1-3]將視頻超分視為圖像重建的簡單擴展,并沒有考慮到物體運動,性能較差。對此,人們開始研究一些顯式運動補償?shù)姆椒?,最為廣泛的是使用光流來估計幀之間的運動并執(zhí)行變形。然而,對光流進行準(zhǔn)確的預(yù)測是比較困難的,尤其是在存在遮擋或大運動時,當(dāng)對光流量的不準(zhǔn)確預(yù)測時可能會引入偽影[4]。為了解決這個問題,研究人員開始研究隱式運動補償方法。在隱式補償方法中,可變形卷積較為常用[5]。時序可變形對齊視頻超分網(wǎng)絡(luò)(Temporally Deformable Alignment Network,TDAN)[4]首次將可變形卷積引入視頻超分任務(wù)中;增強型可變形卷積視頻超分網(wǎng)絡(luò)(Video Restoration with Enhanced Deformable Convolutional Networks,EDVR)[6]將跨幀信息與可變形網(wǎng)絡(luò)和注意力機制融合在一起。相比光流法,可變形卷積的方法解決了偽影問題,但注意力機制的設(shè)計仍有改進空間。對于連續(xù)幀的視頻任務(wù),視頻的序列信息是至關(guān)重要的。由于在時間注意力模塊中僅僅采用二維卷積,無法提取時間序列維度的信息,以往方法中的時空注意力模塊僅僅只是在兩幀之間進行自注意力加權(quán)。
本文設(shè)計了一種具有三維空間順序注意機制的密集可變形視頻超分辨率重建網(wǎng)絡(luò)。在視頻幀對齊模塊之后引入空間時序注意力模塊,利用三維卷積操作來捕獲幀間序列信息。在超分任務(wù)中,引入空間注意力中金字塔結(jié)構(gòu)使得網(wǎng)絡(luò)能夠獲得更大的感受野,但也帶來了冗余參數(shù)。本文通過幾個卷積層和池化層的組合來重新設(shè)計空間注意模塊,利用更少的參數(shù)保持一個大的感受野。此外,為了在特征重建階段充分利用分層特征,設(shè)計了一個由密集連接和殘差組成的密集連接重建模塊。
綜上所述,本文設(shè)計了一種三維空間時序注意力機制。應(yīng)用三維卷積來獲取時間注意模塊中的幀間序列信息。在空間注意力模塊中,修改卷積的步長,使用卷積組結(jié)合池化來實現(xiàn)輕量化。同時設(shè)計密集連接重建模塊,通過密集連接充分利用分層特征信息,更好地完成特征重建。
本文詳細內(nèi)容請下載:http://ihrv.cn/resource/share/2000005216
作者信息:
何嘯林,吳麗君
(福州大學(xué) 物理與信息工程學(xué)院,福建 福州350116)