引用格式:吳孔賢,鄭明魁. 基于邊緣增強(qiáng)和多尺度時(shí)空重組的視頻預(yù)測方法[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,2025,44(3):22-26.
引言
視頻預(yù)測[1]旨在通過分析現(xiàn)有的視頻幀來預(yù)測未來幀的內(nèi)容,是一項(xiàng)逐像素的預(yù)測任務(wù)。視頻預(yù)測對(duì)于自動(dòng)駕駛[2]、動(dòng)作預(yù)測[3]、天氣預(yù)測[4]等領(lǐng)域具有重要研究意義。與圖像分類和目標(biāo)檢測等傳統(tǒng)的計(jì)算機(jī)視覺任務(wù)不同,視頻預(yù)測要求模型在時(shí)間和空間維度上雙重建模,從而捕捉到場景的動(dòng)態(tài)變化和長期的依賴關(guān)系。然而,視頻中物體突然變化的運(yùn)動(dòng)軌跡以及復(fù)雜多樣的背景信息使得預(yù)測任務(wù)變得困難。
以往的視頻預(yù)測模型主要是基于卷積長短期記憶網(wǎng)絡(luò)(Convolutional Long Short-Term Memory, ConvLSTM)[4]及其一系列變體來建模時(shí)空特性。ConvLSTM通過在長短期記憶網(wǎng)絡(luò)(LSTM)單元中引入卷積運(yùn)算,有效地捕捉了時(shí)空數(shù)據(jù)中的局部空間特征和全局時(shí)間動(dòng)態(tài)。其變體PredRNN[5] (Predictive RNN) 提出了一種新的時(shí)空記憶單元,并將狀態(tài)信息沿之字形進(jìn)行水平和垂直方向的傳遞和更新。PredRNN++[6]在PredRNN基礎(chǔ)上進(jìn)行改進(jìn),提出了因果長短時(shí)記憶單元(Causal LSTM)和梯度高速公路單元(Gradient Highway Unit, GHU)來對(duì)長短期時(shí)空依賴進(jìn)行自適應(yīng)學(xué)習(xí),并緩解梯度消失問題。同樣采用此遞歸循環(huán)策略來進(jìn)行模型推理的還有MIM (Memory In Memory)[7] 、 E3D-LSTM(Eidetic 3D LSTM)[8]、MAU (Motion-Aware Unit)[9]、MotionRNN (Motion Recurrent Neural Network)[10] 等。這些遞歸模型通過學(xué)習(xí)歷史信息的隱藏狀態(tài)來生成預(yù)測幀,當(dāng)前幀的生成依賴于上一幀的預(yù)測幀。然而,隨著預(yù)測幀序列的長度增加,早期預(yù)測幀中的誤差會(huì)被逐步傳遞和累積,導(dǎo)致后續(xù)預(yù)測幀的質(zhì)量和準(zhǔn)確性逐漸下降。
近年來的方法中,SimVP(Simpler yet better Video Prediction)[11]打破了這種依靠循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)堆疊的單幀輸入單幀輸出架構(gòu)的局限性。該方法完全依賴卷積來建模時(shí)空相關(guān)性,采用多幀輸入多幀輸出(MIMO)的架構(gòu),將所有輸入一次性輸入到編碼器中,并從解碼器輸出所有預(yù)測幀。后續(xù)相關(guān)工作進(jìn)一步改進(jìn)了時(shí)間注意力單元(Temporal Attention Unit,TAU)[12],專注于幀內(nèi)和幀間相關(guān)性。朱俊宏等[13]也提出了一種卷積與內(nèi)卷算子結(jié)合的中間模塊,讓模型擁有多個(gè)不同大小的感受野,來提高模型的準(zhǔn)確性。李衛(wèi)軍等[14]通過建立門控時(shí)空注意力機(jī)制來學(xué)習(xí)時(shí)空變化特征,取得一定效果。雖然此類方法取得了一定研究進(jìn)展,但仍然存在一些需要改進(jìn)的問題。例如,此類方法都采用編碼器、翻譯器、解碼器結(jié)構(gòu),將高維的視頻序列通過卷積下采樣轉(zhuǎn)換為低維的潛在表示,再經(jīng)過翻譯器進(jìn)行時(shí)空的學(xué)習(xí),最后由解碼器完成對(duì)視頻序列的預(yù)測。此過程通過跨步卷積下采樣實(shí)現(xiàn)降維,會(huì)造成像素的丟失,導(dǎo)致圖像細(xì)節(jié)被忽略,從而導(dǎo)致預(yù)測幀細(xì)節(jié)不夠清晰的問題。其次,翻譯器在捕捉時(shí)空信息方面的不足是導(dǎo)致視頻預(yù)測效果不理想的關(guān)鍵因素。
針對(duì)以上問題,本文提出了基于邊緣增強(qiáng)和多尺度時(shí)空重組的視頻預(yù)測方法,具體貢獻(xiàn)如下:
(1)引入小波變換分離高低頻特征并實(shí)現(xiàn)下采樣操作,避免了卷積下采樣造成的像素信息丟失的問題,有效地保留了圖像的細(xì)節(jié)特征。
(2)設(shè)計(jì)了一種高頻邊緣增強(qiáng)模塊,通過一階 Sobel 卷積算子提取垂直和水平邊緣信息,并結(jié)合小核卷積對(duì)邊緣特征進(jìn)行精細(xì)化增強(qiáng)處理,提升模型對(duì)高頻信息中細(xì)節(jié)和紋理特征的敏感性。
(3)設(shè)計(jì)了一種多尺度時(shí)空重組模塊,采用不同尺度的卷積核對(duì)視頻的時(shí)空信息進(jìn)行提取,并通過交叉連接進(jìn)行交互式特征重組,強(qiáng)化了不同感受野下時(shí)空信息的融合能力,實(shí)現(xiàn)更豐富的時(shí)空特征表達(dá)。
本文詳細(xì)內(nèi)容請下載:
http://ihrv.cn/resource/share/2000006373
作者信息:
吳孔賢,鄭明魁
(福州大學(xué) 物理與信息工程學(xué)院,福建福州350108)