中文引用格式: 王立喜,劉云平,湯琴琴,等. 基于Transformer殘差網(wǎng)絡(luò)的事件重建算法[J]. 電子技術(shù)應(yīng)用,2024,50(11):28-34.
英文引用格式: Wang Lixi,Liu Yunping,Tang Qinqin,et al. Event reconstruction algorithm based on Transformer residual network[J]. Application of Electronic Technique,2024,50(11):28-34.
引言
在過去的十年里,由于現(xiàn)代深度學習方法和神經(jīng)體系結(jié)構(gòu)優(yōu)化,計算機視覺領(lǐng)域在許多不同的任務(wù)中取得了驚人的進步。但與生物系統(tǒng)相比,目前的人工視覺系統(tǒng)仍然無法處理一些涉及高速運動場景和高動態(tài)范圍的真實世界場景。這是因為傳統(tǒng)的基于幀的傳感器存在諸如運動模糊和低動態(tài)范圍等問題。事件相機具有消除上述問題的能力。它輸出異步像素且彼此獨立工作[1]。每個像素對局部相對光強度變化很敏感,當這種變化超過閾值時,它們會連續(xù)產(chǎn)生稱為事件的信號。因其高動態(tài)范圍、高時間分辨率和低延遲的優(yōu)勢,事件數(shù)據(jù)已越來越多地被納入各種識別任務(wù)中,包括目標檢測[2]、語義分割[3]等。此外,事件數(shù)據(jù)還被用于需要高速感知的挑戰(zhàn)性機器人應(yīng)用中,例如能夠捕捉對象的四足機器人[4]和能夠避開動態(tài)障礙物的撲翼機器人[5]。
盡管事件相機具有令人滿意的特性,但不能像處理強度圖像那樣直接處理事件流,而高質(zhì)量的強度圖像是理解視覺數(shù)據(jù)的最自然的方式。因此,從事件中重建強度圖像一直是基于事件的視覺研究的基石。重建高質(zhì)量強度圖像的另一個好處是可以立即將成功的基于幀的計算機視覺方法應(yīng)用于重建結(jié)果,以解決各種任務(wù)。
目前基于事件相機的圖像重建分為兩類:基于濾波的傳統(tǒng)方法和基于深度學習的方法?;跒V波的方法是通過對事件數(shù)據(jù)進行濾波處理來還原圖像序列,包括中值濾波和高斯濾波[6],但這些方法在處理復雜或動態(tài)場景的圖像時易失效。最近,基于深度學習的方法在基于事件的視頻重建任務(wù)中取得了顯著成果,為行人檢測和行人動作識別[7]等工作做出貢獻。Rebecq等[8]提出了一種新穎的遞歸網(wǎng)絡(luò)(E2VID)用于從大量事件中重建視頻,這是一種直接處理事件的端到端網(wǎng)絡(luò)。Cadena等[9]提出了一種基于條件生成對抗網(wǎng)絡(luò)的重建方法,將事件流數(shù)據(jù)用不同的表達方式來生成不同的灰度圖像。由于僅當像素的強度發(fā)生變化時才會異步生成事件,因此生成的事件體素柵格是稀疏張量,僅包含場景中變化部分的信息。這些體素柵格的稀疏性也非常不同。這使得神經(jīng)網(wǎng)絡(luò)很難適應(yīng)新的數(shù)據(jù),并導致包含模糊、低對比度或涂抹偽影的問題。同時這些算法有初始化時間,此過程需要20到30幀,且第一幀的質(zhì)量很差。
綜上所述,本文提出了一種基于Transformer殘差模塊的自監(jiān)督重建算法,將光流估計與事件重建結(jié)合共同訓練學習實現(xiàn)自監(jiān)督重建。本文的創(chuàng)新在于使用聯(lián)合訓練獲取高質(zhì)量的初始幀并提高對特征的長期相關(guān)性學習能力,有效捕捉視頻上下幀的時空關(guān)聯(lián)特征。同時設(shè)計去噪預處理與亞像素上采樣操作模塊,抑制噪聲,減少信息損失,共同提高重建質(zhì)量。實驗結(jié)果表明,在公開數(shù)據(jù)集上本文方法可以有效提高事件流的重建效果。
本文詳細內(nèi)容請下載:
http://ihrv.cn/resource/share/2000006206
作者信息:
王立喜1,劉云平1,湯琴琴2,李家豪1
(1.南京信息工程大學 自動化學院,江蘇 南京 210016;
2.無錫學院 軌道交通學院, 江蘇 無錫 214015)