中文引用格式: 楊國榮,李鵬輝,趙皓陽,等. 基于自適應卷積和動態(tài)Transformer的紅外與可見光圖像融合[J]. 電子技術應用,2026,52(3):121-131.
英文引用格式: Yang Guorong,Li Penghui,Zhao Haoyang,et al. Infrared and visible image fusion based on adaptive convolution and dynamic Transformer[J]. Application of Electronic Technique,2026,52(3):121-131.
引言
圖像融合(Image Fusion)屬于圖像增強的一種方法,其目標是在多圖像中提取互補信息,獲得更完整的信息和語義的圖像,用于后續(xù)目標檢測、夜間監(jiān)控、智能駕駛等任務[1]。在紅外與可見光圖像融合中,紅外圖像提供熱輻射圖像,可見光圖像提供豐富的紋理和細節(jié)信息,兩者融合可以獲得清晰的目標和背景信息,在復雜背景下具有重要的應用價值。
早期的紅外與可見光圖像融合研究主要在傳統(tǒng)方法上,例如多尺度變換[2]、稀疏表示[3]、子空間方法[4]以及混合模型[5]等,這類方法通過人工選擇分解方法和融合方法實現(xiàn)跨模態(tài)圖像信息的融合,存在特征利用率低、邊緣信息模糊、計算復雜、耗時高等缺點,不適合大規(guī)模應用。
伴隨著深度學習的興起,基于數(shù)據(jù)驅動的融合方法逐漸火熱。卷積神經(jīng)網(wǎng)絡(CNN)[6]是一種充分利用局部特征信息的深度學習方法,但固定感受野無法建模全局信息;生成對抗網(wǎng)絡(GAN)[7]能夠有效提升融合圖像的視覺效果,但訓練不穩(wěn)定,且融合結果缺乏可解釋性;自編碼器(AE)與Transformer可建模全局信息,但Transformer對局部細節(jié)保留不足[8]。因此,針對多尺度特征利用、損失函數(shù)設計、噪聲敏感、局部全局特征權衡等問題仍然面臨諸多挑戰(zhàn)。
研究多從融合的質量和穩(wěn)定性方面做出努力。2020年Ma等[9]提出通過雙路徑限制來對內容和紋理進行聯(lián)合優(yōu)化的雙鑒別器條件生成對抗網(wǎng)絡(DDcGAN);2022年Yi等[10]利用CNN和Transformer的互補優(yōu)勢,提出并行混合融合結構,在細節(jié)信息和全局依賴方面都取得了較好的表現(xiàn);2023年Zhao等[11]提出將去噪擴散概率模型(DDPM)與融合任務相結合,將融合建模為條件生成任務,提高了融合的穩(wěn)定性和質量;Liu[12]等提出基于注意力引導的特征交互網(wǎng)絡(AWFGAN),提升跨模態(tài)特征對齊和選擇性融合的性能;Di等[13]提出多尺度殘差學習策略構建FDNet,在提高推理性能的同時不損失細節(jié)紋理;Li等[14]利用圖神經(jīng)網(wǎng)絡(GNN)建??缒B(tài)關系,為圖像融合提供新的圖形結構特征。
盡管上述方法取得一定的進展,但仍然存在許多問題未解決,2022年Rao等[15]發(fā)現(xiàn)基于卷積的網(wǎng)絡對遠距離依賴關系的學習能力差,在復雜的環(huán)境中無法保證語義一致性;2023年Ma等[16]的研究中發(fā)現(xiàn)不同模態(tài)特征間的對齊程度有限,難以充分利用跨模態(tài)互補信息。2025年Zhao等[17]發(fā)現(xiàn)Transformer雖全局建模能力強,但會丟失紋理和邊緣結構,容易出現(xiàn)產(chǎn)生細節(jié)丟失的問題。這些問題在一定程度上影響了融合結果的視覺質量與信息保真度。
在此背景下,本文提出了一種基于自適應卷積與多尺度動態(tài)Transformer(Adaptive Convolution and Multi-scale Dynamic Transformer, AMDTF)的紅外與可見光圖像融合方法。單一神經(jīng)網(wǎng)絡可以實現(xiàn)較好的融合效果,但是容易在訓練中丟失不同尺度的特征。因此,本文采用多尺度網(wǎng)絡結構,具有更強的特征提取能力和對跨尺度特征挖掘的能力。本文使用自適應卷積(AC)和動態(tài)變換器(DTF)相結合的結構,使用CNN從源圖像中提取淺層特征,并使用DTF進行長期互補建模,采用無監(jiān)督訓練,利用三個部分損失(像素損失、梯度損失和結構損失)來進一步改進融合圖像。融合方法為端到端模型,無需人工設定活動程度和融合策略,模型即能夠自動生成目標明確、背景純凈的融合圖像,實現(xiàn)快速獲取融合圖像,提高融合效率的目的。文中對AMDTF與其他先進方法進行定量定性對比分析,證明了AMDTF優(yōu)于傳統(tǒng)方法。本文貢獻如下:
(1)提出自適應卷積模塊(Adaptive Convolution,AC):采用全局上下文自適應卷積模塊擬合紅外-可見光圖像,使得特征間能夠互相映射,降低特征不相似度帶來的圖像融合誤差。
(2)設計多尺度動態(tài)Transformer結構(Dynamic Transformer Fusion, DTF):逐層進行全局建模和局部特征互補,兼顧全局的語義統(tǒng)一性和局部的保真性,提升融合圖像的質量、穩(wěn)定性。
(3)多尺度互補信息機制與三元組損失優(yōu)化:充分利用不同尺度間的互補信息特性,同時以像素損失和梯度、結構損失來改進融合后的結果,細節(jié)、紋理和結構均優(yōu)于已有方法。
(4)模型在TNO和RoadScene數(shù)據(jù)集上實驗表明,最大化紅外目標與保留可見光紋理是可行的,同時在效率與推理穩(wěn)定性方面表現(xiàn)突出。
本文詳細內容請下載:
http://ihrv.cn/resource/share/2000007015
作者信息:
楊國榮,李鵬輝,趙皓陽,趙文彬
(石家莊鐵道大學 信息科學與技術學院,河北 石家莊 050043)

