中文引用格式: 楊國榮,李鵬輝,趙皓陽,等. 基于自適應(yīng)卷積和動態(tài)Transformer的紅外與可見光圖像融合[J]. 電子技術(shù)應(yīng)用,2026,52(3):121-131.
英文引用格式: Yang Guorong,Li Penghui,Zhao Haoyang,et al. Infrared and visible image fusion based on adaptive convolution and dynamic Transformer[J]. Application of Electronic Technique,2026,52(3):121-131.
引言
圖像融合(Image Fusion)屬于圖像增強(qiáng)的一種方法,其目標(biāo)是在多圖像中提取互補(bǔ)信息,獲得更完整的信息和語義的圖像,用于后續(xù)目標(biāo)檢測、夜間監(jiān)控、智能駕駛等任務(wù)[1]。在紅外與可見光圖像融合中,紅外圖像提供熱輻射圖像,可見光圖像提供豐富的紋理和細(xì)節(jié)信息,兩者融合可以獲得清晰的目標(biāo)和背景信息,在復(fù)雜背景下具有重要的應(yīng)用價值。
早期的紅外與可見光圖像融合研究主要在傳統(tǒng)方法上,例如多尺度變換[2]、稀疏表示[3]、子空間方法[4]以及混合模型[5]等,這類方法通過人工選擇分解方法和融合方法實(shí)現(xiàn)跨模態(tài)圖像信息的融合,存在特征利用率低、邊緣信息模糊、計(jì)算復(fù)雜、耗時高等缺點(diǎn),不適合大規(guī)模應(yīng)用。
伴隨著深度學(xué)習(xí)的興起,基于數(shù)據(jù)驅(qū)動的融合方法逐漸火熱。卷積神經(jīng)網(wǎng)絡(luò)(CNN)[6]是一種充分利用局部特征信息的深度學(xué)習(xí)方法,但固定感受野無法建模全局信息;生成對抗網(wǎng)絡(luò)(GAN)[7]能夠有效提升融合圖像的視覺效果,但訓(xùn)練不穩(wěn)定,且融合結(jié)果缺乏可解釋性;自編碼器(AE)與Transformer可建模全局信息,但Transformer對局部細(xì)節(jié)保留不足[8]。因此,針對多尺度特征利用、損失函數(shù)設(shè)計(jì)、噪聲敏感、局部全局特征權(quán)衡等問題仍然面臨諸多挑戰(zhàn)。
研究多從融合的質(zhì)量和穩(wěn)定性方面做出努力。2020年Ma等[9]提出通過雙路徑限制來對內(nèi)容和紋理進(jìn)行聯(lián)合優(yōu)化的雙鑒別器條件生成對抗網(wǎng)絡(luò)(DDcGAN);2022年Yi等[10]利用CNN和Transformer的互補(bǔ)優(yōu)勢,提出并行混合融合結(jié)構(gòu),在細(xì)節(jié)信息和全局依賴方面都取得了較好的表現(xiàn);2023年Zhao等[11]提出將去噪擴(kuò)散概率模型(DDPM)與融合任務(wù)相結(jié)合,將融合建模為條件生成任務(wù),提高了融合的穩(wěn)定性和質(zhì)量;Liu[12]等提出基于注意力引導(dǎo)的特征交互網(wǎng)絡(luò)(AWFGAN),提升跨模態(tài)特征對齊和選擇性融合的性能;Di等[13]提出多尺度殘差學(xué)習(xí)策略構(gòu)建FDNet,在提高推理性能的同時不損失細(xì)節(jié)紋理;Li等[14]利用圖神經(jīng)網(wǎng)絡(luò)(GNN)建??缒B(tài)關(guān)系,為圖像融合提供新的圖形結(jié)構(gòu)特征。
盡管上述方法取得一定的進(jìn)展,但仍然存在許多問題未解決,2022年Rao等[15]發(fā)現(xiàn)基于卷積的網(wǎng)絡(luò)對遠(yuǎn)距離依賴關(guān)系的學(xué)習(xí)能力差,在復(fù)雜的環(huán)境中無法保證語義一致性;2023年Ma等[16]的研究中發(fā)現(xiàn)不同模態(tài)特征間的對齊程度有限,難以充分利用跨模態(tài)互補(bǔ)信息。2025年Zhao等[17]發(fā)現(xiàn)Transformer雖全局建模能力強(qiáng),但會丟失紋理和邊緣結(jié)構(gòu),容易出現(xiàn)產(chǎn)生細(xì)節(jié)丟失的問題。這些問題在一定程度上影響了融合結(jié)果的視覺質(zhì)量與信息保真度。
在此背景下,本文提出了一種基于自適應(yīng)卷積與多尺度動態(tài)Transformer(Adaptive Convolution and Multi-scale Dynamic Transformer, AMDTF)的紅外與可見光圖像融合方法。單一神經(jīng)網(wǎng)絡(luò)可以實(shí)現(xiàn)較好的融合效果,但是容易在訓(xùn)練中丟失不同尺度的特征。因此,本文采用多尺度網(wǎng)絡(luò)結(jié)構(gòu),具有更強(qiáng)的特征提取能力和對跨尺度特征挖掘的能力。本文使用自適應(yīng)卷積(AC)和動態(tài)變換器(DTF)相結(jié)合的結(jié)構(gòu),使用CNN從源圖像中提取淺層特征,并使用DTF進(jìn)行長期互補(bǔ)建模,采用無監(jiān)督訓(xùn)練,利用三個部分損失(像素?fù)p失、梯度損失和結(jié)構(gòu)損失)來進(jìn)一步改進(jìn)融合圖像。融合方法為端到端模型,無需人工設(shè)定活動程度和融合策略,模型即能夠自動生成目標(biāo)明確、背景純凈的融合圖像,實(shí)現(xiàn)快速獲取融合圖像,提高融合效率的目的。文中對AMDTF與其他先進(jìn)方法進(jìn)行定量定性對比分析,證明了AMDTF優(yōu)于傳統(tǒng)方法。本文貢獻(xiàn)如下:
(1)提出自適應(yīng)卷積模塊(Adaptive Convolution,AC):采用全局上下文自適應(yīng)卷積模塊擬合紅外-可見光圖像,使得特征間能夠互相映射,降低特征不相似度帶來的圖像融合誤差。
(2)設(shè)計(jì)多尺度動態(tài)Transformer結(jié)構(gòu)(Dynamic Transformer Fusion, DTF):逐層進(jìn)行全局建模和局部特征互補(bǔ),兼顧全局的語義統(tǒng)一性和局部的保真性,提升融合圖像的質(zhì)量、穩(wěn)定性。
(3)多尺度互補(bǔ)信息機(jī)制與三元組損失優(yōu)化:充分利用不同尺度間的互補(bǔ)信息特性,同時以像素?fù)p失和梯度、結(jié)構(gòu)損失來改進(jìn)融合后的結(jié)果,細(xì)節(jié)、紋理和結(jié)構(gòu)均優(yōu)于已有方法。
(4)模型在TNO和RoadScene數(shù)據(jù)集上實(shí)驗(yàn)表明,最大化紅外目標(biāo)與保留可見光紋理是可行的,同時在效率與推理穩(wěn)定性方面表現(xiàn)突出。
本文詳細(xì)內(nèi)容請下載:
http://ihrv.cn/resource/share/2000007015
作者信息:
楊國榮,李鵬輝,趙皓陽,趙文彬
(石家莊鐵道大學(xué) 信息科學(xué)與技術(shù)學(xué)院,河北 石家莊 050043)

