《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 人工智能 > 设计应用 > 基于自适应卷积和动态Transformer的红外与可见光图像融合
基于自适应卷积和动态Transformer的红外与可见光图像融合
电子技术应用
杨国荣,李鹏辉,赵皓阳,赵文彬
石家庄铁道大学 信息科学与技术学院
摘要: 在红外与可见光图像融合任务中,传统卷积网络多依赖固定卷积核,难以根据场景差异自适应提取跨模态特征,也难以兼顾局部纹理与全局语义关系。因此,提出一种结合自适应卷积和多尺度动态Transformer的融合方法。自适应卷积用于提升不同模态特征的空间对齐与互补信息交互能力;动态Transformer在此基础上强化远程依赖建模,同时抑制局部细节的退化,多尺度结构设计进一步广泛捕获多层次关键信息。解码器端到端生成融合图像,并结合像素、梯度与结构三元组损失进行优化。实验在TNO与RoadScene数据集上开展,对比六种主流方法,结果表明本方法在图像质量、信息保持与细节增强方面均取得优越性能,并在推理效率与性能稳定性方面取得良好平衡,能够有效兼顾红外目标的显著性与可见光纹理的保真。
中圖分類號:TP391.4 文獻(xiàn)標(biāo)志碼:A DOI: 10.16157/j.issn.0258-7998.257628
中文引用格式: 楊國榮,李鵬輝,趙皓陽,等. 基于自適應(yīng)卷積和動態(tài)Transformer的紅外與可見光圖像融合[J]. 電子技術(shù)應(yīng)用,2026,52(3):121-131.
英文引用格式: Yang Guorong,Li Penghui,Zhao Haoyang,et al. Infrared and visible image fusion based on adaptive convolution and dynamic Transformer[J]. Application of Electronic Technique,2026,52(3):121-131.
Infrared and visible image fusion based on adaptive convolution and dynamic Transformer
Yang Guorong,Li Penghui,Zhao Haoyang,Zhao Wenbin
School of Information Science and Technology, Shijiazhuang Tiedao University
Abstract: In infrared and visible image fusion, conventional convolutional networks typically rely on fixed convolution kernels, which restrict their ability to adaptively extract complementary cross-modal features and simultaneously model local textures and global semantic relationships. To address these limitations, we propose a fusion framework that integrates adaptive convolution with a multi-scale dynamic Transformer. Adaptive convolution enhances spatial alignment and interaction between heterogeneous modal features, while the dynamic Transformer further strengthens long-range dependency modeling and mitigates local detail degradation. In addition, the multi-scale architecture enables comprehensive extraction of critical information across hierarchical feature spaces. The decoder reconstructs the fused image in an end-to-end manner, optimized by a triplet loss comprising pixel consistency, gradient preservation, and structural maintenance. Extensive experiments conducted on the TNO and RoadScene datasets demonstrate that the proposed method achieves superior performance in visual quality, information retention, and detail enhancement compared with six representative approaches. Moreover, it provides a good balance between inference efficiency and performance stability, effectively preserving salient targets in infrared imagery while maintaining fine textures from visible images.
Key words : infrared and visible image fusion;adaptive convolution;dynamic Transformer;image fusion;multi-scale

引言

圖像融合(Image Fusion)屬于圖像增強(qiáng)的一種方法,其目標(biāo)是在多圖像中提取互補(bǔ)信息,獲得更完整的信息和語義的圖像,用于后續(xù)目標(biāo)檢測、夜間監(jiān)控、智能駕駛等任務(wù)[1]。在紅外與可見光圖像融合中,紅外圖像提供熱輻射圖像,可見光圖像提供豐富的紋理和細(xì)節(jié)信息,兩者融合可以獲得清晰的目標(biāo)和背景信息,在復(fù)雜背景下具有重要的應(yīng)用價值。

早期的紅外與可見光圖像融合研究主要在傳統(tǒng)方法上,例如多尺度變換[2]、稀疏表示[3]、子空間方法[4]以及混合模型[5]等,這類方法通過人工選擇分解方法和融合方法實(shí)現(xiàn)跨模態(tài)圖像信息的融合,存在特征利用率低、邊緣信息模糊、計(jì)算復(fù)雜、耗時高等缺點(diǎn),不適合大規(guī)模應(yīng)用。

伴隨著深度學(xué)習(xí)的興起,基于數(shù)據(jù)驅(qū)動的融合方法逐漸火熱。卷積神經(jīng)網(wǎng)絡(luò)(CNN)[6]是一種充分利用局部特征信息的深度學(xué)習(xí)方法,但固定感受野無法建模全局信息;生成對抗網(wǎng)絡(luò)(GAN)[7]能夠有效提升融合圖像的視覺效果,但訓(xùn)練不穩(wěn)定,且融合結(jié)果缺乏可解釋性;自編碼器(AE)與Transformer可建模全局信息,但Transformer對局部細(xì)節(jié)保留不足[8]。因此,針對多尺度特征利用、損失函數(shù)設(shè)計(jì)、噪聲敏感、局部全局特征權(quán)衡等問題仍然面臨諸多挑戰(zhàn)。

研究多從融合的質(zhì)量和穩(wěn)定性方面做出努力。2020年Ma等[9]提出通過雙路徑限制來對內(nèi)容和紋理進(jìn)行聯(lián)合優(yōu)化的雙鑒別器條件生成對抗網(wǎng)絡(luò)(DDcGAN);2022年Yi等[10]利用CNN和Transformer的互補(bǔ)優(yōu)勢,提出并行混合融合結(jié)構(gòu),在細(xì)節(jié)信息和全局依賴方面都取得了較好的表現(xiàn);2023年Zhao等[11]提出將去噪擴(kuò)散概率模型(DDPM)與融合任務(wù)相結(jié)合,將融合建模為條件生成任務(wù),提高了融合的穩(wěn)定性和質(zhì)量;Liu[12]等提出基于注意力引導(dǎo)的特征交互網(wǎng)絡(luò)(AWFGAN),提升跨模態(tài)特征對齊和選擇性融合的性能;Di等[13]提出多尺度殘差學(xué)習(xí)策略構(gòu)建FDNet,在提高推理性能的同時不損失細(xì)節(jié)紋理;Li等[14]利用圖神經(jīng)網(wǎng)絡(luò)(GNN)建??缒B(tài)關(guān)系,為圖像融合提供新的圖形結(jié)構(gòu)特征。

盡管上述方法取得一定的進(jìn)展,但仍然存在許多問題未解決,2022年Rao等[15]發(fā)現(xiàn)基于卷積的網(wǎng)絡(luò)對遠(yuǎn)距離依賴關(guān)系的學(xué)習(xí)能力差,在復(fù)雜的環(huán)境中無法保證語義一致性;2023年Ma等[16]的研究中發(fā)現(xiàn)不同模態(tài)特征間的對齊程度有限,難以充分利用跨模態(tài)互補(bǔ)信息。2025年Zhao等[17]發(fā)現(xiàn)Transformer雖全局建模能力強(qiáng),但會丟失紋理和邊緣結(jié)構(gòu),容易出現(xiàn)產(chǎn)生細(xì)節(jié)丟失的問題。這些問題在一定程度上影響了融合結(jié)果的視覺質(zhì)量與信息保真度。

在此背景下,本文提出了一種基于自適應(yīng)卷積與多尺度動態(tài)Transformer(Adaptive Convolution and Multi-scale Dynamic Transformer, AMDTF)的紅外與可見光圖像融合方法。單一神經(jīng)網(wǎng)絡(luò)可以實(shí)現(xiàn)較好的融合效果,但是容易在訓(xùn)練中丟失不同尺度的特征。因此,本文采用多尺度網(wǎng)絡(luò)結(jié)構(gòu),具有更強(qiáng)的特征提取能力和對跨尺度特征挖掘的能力。本文使用自適應(yīng)卷積(AC)和動態(tài)變換器(DTF)相結(jié)合的結(jié)構(gòu),使用CNN從源圖像中提取淺層特征,并使用DTF進(jìn)行長期互補(bǔ)建模,采用無監(jiān)督訓(xùn)練,利用三個部分損失(像素?fù)p失、梯度損失和結(jié)構(gòu)損失)來進(jìn)一步改進(jìn)融合圖像。融合方法為端到端模型,無需人工設(shè)定活動程度和融合策略,模型即能夠自動生成目標(biāo)明確、背景純凈的融合圖像,實(shí)現(xiàn)快速獲取融合圖像,提高融合效率的目的。文中對AMDTF與其他先進(jìn)方法進(jìn)行定量定性對比分析,證明了AMDTF優(yōu)于傳統(tǒng)方法。本文貢獻(xiàn)如下:

(1)提出自適應(yīng)卷積模塊(Adaptive Convolution,AC):采用全局上下文自適應(yīng)卷積模塊擬合紅外-可見光圖像,使得特征間能夠互相映射,降低特征不相似度帶來的圖像融合誤差。

(2)設(shè)計(jì)多尺度動態(tài)Transformer結(jié)構(gòu)(Dynamic Transformer Fusion, DTF):逐層進(jìn)行全局建模和局部特征互補(bǔ),兼顧全局的語義統(tǒng)一性和局部的保真性,提升融合圖像的質(zhì)量、穩(wěn)定性。

(3)多尺度互補(bǔ)信息機(jī)制與三元組損失優(yōu)化:充分利用不同尺度間的互補(bǔ)信息特性,同時以像素?fù)p失和梯度、結(jié)構(gòu)損失來改進(jìn)融合后的結(jié)果,細(xì)節(jié)、紋理和結(jié)構(gòu)均優(yōu)于已有方法。

(4)模型在TNO和RoadScene數(shù)據(jù)集上實(shí)驗(yàn)表明,最大化紅外目標(biāo)與保留可見光紋理是可行的,同時在效率與推理穩(wěn)定性方面表現(xiàn)突出。


本文詳細(xì)內(nèi)容請下載:

http://ihrv.cn/resource/share/2000007015


作者信息:

楊國榮,李鵬輝,趙皓陽,趙文彬

(石家莊鐵道大學(xué) 信息科學(xué)與技術(shù)學(xué)院,河北 石家莊 050043)

2.jpg

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。