123,123,123

基于自适应卷积和动态Transformer的红外与可见光图像融合

电子技术应用

杨国荣，李鹏辉，赵皓阳，赵文彬

石家庄铁道大学信息科学与技术学院

摘要： 在红外与可见光图像融合任务中，传统卷积网络多依赖固定卷积核，难以根据场景差异自适应提取跨模态特征，也难以兼顾局部纹理与全局语义关系。因此，提出一种结合自适应卷积和多尺度动态Transformer的融合方法。自适应卷积用于提升不同模态特征的空间对齐与互补信息交互能力；动态Transformer在此基础上强化远程依赖建模，同时抑制局部细节的退化，多尺度结构设计进一步广泛捕获多层次关键信息。解码器端到端生成融合图像，并结合像素、梯度与结构三元组损失进行优化。实验在TNO与RoadScene数据集上开展，对比六种主流方法，结果表明本方法在图像质量、信息保持与细节增强方面均取得优越性能，并在推理效率与性能稳定性方面取得良好平衡，能够有效兼顾红外目标的显著性与可见光纹理的保真。

關鍵詞： 红外光与可见光图像自适应卷积动态Transformer 图像融合多尺度

中圖分類號：TP391.4 文獻標志碼：A DOI: 10.16157/j.issn.0258-7998.257628
中文引用格式： 楊國榮，李鵬輝，趙皓陽，等. 基于自適應卷積和動態(tài)Transformer的紅外與可見光圖像融合[J]. 電子技術應用，2026，52(3)：121-131.
英文引用格式： Yang Guorong，Li Penghui，Zhao Haoyang，et al. Infrared and visible image fusion based on adaptive convolution and dynamic Transformer[J]. Application of Electronic Technique，2026，52(3)：121-131.

Infrared and visible image fusion based on adaptive convolution and dynamic Transformer

Yang Guorong，Li Penghui，Zhao Haoyang，Zhao Wenbin

School of Information Science and Technology， Shijiazhuang Tiedao University

Abstract： In infrared and visible image fusion, conventional convolutional networks typically rely on fixed convolution kernels, which restrict their ability to adaptively extract complementary cross-modal features and simultaneously model local textures and global semantic relationships. To address these limitations, we propose a fusion framework that integrates adaptive convolution with a multi-scale dynamic Transformer. Adaptive convolution enhances spatial alignment and interaction between heterogeneous modal features, while the dynamic Transformer further strengthens long-range dependency modeling and mitigates local detail degradation. In addition, the multi-scale architecture enables comprehensive extraction of critical information across hierarchical feature spaces. The decoder reconstructs the fused image in an end-to-end manner, optimized by a triplet loss comprising pixel consistency, gradient preservation, and structural maintenance. Extensive experiments conducted on the TNO and RoadScene datasets demonstrate that the proposed method achieves superior performance in visual quality, information retention, and detail enhancement compared with six representative approaches. Moreover, it provides a good balance between inference efficiency and performance stability, effectively preserving salient targets in infrared imagery while maintaining fine textures from visible images.

Key words : infrared and visible image fusion；adaptive convolution；dynamic Transformer；image fusion；multi-scale

引言

圖像融合(Image Fusion)屬于圖像增強的一種方法，其目標是在多圖像中提取互補信息，獲得更完整的信息和語義的圖像，用于后續(xù)目標檢測、夜間監(jiān)控、智能駕駛等任務[1]。在紅外與可見光圖像融合中，紅外圖像提供熱輻射圖像，可見光圖像提供豐富的紋理和細節(jié)信息，兩者融合可以獲得清晰的目標和背景信息，在復雜背景下具有重要的應用價值。

早期的紅外與可見光圖像融合研究主要在傳統(tǒng)方法上，例如多尺度變換[2]、稀疏表示[3]、子空間方法[4]以及混合模型[5]等，這類方法通過人工選擇分解方法和融合方法實現(xiàn)跨模態(tài)圖像信息的融合，存在特征利用率低、邊緣信息模糊、計算復雜、耗時高等缺點，不適合大規(guī)模應用。

伴隨著深度學習的興起，基于數(shù)據(jù)驅動的融合方法逐漸火熱。卷積神經(jīng)網(wǎng)絡（CNN）[6]是一種充分利用局部特征信息的深度學習方法，但固定感受野無法建模全局信息；生成對抗網(wǎng)絡（GAN）[7]能夠有效提升融合圖像的視覺效果，但訓練不穩(wěn)定，且融合結果缺乏可解釋性；自編碼器（AE）與Transformer可建模全局信息，但Transformer對局部細節(jié)保留不足[8]。因此，針對多尺度特征利用、損失函數(shù)設計、噪聲敏感、局部全局特征權衡等問題仍然面臨諸多挑戰(zhàn)。

研究多從融合的質量和穩(wěn)定性方面做出努力。2020年Ma等[9]提出通過雙路徑限制來對內容和紋理進行聯(lián)合優(yōu)化的雙鑒別器條件生成對抗網(wǎng)絡(DDcGAN)；2022年Yi等[10]利用CNN和Transformer的互補優(yōu)勢，提出并行混合融合結構，在細節(jié)信息和全局依賴方面都取得了較好的表現(xiàn)；2023年Zhao等[11]提出將去噪擴散概率模型(DDPM)與融合任務相結合，將融合建模為條件生成任務，提高了融合的穩(wěn)定性和質量；Liu[12]等提出基于注意力引導的特征交互網(wǎng)絡(AWFGAN)，提升跨模態(tài)特征對齊和選擇性融合的性能；Di等[13]提出多尺度殘差學習策略構建FDNet，在提高推理性能的同時不損失細節(jié)紋理；Li等[14]利用圖神經(jīng)網(wǎng)絡(GNN)建?？缒B(tài)關系，為圖像融合提供新的圖形結構特征。

盡管上述方法取得一定的進展，但仍然存在許多問題未解決，2022年Rao等[15]發(fā)現(xiàn)基于卷積的網(wǎng)絡對遠距離依賴關系的學習能力差，在復雜的環(huán)境中無法保證語義一致性；2023年Ma等[16]的研究中發(fā)現(xiàn)不同模態(tài)特征間的對齊程度有限，難以充分利用跨模態(tài)互補信息。2025年Zhao等[17]發(fā)現(xiàn)Transformer雖全局建模能力強，但會丟失紋理和邊緣結構，容易出現(xiàn)產(chǎn)生細節(jié)丟失的問題。這些問題在一定程度上影響了融合結果的視覺質量與信息保真度。

在此背景下，本文提出了一種基于自適應卷積與多尺度動態(tài)Transformer（Adaptive Convolution and Multi-scale Dynamic Transformer, AMDTF）的紅外與可見光圖像融合方法。單一神經(jīng)網(wǎng)絡可以實現(xiàn)較好的融合效果，但是容易在訓練中丟失不同尺度的特征。因此，本文采用多尺度網(wǎng)絡結構，具有更強的特征提取能力和對跨尺度特征挖掘的能力。本文使用自適應卷積（AC）和動態(tài)變換器（DTF）相結合的結構，使用CNN從源圖像中提取淺層特征，并使用DTF進行長期互補建模，采用無監(jiān)督訓練，利用三個部分損失（像素損失、梯度損失和結構損失）來進一步改進融合圖像。融合方法為端到端模型，無需人工設定活動程度和融合策略，模型即能夠自動生成目標明確、背景純凈的融合圖像，實現(xiàn)快速獲取融合圖像，提高融合效率的目的。文中對AMDTF與其他先進方法進行定量定性對比分析，證明了AMDTF優(yōu)于傳統(tǒng)方法。本文貢獻如下：

（1）提出自適應卷積模塊（Adaptive Convolution，AC）：采用全局上下文自適應卷積模塊擬合紅外-可見光圖像，使得特征間能夠互相映射，降低特征不相似度帶來的圖像融合誤差。

（2）設計多尺度動態(tài)Transformer結構（Dynamic Transformer Fusion, DTF）：逐層進行全局建模和局部特征互補，兼顧全局的語義統(tǒng)一性和局部的保真性，提升融合圖像的質量、穩(wěn)定性。

（3）多尺度互補信息機制與三元組損失優(yōu)化：充分利用不同尺度間的互補信息特性，同時以像素損失和梯度、結構損失來改進融合后的結果，細節(jié)、紋理和結構均優(yōu)于已有方法。

（4）模型在TNO和RoadScene數(shù)據(jù)集上實驗表明，最大化紅外目標與保留可見光紋理是可行的，同時在效率與推理穩(wěn)定性方面表現(xiàn)突出。

本文詳細內容請下載：

http://ihrv.cn/resource/share/2000007015

作者信息：

楊國榮，李鵬輝，趙皓陽，趙文彬

（石家莊鐵道大學信息科學與技術學院，河北石家莊 050043）

原創(chuàng)聲明：此內容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權禁止轉載。

相關內容