《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 人工智能 > 设计应用 > 基于CNN-Transformer混合构架的轻量图像超分辨率方法
基于CNN-Transformer混合构架的轻量图像超分辨率方法
网络安全与数据治理
林承浩,吴丽君
福州大学物理与信息工程学院
摘要: 针对基于混合构架的图像超分模型通常需要较高计算成本的问题,提出了一种基于CNN-Transformer混合构架的轻量图像超分网络STSR(Swin Transformer based Single Image Super Resolution)。首先,提出了一种并行特征提取的特征增强模块(Feature Enhancement Block,FEB),由卷积神经网络(Convolutional Neural Network,CNN)和轻量型Transformer网络并行地对输入图像进行特征提取,再将提取到的特征进行特征融合。其次,设计了一种动态调整模块(Dynamic Adjustment,DA),使得网络能根据输入图像来动态调整网络的输出,减少网络对无关信息的依赖。最后,采用基准数据集来测试网络的性能,实验结果表明STSR在降低模型参数量的前提下仍然保持较好的重建效果。
中圖分類號(hào):TP391文獻(xiàn)標(biāo)識(shí)碼:ADOI:10.19358/j.issn.2097-1788.2024.03.005
引用格式:林承浩,吳麗君.基于CNN-Transformer混合構(gòu)架的輕量圖像超分辨率方法[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,2024,43(3):27-33.
A lightweight image super resolution method based on a hybrid CNN-Transformer architecture
Lin Chenghao, Wu Lijun
School of Physics and Information Engineering, Fuzhou University
Abstract: In order to address the problem that image super segmentation models based on hybrid architectures usually require high computational cost, this study proposes a lightweight image super segmentation network STSR (Swin Transformer based Single Image Super Resolution) based on a hybrid CNN-Transformer architecture. Firstly, this paper proposes a Feature Enhancement Block (FEB) for parallel feature extraction, which consists of a Convolutional Neural Network (CNN) and a lightweight Transformer Network to extract features from the input image in parallel, and then the extracted features are fused to the features. Secondly, this paper designs a Dynamic Adjustment (DA) module, which enables the network to dynamically adjust the output of the network according to the input image, reducing the network's dependence on irrelevant information. Finally, some benchmark datasets are used to test the performance of the network, and the experimental results show that STSR still maintains a better reconstruction effect under the premise of reducing the number of model parameters.
Key words : image superresolution; lightweighting; Convolutional Neural Network; Transformer

引言

圖像超分辨率(Super Resolution, SR)是一項(xiàng)被廣泛關(guān)注的計(jì)算機(jī)視覺(jué)任務(wù),其目的是從低分辨率(Low Resolution, LR)圖像中重建出高質(zhì)量的高分辨率(High Resolution, HR)圖像[1]。由于建出高質(zhì)量的高分辨率圖像具有不適定的性質(zhì),因此極具挑戰(zhàn)性[2]。隨著深度學(xué)習(xí)等新興技術(shù)的崛起,許多基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的方法被引入到圖像超分任務(wù)中[3-6]。SRCNN[3]首次將卷積神經(jīng)網(wǎng)絡(luò)引入到圖像超分任務(wù)中,用卷積神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)圖像的特征表示,并通過(guò)卷積層的堆疊來(lái)逐步提取更高級(jí)別的特征,使得重建出的圖像具有較高的質(zhì)量。在后續(xù)研究中,Kaiming He等人提出了殘差結(jié)構(gòu)ResNet[5],通過(guò)引入跳躍連接,允許梯度能夠跨越層進(jìn)行傳播,有助于減輕梯度消失的問(wèn)題,使得模型在較深的網(wǎng)絡(luò)情況下仍然能保持較好的性能。Bee Lim等人在EDSR[6]中也引入了殘差結(jié)構(gòu),EDSR實(shí)際上是SRResnet[7]的改進(jìn)版,去除了傳統(tǒng)殘差網(wǎng)絡(luò)中的BN層,在節(jié)省下來(lái)的空間中擴(kuò)展模型尺寸來(lái)增強(qiáng)表現(xiàn)力。RCAN[8]中提出了一種基于Residual in Residual結(jié)構(gòu)(RIR)和通道注意力機(jī)制(CA)的深度殘差網(wǎng)絡(luò)。雖然這些模型在當(dāng)時(shí)取得了較好的效果,但本質(zhì)上都是基于CNN網(wǎng)絡(luò)的模型,網(wǎng)絡(luò)中卷積核的大小會(huì)限制可以檢測(cè)的空間范圍,導(dǎo)致無(wú)法捕捉到長(zhǎng)距離的依賴關(guān)系,意味著它們只能提取到局部特征,無(wú)法獲取全局的信息,不利于紋理細(xì)節(jié)的恢復(fù),使得圖像重建的效果不佳[5]。


本文詳細(xì)內(nèi)容請(qǐng)下載:

http://ihrv.cn/resource/share/2000005931


作者信息:

林承浩,吳麗君

福州大學(xué)物理與信息工程學(xué)院,福建福州350108


雜志訂閱.jpg

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容