中文引用格式: 安鶴男,管聰,鄧武才,等. 基于YOLOX融合自注意力機(jī)制的FSA-FPN重構(gòu)方法[J]. 電子技術(shù)應(yīng)用,2023,49(3):61-66.
英文引用格式: An Henan,Guan Cong,Deng Wucai,et al. FSA-FPN reconstruction method that fused self-attention mechanism based on YOLOX[J]. Application of Electronic Technique,2023,49(3):61-66.
0 引言
目標(biāo)檢測(cè)是致力于解決確定圖像中所需物體類別并標(biāo)識(shí)出物體具體位置的一類任務(wù)。自從以卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)為代表的深度學(xué)習(xí)技術(shù)在多個(gè)領(lǐng)域取得突破性成功后,基于CNN的目標(biāo)檢測(cè)方法也憑著卷積運(yùn)算的特性做到對(duì)圖像特征信息的深層次提取,從而達(dá)到較為優(yōu)秀的檢測(cè)性能。目前主流目標(biāo)檢測(cè)任務(wù)大多還是分為兩類,分別是以Faster-RCNN[1]為代表的雙階段檢測(cè)與以YOLO和SSD為代表的單階段檢測(cè)算法,它們都以CNN作為特征提取核心。FPN(Feature Pyramid Network)是自頂向下的一種特征融合方式,通過(guò)將不同尺寸的特征信息進(jìn)行融合,對(duì)不同尺寸的物體檢測(cè)均有較為出色的適應(yīng)性。整體來(lái)說(shuō),CNN受制于其卷積層的大小,感受野有限,所以更多地是對(duì)局部特征的提取。
Transformer開(kāi)創(chuàng)了自注意力機(jī)制(Self-attention)的先河,在全局特征的提取上有著CNN無(wú)法比擬的優(yōu)勢(shì)。而現(xiàn)在的目標(biāo)檢測(cè)算法大部分還是以CNN為主要特征提取手段,雖然也有以ViT、Swin-Transformer等以Self-attention為特征提取核心的目標(biāo)檢測(cè)算法,但是其計(jì)算量巨大,且實(shí)際落地受到硬件設(shè)施、計(jì)算資源的限制,通用性不如Faster-RCNN和YOLOv3、SSD等以CNN為特征提取核心的目標(biāo)檢測(cè)算法。
本文對(duì)Conformer提出的一種CNN分支與Transformer分支互相彌補(bǔ)語(yǔ)義差距、 消除特征錯(cuò)位的方法做出改進(jìn),并結(jié)合Darknet-53的結(jié)構(gòu),在其FPN的特征融合過(guò)程中引入自注意力機(jī)制,設(shè)計(jì)了SAU(Self-Attention Upsample)模塊,通過(guò)對(duì)特征圖進(jìn)行重新編碼以對(duì)齊自注意力輸入的特征維度,同時(shí)設(shè)計(jì)多次的自注意力計(jì)算與上下層之間的聯(lián)動(dòng)結(jié)合,提出的FSA-FPN在融合不同尺寸物體的特征時(shí)同時(shí)也注重了自身全局信息的特征提取以提升其整體檢測(cè)效果,在需要更高精度的檢測(cè)場(chǎng)景下有更大的使用價(jià)值。
本文詳細(xì)內(nèi)容請(qǐng)下載:http://ihrv.cn/resource/share/2000005230
作者信息:
安鶴男1,管聰2,鄧武才1,楊佳洲2,馬超2
(1.深圳大學(xué) 電子與信息工程學(xué)院,廣東 深圳 518000;2.深圳大學(xué) 微納光電子學(xué)研究院,廣東 深圳 518000)