《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 人工智能 > 设计应用 > 基于多尺度特征融合和SAM引导的无人机小尺度目标检测
基于多尺度特征融合和SAM引导的无人机小尺度目标检测
网络安全与数据治理
钟嘉宇1,牛利玲2,任超1
1.四川大学电子信息学院; 2.四川航天电子设备研究所
摘要: 在无人机航拍中,因拍摄距离远、目标占比低,其线性尺度仅有十余像素且特征匮乏,导致检测性能显著下降。现有方法主要分为样本增强与多尺度感知,前者在航拍目标密集场景中易引入语义冲突,而后者在深层特征感知与全局建模上仍存在不足。为此,提出一种基于多尺度特征融合和SAM引导的小目标检测网络,通过设计包含小目标检测层的多尺度架构增强特征表达能力,融合空洞卷积与Transformer以扩大感受野并建模长程依赖,并引入SAM大模型的先验知识引导网络训练,从而提升对小目标特征的提取能力。实验表明,该方法在VisDroneDET2019上显著提升了小目标检测精度。
關(guān)鍵詞: 目标检测 特征提取 深度学习
中圖分類號(hào):TP391.4文獻(xiàn)標(biāo)志碼:ADOI:10.19358/j.issn.2097-1788.2026.03.004
中文引用格式:鐘嘉宇,牛利玲,任超. 基于多尺度特征融合和SAM引導(dǎo)的無人機(jī)小尺度目標(biāo)檢測(cè)[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,2026,45(3):24-32.
英文引用格式:Zhong Jiayu,Niu Liling,Ren Chao. UAV small-scale object detection based on multiscale feature fusion and SAM guidance[J].Cyber Security and Data Governance,2026,45(3):24-32.
UAV small-scale object detection based on multi-scale feature fusion and SAM guidance
Zhong Jiayu1,Niu Liling2,Ren Chao 1
1. College of Electronics and Information Engineering, Sichuan University; 2. Sichuan Aerospace Electronic Equipment Research Institute
Abstract: In UAV aerial images, the target objects to be detected are often only dozens of pixels in size due to long shooting distances and low target occupancy ratios, resulting in severe feature scarcity and a significant degradation in small object detection performance. Existing approaches primarily fall into two categories: sample augmentation and multiscale perception. The former tends to introduce semantic conflicts in dense aerial scenarios, while the latter remains inadequate in deep feature perception and global modeling. To address these limitations, this paper proposes a small object detection network based on multiscale feature fusion and SAMguided learning. Specifically, we design a multiscale architecture incorporating dedicated detection layers for small objects to enhance feature representation; integrate dilated convolutions with Transformers to enlarge the receptive field and model longrange dependencies; and leverage the prior knowledge of the Segment Anything Model (SAM) foundation model to guide network training, thereby improving the extraction of discriminative features for small objects. Experimental results demonstrate that our method significantly improves small object detection accuracy on the VisDroneDET2019 benchmark.
Key words : object detection; feature extraction; deep learning

引言

近年來,深度學(xué)習(xí)技術(shù)的快速發(fā)展顯著推動(dòng)了計(jì)算機(jī)視覺與智能感知領(lǐng)域的進(jìn)步,為遙感圖像的自動(dòng)化理解提供了強(qiáng)大的方法支撐。在此背景下,結(jié)合飛行控制與高分辨率成像技術(shù)的持續(xù)突破,無人機(jī)在遙感監(jiān)測(cè)中的應(yīng)用廣度與深度不斷拓展。依托其廣域覆蓋、靈活機(jī)動(dòng)與近地觀測(cè)等優(yōu)勢(shì),無人機(jī)系統(tǒng)已廣泛

服務(wù)于農(nóng)作物長(zhǎng)勢(shì)動(dòng)態(tài)監(jiān)測(cè)[1]、車輛檢測(cè)與軌跡分析[2]以及災(zāi)情快速勘察[3]等多樣化場(chǎng)景,將逐步發(fā)展為多行業(yè)實(shí)現(xiàn)高效、實(shí)時(shí)區(qū)域感知的核心技術(shù)手段。然而,在實(shí)際應(yīng)用中,尤其是在執(zhí)行低空飛行任務(wù)時(shí),無人機(jī)所獲取的圖像常面臨顯著的目標(biāo)檢測(cè)挑戰(zhàn):待識(shí)別目標(biāo)(如行人、車輛等)在圖像中通常呈現(xiàn)為小尺度目標(biāo),其邊界框尺度往往僅為數(shù)十像素,導(dǎo)致目標(biāo)特征信息不足、信噪比較低,顯著增加了檢測(cè)與識(shí)別的難度。針對(duì)這一挑戰(zhàn),研究者們從數(shù)據(jù)與模型兩個(gè)核心維度展開了系統(tǒng)性探索,主要形成了兩大技術(shù)路徑:樣本導(dǎo)向的方法與多尺度感知的方法。

基于小目標(biāo)在圖像中占比小、與錨點(diǎn)重疊度低的問題,研究者們探索樣本導(dǎo)向的方法,即通過人工合成或變換,在現(xiàn)有圖像中增加小目標(biāo)實(shí)例,解決小目標(biāo)稀缺問題。RRNet[4]引入自適應(yīng)重采樣數(shù)據(jù)增強(qiáng)策略,利用先驗(yàn)分割圖來引導(dǎo)小目標(biāo)粘貼位置。DSGAN[5]提出一種基于生成對(duì)抗網(wǎng)絡(luò)的小目標(biāo)檢測(cè)數(shù)據(jù)增強(qiáng)方法,其通過大目標(biāo)生成高質(zhì)量合成小目標(biāo),并結(jié)合分割等方法合理選擇位置粘貼。盡管上述樣本導(dǎo)向的數(shù)據(jù)增強(qiáng)方法在小目標(biāo)稀疏的訓(xùn)練數(shù)據(jù)中表現(xiàn)良好,但當(dāng)原始訓(xùn)練集本身已包含密集分布的小目標(biāo)時(shí),其基于復(fù)制粘貼的增強(qiáng)機(jī)制易加劇樣本中的目標(biāo)重疊、尺度失配與背景語義沖突,不僅難以提升數(shù)據(jù)多樣性,反而可能引入分布偏移與偽影干擾,導(dǎo)致模型訓(xùn)練不穩(wěn)定。

同時(shí),目標(biāo)尺度的顯著差異普遍存在:同一圖像中常同時(shí)出現(xiàn)遠(yuǎn)距離的小尺度目標(biāo)與近距離的大尺度目標(biāo)。這一特性對(duì)檢測(cè)模型的尺度適應(yīng)性提出了挑戰(zhàn),促使多尺度感知能力成為現(xiàn)代目標(biāo)檢測(cè)系統(tǒng)的核心設(shè)計(jì)要素。其中, FPN[6]首次系統(tǒng)性地將高層語義特征通過上采樣與低層高分辨率特征融合,在保持定位精度的同時(shí)增強(qiáng)特征語義信息,從而顯著緩解尺度變化帶來的性能下降問題,成為特征提取器的核心組件。隨后,一大批優(yōu)秀的多尺度特征融合方法涌現(xiàn)出來。PANet[7]在FPN 的自頂向下路徑基礎(chǔ)上增加了自底向上的路徑,實(shí)現(xiàn)雙向跨尺度特征融合。BiFPN[8]在PANet雙向特征融合基礎(chǔ)上,通過精簡(jiǎn)冗余連接和引入可學(xué)習(xí)的加權(quán)融合機(jī)制,實(shí)現(xiàn)了更低計(jì)算開銷的特征融合。SSPNet[9]通過上下文注意力模塊、尺度增強(qiáng)模塊和尺度選擇模塊協(xié)同優(yōu)化多尺度特征利用,并結(jié)合加權(quán)負(fù)采樣策略,顯著提升了微小行人檢測(cè)性能。SCRDet[10]通過采樣融合網(wǎng)絡(luò)提升多尺度小目標(biāo)感知能力,結(jié)合監(jiān)督像素注意力與通道注意力機(jī)制抑制背景干擾、強(qiáng)化目標(biāo)特征。FFCAYOLO[11]通過特征增強(qiáng)、多尺度融合與空間上下文感知三大模塊,在顯著提升遙感小目標(biāo)檢測(cè)精度與魯棒性的同時(shí)兼顧實(shí)時(shí)性。上述研究表明,合理融合多層特征,可有效緩解尺度變化帶來的性能下降。盡管如此,如何在多尺度分布下實(shí)現(xiàn)較好的檢測(cè)性能,仍需要進(jìn)一步探索。

近年來,以SAM[12]、DINO[13]為代表的視覺大模型,因其在海量數(shù)據(jù)上訓(xùn)練獲得的強(qiáng)大通用視覺表征與零樣本泛化能力,為解決上述問題提供了新的思路。其內(nèi)在的豐富語義信息,可為提升目標(biāo)檢測(cè),尤其是小目標(biāo)的檢測(cè)性能,提供寶貴的先驗(yàn)知識(shí)。為了進(jìn)一步提升模型對(duì)小尺度目標(biāo)的檢測(cè)能力,更有效地應(yīng)對(duì)航拍遙感圖像中因成像距離遠(yuǎn)、目標(biāo)占比低導(dǎo)致的特征弱化與易漏檢問題,本文提出了一種基于多尺度特征融合與SAM視覺特征引導(dǎo)的小目標(biāo)檢測(cè)網(wǎng)絡(luò)(MSGYOLO),其主要貢獻(xiàn)如下:

(1)針對(duì)小目標(biāo)檢測(cè)中多層次特征融合不足的問題,提出基于特征金字塔的多尺度檢測(cè)架構(gòu),通過引入小目標(biāo)檢測(cè)層,強(qiáng)化多尺度特征表達(dá)能力。

(2)針對(duì)深層特征感受野受限和全局上下文建模不足的問題,融合空洞融合模塊(Dilated Fuse Block, DFB)與Transformer模塊(Transformer Block, TFB),通過多分支空洞卷積擴(kuò)大感受野,并利用自注意力機(jī)制捕獲長(zhǎng)程依賴,提升復(fù)雜場(chǎng)景下小目標(biāo)的表征能力。

(3)針對(duì)網(wǎng)絡(luò)對(duì)小目標(biāo)特征提取不穩(wěn)健的問題,引入SAM視覺大模型的視覺先驗(yàn)知識(shí)作為引導(dǎo)信息,指導(dǎo)檢測(cè)網(wǎng)絡(luò)的訓(xùn)練過程。


本文詳細(xì)內(nèi)容請(qǐng)下載:

http://ihrv.cn/resource/share/2000007023


作者信息:

鐘嘉宇1,牛利玲2,任超1

(1.四川大學(xué)電子信息學(xué)院,四川成都610065;

2.四川航天電子設(shè)備研究所,四川成都610100)

2.jpg

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。