123,123

基于多尺度特征融合和SAM引导的无人机小尺度目标检测

网络安全与数据治理

钟嘉宇1，牛利玲2，任超1

1.四川大学电子信息学院； 2.四川航天电子设备研究所

摘要： 在无人机航拍中，因拍摄距离远、目标占比低，其线性尺度仅有十余像素且特征匮乏，导致检测性能显著下降。现有方法主要分为样本增强与多尺度感知，前者在航拍目标密集场景中易引入语义冲突，而后者在深层特征感知与全局建模上仍存在不足。为此，提出一种基于多尺度特征融合和SAM引导的小目标检测网络，通过设计包含小目标检测层的多尺度架构增强特征表达能力，融合空洞卷积与Transformer以扩大感受野并建模长程依赖，并引入SAM大模型的先验知识引导网络训练，从而提升对小目标特征的提取能力。实验表明，该方法在VisDroneDET2019上显著提升了小目标检测精度。

關(guān)鍵詞： 目标检测特征提取深度学习

中圖分類號：TP391.4文獻(xiàn)標(biāo)志碼：ADOI:10.19358/j.issn.2097-1788.2026.03.004
中文引用格式：鐘嘉宇，牛利玲，任超. 基于多尺度特征融合和SAM引導(dǎo)的無人機小尺度目標(biāo)檢測［J］.網(wǎng)絡(luò)安全與數(shù)據(jù)治理，2026，45（3）：24-32.
英文引用格式：Zhong Jiayu，Niu Liling，Ren Chao. UAV small-scale object detection based on multiscale feature fusion and SAM guidance［J］.Cyber Security and Data Governance，2026，45（3）：24-32.

UAV small-scale object detection based on multi-scale feature fusion and SAM guidance

Zhong Jiayu1，Niu Liling2，Ren Chao 1

1. College of Electronics and Information Engineering, Sichuan University; 2. Sichuan Aerospace Electronic Equipment Research Institute

Abstract： In UAV aerial images, the target objects to be detected are often only dozens of pixels in size due to long shooting distances and low target occupancy ratios, resulting in severe feature scarcity and a significant degradation in small object detection performance. Existing approaches primarily fall into two categories: sample augmentation and multiscale perception. The former tends to introduce semantic conflicts in dense aerial scenarios, while the latter remains inadequate in deep feature perception and global modeling. To address these limitations, this paper proposes a small object detection network based on multiscale feature fusion and SAMguided learning. Specifically, we design a multiscale architecture incorporating dedicated detection layers for small objects to enhance feature representation; integrate dilated convolutions with Transformers to enlarge the receptive field and model longrange dependencies; and leverage the prior knowledge of the Segment Anything Model (SAM) foundation model to guide network training, thereby improving the extraction of discriminative features for small objects. Experimental results demonstrate that our method significantly improves small object detection accuracy on the VisDroneDET2019 benchmark.

Key words : object detection; feature extraction; deep learning

引言

近年來，深度學(xué)習(xí)技術(shù)的快速發(fā)展顯著推動了計算機視覺與智能感知領(lǐng)域的進(jìn)步，為遙感圖像的自動化理解提供了強大的方法支撐。在此背景下，結(jié)合飛行控制與高分辨率成像技術(shù)的持續(xù)突破，無人機在遙感監(jiān)測中的應(yīng)用廣度與深度不斷拓展。依托其廣域覆蓋、靈活機動與近地觀測等優(yōu)勢，無人機系統(tǒng)已廣泛

服務(wù)于農(nóng)作物長勢動態(tài)監(jiān)測［1］、車輛檢測與軌跡分析［2］以及災(zāi)情快速勘察［3］等多樣化場景，將逐步發(fā)展為多行業(yè)實現(xiàn)高效、實時區(qū)域感知的核心技術(shù)手段。然而，在實際應(yīng)用中，尤其是在執(zhí)行低空飛行任務(wù)時，無人機所獲取的圖像常面臨顯著的目標(biāo)檢測挑戰(zhàn)：待識別目標(biāo)(如行人、車輛等)在圖像中通常呈現(xiàn)為小尺度目標(biāo)，其邊界框尺度往往僅為數(shù)十像素，導(dǎo)致目標(biāo)特征信息不足、信噪比較低，顯著增加了檢測與識別的難度。針對這一挑戰(zhàn)，研究者們從數(shù)據(jù)與模型兩個核心維度展開了系統(tǒng)性探索，主要形成了兩大技術(shù)路徑：樣本導(dǎo)向的方法與多尺度感知的方法。

基于小目標(biāo)在圖像中占比小、與錨點重疊度低的問題，研究者們探索樣本導(dǎo)向的方法，即通過人工合成或變換，在現(xiàn)有圖像中增加小目標(biāo)實例，解決小目標(biāo)稀缺問題。RRNet［4］引入自適應(yīng)重采樣數(shù)據(jù)增強策略，利用先驗分割圖來引導(dǎo)小目標(biāo)粘貼位置。DSGAN［5］提出一種基于生成對抗網(wǎng)絡(luò)的小目標(biāo)檢測數(shù)據(jù)增強方法，其通過大目標(biāo)生成高質(zhì)量合成小目標(biāo)，并結(jié)合分割等方法合理選擇位置粘貼。盡管上述樣本導(dǎo)向的數(shù)據(jù)增強方法在小目標(biāo)稀疏的訓(xùn)練數(shù)據(jù)中表現(xiàn)良好，但當(dāng)原始訓(xùn)練集本身已包含密集分布的小目標(biāo)時，其基于復(fù)制粘貼的增強機制易加劇樣本中的目標(biāo)重疊、尺度失配與背景語義沖突，不僅難以提升數(shù)據(jù)多樣性，反而可能引入分布偏移與偽影干擾，導(dǎo)致模型訓(xùn)練不穩(wěn)定。

同時，目標(biāo)尺度的顯著差異普遍存在：同一圖像中常同時出現(xiàn)遠(yuǎn)距離的小尺度目標(biāo)與近距離的大尺度目標(biāo)。這一特性對檢測模型的尺度適應(yīng)性提出了挑戰(zhàn)，促使多尺度感知能力成為現(xiàn)代目標(biāo)檢測系統(tǒng)的核心設(shè)計要素。其中， FPN［6］首次系統(tǒng)性地將高層語義特征通過上采樣與低層高分辨率特征融合，在保持定位精度的同時增強特征語義信息，從而顯著緩解尺度變化帶來的性能下降問題，成為特征提取器的核心組件。隨后，一大批優(yōu)秀的多尺度特征融合方法涌現(xiàn)出來。PANet［7］在FPN 的自頂向下路徑基礎(chǔ)上增加了自底向上的路徑，實現(xiàn)雙向跨尺度特征融合。BiFPN［8］在PANet雙向特征融合基礎(chǔ)上，通過精簡冗余連接和引入可學(xué)習(xí)的加權(quán)融合機制，實現(xiàn)了更低計算開銷的特征融合。SSPNet［9］通過上下文注意力模塊、尺度增強模塊和尺度選擇模塊協(xié)同優(yōu)化多尺度特征利用，并結(jié)合加權(quán)負(fù)采樣策略，顯著提升了微小行人檢測性能。SCRDet［10］通過采樣融合網(wǎng)絡(luò)提升多尺度小目標(biāo)感知能力，結(jié)合監(jiān)督像素注意力與通道注意力機制抑制背景干擾、強化目標(biāo)特征。FFCAYOLO［11］通過特征增強、多尺度融合與空間上下文感知三大模塊，在顯著提升遙感小目標(biāo)檢測精度與魯棒性的同時兼顧實時性。上述研究表明，合理融合多層特征，可有效緩解尺度變化帶來的性能下降。盡管如此，如何在多尺度分布下實現(xiàn)較好的檢測性能，仍需要進(jìn)一步探索。

近年來，以SAM［12］、DINO［13］為代表的視覺大模型，因其在海量數(shù)據(jù)上訓(xùn)練獲得的強大通用視覺表征與零樣本泛化能力，為解決上述問題提供了新的思路。其內(nèi)在的豐富語義信息，可為提升目標(biāo)檢測，尤其是小目標(biāo)的檢測性能，提供寶貴的先驗知識。為了進(jìn)一步提升模型對小尺度目標(biāo)的檢測能力，更有效地應(yīng)對航拍遙感圖像中因成像距離遠(yuǎn)、目標(biāo)占比低導(dǎo)致的特征弱化與易漏檢問題，本文提出了一種基于多尺度特征融合與SAM視覺特征引導(dǎo)的小目標(biāo)檢測網(wǎng)絡(luò)(MSGYOLO)，其主要貢獻(xiàn)如下：

(1)針對小目標(biāo)檢測中多層次特征融合不足的問題，提出基于特征金字塔的多尺度檢測架構(gòu)，通過引入小目標(biāo)檢測層，強化多尺度特征表達(dá)能力。

(2)針對深層特征感受野受限和全局上下文建模不足的問題，融合空洞融合模塊(Dilated Fuse Block， DFB)與Transformer模塊(Transformer Block， TFB)，通過多分支空洞卷積擴大感受野，并利用自注意力機制捕獲長程依賴，提升復(fù)雜場景下小目標(biāo)的表征能力。

(3)針對網(wǎng)絡(luò)對小目標(biāo)特征提取不穩(wěn)健的問題，引入SAM視覺大模型的視覺先驗知識作為引導(dǎo)信息，指導(dǎo)檢測網(wǎng)絡(luò)的訓(xùn)練過程。

本文詳細(xì)內(nèi)容請下載：

http://ihrv.cn/resource/share/2000007023

作者信息：

鐘嘉宇1，牛利玲2，任超1

(1.四川大學(xué)電子信息學(xué)院，四川成都610065；

2.四川航天電子設(shè)備研究所，四川成都610100)

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容