中文引用格式:鐘嘉宇,牛利玲,任超. 基于多尺度特征融合和SAM引導(dǎo)的無人機小尺度目標(biāo)檢測[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,2026,45(3):24-32.
英文引用格式:Zhong Jiayu,Niu Liling,Ren Chao. UAV small-scale object detection based on multiscale feature fusion and SAM guidance[J].Cyber Security and Data Governance,2026,45(3):24-32.
引言
近年來,深度學(xué)習(xí)技術(shù)的快速發(fā)展顯著推動了計算機視覺與智能感知領(lǐng)域的進(jìn)步,為遙感圖像的自動化理解提供了強大的方法支撐。在此背景下,結(jié)合飛行控制與高分辨率成像技術(shù)的持續(xù)突破,無人機在遙感監(jiān)測中的應(yīng)用廣度與深度不斷拓展。依托其廣域覆蓋、靈活機動與近地觀測等優(yōu)勢,無人機系統(tǒng)已廣泛
服務(wù)于農(nóng)作物長勢動態(tài)監(jiān)測[1]、車輛檢測與軌跡分析[2]以及災(zāi)情快速勘察[3]等多樣化場景,將逐步發(fā)展為多行業(yè)實現(xiàn)高效、實時區(qū)域感知的核心技術(shù)手段。然而,在實際應(yīng)用中,尤其是在執(zhí)行低空飛行任務(wù)時,無人機所獲取的圖像常面臨顯著的目標(biāo)檢測挑戰(zhàn):待識別目標(biāo)(如行人、車輛等)在圖像中通常呈現(xiàn)為小尺度目標(biāo),其邊界框尺度往往僅為數(shù)十像素,導(dǎo)致目標(biāo)特征信息不足、信噪比較低,顯著增加了檢測與識別的難度。針對這一挑戰(zhàn),研究者們從數(shù)據(jù)與模型兩個核心維度展開了系統(tǒng)性探索,主要形成了兩大技術(shù)路徑:樣本導(dǎo)向的方法與多尺度感知的方法。
基于小目標(biāo)在圖像中占比小、與錨點重疊度低的問題,研究者們探索樣本導(dǎo)向的方法,即通過人工合成或變換,在現(xiàn)有圖像中增加小目標(biāo)實例,解決小目標(biāo)稀缺問題。RRNet[4]引入自適應(yīng)重采樣數(shù)據(jù)增強策略,利用先驗分割圖來引導(dǎo)小目標(biāo)粘貼位置。DSGAN[5]提出一種基于生成對抗網(wǎng)絡(luò)的小目標(biāo)檢測數(shù)據(jù)增強方法,其通過大目標(biāo)生成高質(zhì)量合成小目標(biāo),并結(jié)合分割等方法合理選擇位置粘貼。盡管上述樣本導(dǎo)向的數(shù)據(jù)增強方法在小目標(biāo)稀疏的訓(xùn)練數(shù)據(jù)中表現(xiàn)良好,但當(dāng)原始訓(xùn)練集本身已包含密集分布的小目標(biāo)時,其基于復(fù)制粘貼的增強機制易加劇樣本中的目標(biāo)重疊、尺度失配與背景語義沖突,不僅難以提升數(shù)據(jù)多樣性,反而可能引入分布偏移與偽影干擾,導(dǎo)致模型訓(xùn)練不穩(wěn)定。
同時,目標(biāo)尺度的顯著差異普遍存在:同一圖像中常同時出現(xiàn)遠(yuǎn)距離的小尺度目標(biāo)與近距離的大尺度目標(biāo)。這一特性對檢測模型的尺度適應(yīng)性提出了挑戰(zhàn),促使多尺度感知能力成為現(xiàn)代目標(biāo)檢測系統(tǒng)的核心設(shè)計要素。其中, FPN[6]首次系統(tǒng)性地將高層語義特征通過上采樣與低層高分辨率特征融合,在保持定位精度的同時增強特征語義信息,從而顯著緩解尺度變化帶來的性能下降問題,成為特征提取器的核心組件。隨后,一大批優(yōu)秀的多尺度特征融合方法涌現(xiàn)出來。PANet[7]在FPN 的自頂向下路徑基礎(chǔ)上增加了自底向上的路徑,實現(xiàn)雙向跨尺度特征融合。BiFPN[8]在PANet雙向特征融合基礎(chǔ)上,通過精簡冗余連接和引入可學(xué)習(xí)的加權(quán)融合機制,實現(xiàn)了更低計算開銷的特征融合。SSPNet[9]通過上下文注意力模塊、尺度增強模塊和尺度選擇模塊協(xié)同優(yōu)化多尺度特征利用,并結(jié)合加權(quán)負(fù)采樣策略,顯著提升了微小行人檢測性能。SCRDet[10]通過采樣融合網(wǎng)絡(luò)提升多尺度小目標(biāo)感知能力,結(jié)合監(jiān)督像素注意力與通道注意力機制抑制背景干擾、強化目標(biāo)特征。FFCAYOLO[11]通過特征增強、多尺度融合與空間上下文感知三大模塊,在顯著提升遙感小目標(biāo)檢測精度與魯棒性的同時兼顧實時性。上述研究表明,合理融合多層特征,可有效緩解尺度變化帶來的性能下降。盡管如此,如何在多尺度分布下實現(xiàn)較好的檢測性能,仍需要進(jìn)一步探索。
近年來,以SAM[12]、DINO[13]為代表的視覺大模型,因其在海量數(shù)據(jù)上訓(xùn)練獲得的強大通用視覺表征與零樣本泛化能力,為解決上述問題提供了新的思路。其內(nèi)在的豐富語義信息,可為提升目標(biāo)檢測,尤其是小目標(biāo)的檢測性能,提供寶貴的先驗知識。為了進(jìn)一步提升模型對小尺度目標(biāo)的檢測能力,更有效地應(yīng)對航拍遙感圖像中因成像距離遠(yuǎn)、目標(biāo)占比低導(dǎo)致的特征弱化與易漏檢問題,本文提出了一種基于多尺度特征融合與SAM視覺特征引導(dǎo)的小目標(biāo)檢測網(wǎng)絡(luò)(MSGYOLO),其主要貢獻(xiàn)如下:
(1)針對小目標(biāo)檢測中多層次特征融合不足的問題,提出基于特征金字塔的多尺度檢測架構(gòu),通過引入小目標(biāo)檢測層,強化多尺度特征表達(dá)能力。
(2)針對深層特征感受野受限和全局上下文建模不足的問題,融合空洞融合模塊(Dilated Fuse Block, DFB)與Transformer模塊(Transformer Block, TFB),通過多分支空洞卷積擴大感受野,并利用自注意力機制捕獲長程依賴,提升復(fù)雜場景下小目標(biāo)的表征能力。
(3)針對網(wǎng)絡(luò)對小目標(biāo)特征提取不穩(wěn)健的問題,引入SAM視覺大模型的視覺先驗知識作為引導(dǎo)信息,指導(dǎo)檢測網(wǎng)絡(luò)的訓(xùn)練過程。
本文詳細(xì)內(nèi)容請下載:
http://ihrv.cn/resource/share/2000007023
作者信息:
鐘嘉宇1,牛利玲2,任超1
(1.四川大學(xué)電子信息學(xué)院,四川成都610065;
2.四川航天電子設(shè)備研究所,四川成都610100)

