中文引用格式:鐘嘉宇,牛利玲,任超. 基于多尺度特征融合和SAM引導(dǎo)的無人機(jī)小尺度目標(biāo)檢測(cè)[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,2026,45(3):24-32.
英文引用格式:Zhong Jiayu,Niu Liling,Ren Chao. UAV small-scale object detection based on multiscale feature fusion and SAM guidance[J].Cyber Security and Data Governance,2026,45(3):24-32.
引言
近年來,深度學(xué)習(xí)技術(shù)的快速發(fā)展顯著推動(dòng)了計(jì)算機(jī)視覺與智能感知領(lǐng)域的進(jìn)步,為遙感圖像的自動(dòng)化理解提供了強(qiáng)大的方法支撐。在此背景下,結(jié)合飛行控制與高分辨率成像技術(shù)的持續(xù)突破,無人機(jī)在遙感監(jiān)測(cè)中的應(yīng)用廣度與深度不斷拓展。依托其廣域覆蓋、靈活機(jī)動(dòng)與近地觀測(cè)等優(yōu)勢(shì),無人機(jī)系統(tǒng)已廣泛
服務(wù)于農(nóng)作物長(zhǎng)勢(shì)動(dòng)態(tài)監(jiān)測(cè)[1]、車輛檢測(cè)與軌跡分析[2]以及災(zāi)情快速勘察[3]等多樣化場(chǎng)景,將逐步發(fā)展為多行業(yè)實(shí)現(xiàn)高效、實(shí)時(shí)區(qū)域感知的核心技術(shù)手段。然而,在實(shí)際應(yīng)用中,尤其是在執(zhí)行低空飛行任務(wù)時(shí),無人機(jī)所獲取的圖像常面臨顯著的目標(biāo)檢測(cè)挑戰(zhàn):待識(shí)別目標(biāo)(如行人、車輛等)在圖像中通常呈現(xiàn)為小尺度目標(biāo),其邊界框尺度往往僅為數(shù)十像素,導(dǎo)致目標(biāo)特征信息不足、信噪比較低,顯著增加了檢測(cè)與識(shí)別的難度。針對(duì)這一挑戰(zhàn),研究者們從數(shù)據(jù)與模型兩個(gè)核心維度展開了系統(tǒng)性探索,主要形成了兩大技術(shù)路徑:樣本導(dǎo)向的方法與多尺度感知的方法。
基于小目標(biāo)在圖像中占比小、與錨點(diǎn)重疊度低的問題,研究者們探索樣本導(dǎo)向的方法,即通過人工合成或變換,在現(xiàn)有圖像中增加小目標(biāo)實(shí)例,解決小目標(biāo)稀缺問題。RRNet[4]引入自適應(yīng)重采樣數(shù)據(jù)增強(qiáng)策略,利用先驗(yàn)分割圖來引導(dǎo)小目標(biāo)粘貼位置。DSGAN[5]提出一種基于生成對(duì)抗網(wǎng)絡(luò)的小目標(biāo)檢測(cè)數(shù)據(jù)增強(qiáng)方法,其通過大目標(biāo)生成高質(zhì)量合成小目標(biāo),并結(jié)合分割等方法合理選擇位置粘貼。盡管上述樣本導(dǎo)向的數(shù)據(jù)增強(qiáng)方法在小目標(biāo)稀疏的訓(xùn)練數(shù)據(jù)中表現(xiàn)良好,但當(dāng)原始訓(xùn)練集本身已包含密集分布的小目標(biāo)時(shí),其基于復(fù)制粘貼的增強(qiáng)機(jī)制易加劇樣本中的目標(biāo)重疊、尺度失配與背景語義沖突,不僅難以提升數(shù)據(jù)多樣性,反而可能引入分布偏移與偽影干擾,導(dǎo)致模型訓(xùn)練不穩(wěn)定。
同時(shí),目標(biāo)尺度的顯著差異普遍存在:同一圖像中常同時(shí)出現(xiàn)遠(yuǎn)距離的小尺度目標(biāo)與近距離的大尺度目標(biāo)。這一特性對(duì)檢測(cè)模型的尺度適應(yīng)性提出了挑戰(zhàn),促使多尺度感知能力成為現(xiàn)代目標(biāo)檢測(cè)系統(tǒng)的核心設(shè)計(jì)要素。其中, FPN[6]首次系統(tǒng)性地將高層語義特征通過上采樣與低層高分辨率特征融合,在保持定位精度的同時(shí)增強(qiáng)特征語義信息,從而顯著緩解尺度變化帶來的性能下降問題,成為特征提取器的核心組件。隨后,一大批優(yōu)秀的多尺度特征融合方法涌現(xiàn)出來。PANet[7]在FPN 的自頂向下路徑基礎(chǔ)上增加了自底向上的路徑,實(shí)現(xiàn)雙向跨尺度特征融合。BiFPN[8]在PANet雙向特征融合基礎(chǔ)上,通過精簡(jiǎn)冗余連接和引入可學(xué)習(xí)的加權(quán)融合機(jī)制,實(shí)現(xiàn)了更低計(jì)算開銷的特征融合。SSPNet[9]通過上下文注意力模塊、尺度增強(qiáng)模塊和尺度選擇模塊協(xié)同優(yōu)化多尺度特征利用,并結(jié)合加權(quán)負(fù)采樣策略,顯著提升了微小行人檢測(cè)性能。SCRDet[10]通過采樣融合網(wǎng)絡(luò)提升多尺度小目標(biāo)感知能力,結(jié)合監(jiān)督像素注意力與通道注意力機(jī)制抑制背景干擾、強(qiáng)化目標(biāo)特征。FFCAYOLO[11]通過特征增強(qiáng)、多尺度融合與空間上下文感知三大模塊,在顯著提升遙感小目標(biāo)檢測(cè)精度與魯棒性的同時(shí)兼顧實(shí)時(shí)性。上述研究表明,合理融合多層特征,可有效緩解尺度變化帶來的性能下降。盡管如此,如何在多尺度分布下實(shí)現(xiàn)較好的檢測(cè)性能,仍需要進(jìn)一步探索。
近年來,以SAM[12]、DINO[13]為代表的視覺大模型,因其在海量數(shù)據(jù)上訓(xùn)練獲得的強(qiáng)大通用視覺表征與零樣本泛化能力,為解決上述問題提供了新的思路。其內(nèi)在的豐富語義信息,可為提升目標(biāo)檢測(cè),尤其是小目標(biāo)的檢測(cè)性能,提供寶貴的先驗(yàn)知識(shí)。為了進(jìn)一步提升模型對(duì)小尺度目標(biāo)的檢測(cè)能力,更有效地應(yīng)對(duì)航拍遙感圖像中因成像距離遠(yuǎn)、目標(biāo)占比低導(dǎo)致的特征弱化與易漏檢問題,本文提出了一種基于多尺度特征融合與SAM視覺特征引導(dǎo)的小目標(biāo)檢測(cè)網(wǎng)絡(luò)(MSGYOLO),其主要貢獻(xiàn)如下:
(1)針對(duì)小目標(biāo)檢測(cè)中多層次特征融合不足的問題,提出基于特征金字塔的多尺度檢測(cè)架構(gòu),通過引入小目標(biāo)檢測(cè)層,強(qiáng)化多尺度特征表達(dá)能力。
(2)針對(duì)深層特征感受野受限和全局上下文建模不足的問題,融合空洞融合模塊(Dilated Fuse Block, DFB)與Transformer模塊(Transformer Block, TFB),通過多分支空洞卷積擴(kuò)大感受野,并利用自注意力機(jī)制捕獲長(zhǎng)程依賴,提升復(fù)雜場(chǎng)景下小目標(biāo)的表征能力。
(3)針對(duì)網(wǎng)絡(luò)對(duì)小目標(biāo)特征提取不穩(wěn)健的問題,引入SAM視覺大模型的視覺先驗(yàn)知識(shí)作為引導(dǎo)信息,指導(dǎo)檢測(cè)網(wǎng)絡(luò)的訓(xùn)練過程。
本文詳細(xì)內(nèi)容請(qǐng)下載:
http://ihrv.cn/resource/share/2000007023
作者信息:
鐘嘉宇1,牛利玲2,任超1
(1.四川大學(xué)電子信息學(xué)院,四川成都610065;
2.四川航天電子設(shè)備研究所,四川成都610100)

