文獻標(biāo)識碼: A
DOI: 10.19358/j.issn.2096-5133.2022.06.009
引用格式: 林志雄,吳麗君,陳志聰. 基于注意力機制的無監(jiān)督單目標(biāo)跟蹤算法[J].信息技術(shù)與網(wǎng)絡(luò)安全,2022,41(6):50-56.
0 引言
目標(biāo)跟蹤被廣泛應(yīng)用于視頻監(jiān)控和自動駕駛等領(lǐng)域。在給定視頻第一幀中目標(biāo)位置后,目標(biāo)跟蹤的任務(wù)是得到目標(biāo)在后續(xù)幀中的位置信息。在有遮擋、變形和背景混亂等場景下, 準(zhǔn)確有效地檢測和定位目標(biāo)仍然是個難點。
深度網(wǎng)絡(luò)由于可以加強特征表示,被廣泛用于視覺目標(biāo)跟蹤領(lǐng)域。TAO等人提出SINT網(wǎng)絡(luò)[1],首次利用孿生網(wǎng)絡(luò)提取特征,通過匹配初始目標(biāo)的外觀識別候選圖像位置,實現(xiàn)目標(biāo)跟蹤任務(wù);BERTINETTO等人提出SiamFC(Siamses Fully Convolution)網(wǎng)絡(luò)[2],使用離線訓(xùn)練的完全卷積孿生網(wǎng)絡(luò)作為跟蹤系統(tǒng)的基本網(wǎng)絡(luò),大大提高了跟蹤性能;LI等人[3]提出了SiamRPN網(wǎng)絡(luò),基于SiamFC網(wǎng)絡(luò)引入了區(qū)域提案網(wǎng)絡(luò)RPN模塊[4],讓跟蹤系統(tǒng)可以回歸位置、形狀,進一步提高性能并加速;在此之前,基于孿生網(wǎng)絡(luò)的跟蹤器往往使用較淺的網(wǎng)絡(luò),很大原因在于深層網(wǎng)絡(luò)的填充會破壞平移不變性,導(dǎo)致跟蹤性能下降。LI等人[5]提出在訓(xùn)練過程中引入位置均衡的采樣策略,來緩解網(wǎng)絡(luò)在訓(xùn)練過程中存在的位置偏見問題,進而在SiamRPN網(wǎng)絡(luò)基礎(chǔ)上用了ResNet網(wǎng)絡(luò)[6]作為主干網(wǎng)絡(luò),讓跟蹤模型性能不再受制于網(wǎng)絡(luò)的容量。
以上這些單目標(biāo)跟蹤模型都是屬于有監(jiān)督學(xué)習(xí),有監(jiān)督學(xué)習(xí)需要大量的有標(biāo)記數(shù)據(jù)集,但是手動標(biāo)記既昂貴又耗時。而互聯(lián)網(wǎng)上有大量的未標(biāo)記視頻可供使用,因此無監(jiān)督目標(biāo)跟蹤算法具有更好的實際應(yīng)用價值。WANG等人[7]提出了UDT(Unsupervised Deep Tracking)模型,通過將前向傳播和反向預(yù)測的結(jié)果進行一致性損失計算,實現(xiàn)在沒有標(biāo)簽的情況下同樣優(yōu)化模型。但在前向傳播過程中,跟蹤模型若預(yù)測的位置出錯,經(jīng)過反向修正后可能會再回到正確的位置,這就會導(dǎo)致前向傳播的錯誤預(yù)測沒有被懲罰,降低了模型跟蹤性能。為此,WANG等人又進一步提出UDT+模型[8],通過多幀驗證方法懲罰前向傳播的錯誤預(yù)測,提升位置預(yù)測的準(zhǔn)確性。
本文詳細內(nèi)容請下載:http://ihrv.cn/resource/share/2000004535
作者信息:
林志雄,吳麗君,陳志聰
(福州大學(xué) 物理與信息工程學(xué)院,福建 福州350108)