文獻(xiàn)標(biāo)識(shí)碼: A
DOI: 10.19358/j.issn.2097-1788.2022.06.011
引用格式: 賈亞敏,陳姣,彭玉青. 融合對(duì)象和多尺度視覺(jué)特征的遙感圖像描述模型[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,2022,41(6):78-83,89.
0 引言
圖像描述是旨在從語(yǔ)義層面上對(duì)圖像進(jìn)行總結(jié)。遙感圖像是利用遙感技術(shù)從高空獲取的圖像,遙感圖像描述(Remote Sensing Image Caption,RSIC)是上述兩個(gè)領(lǐng)域的結(jié)合,旨在為指定的遙感圖像生成綜合性的文本描述,在交通指揮、地理研究等領(lǐng)域[1]具有廣泛的應(yīng)用前景,已成為新興的研究熱點(diǎn)。遙感圖像描述的實(shí)現(xiàn)最初沿用了圖像描述的編碼器-解碼器模型[2],隨后提出了許多模型來(lái)解決不同的問(wèn)題,多數(shù)研究使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)作為編碼器提取圖像特征,但CNN卷積層的輸出特征所對(duì)應(yīng)的感受野都是大小和形狀相同的均勻網(wǎng)格,因此僅利用CNN提取的圖像特征容量有限,難以識(shí)別圖像中的微小物體,且由于拍攝角度問(wèn)題,遙感圖像中存在一些多義和易混淆物體,不易區(qū)分。
為解決上述問(wèn)題且適應(yīng)遙感圖像場(chǎng)景多尺度的特點(diǎn),本文提出了融合對(duì)象和多尺度視覺(jué)特征的遙感圖像描述模型(Fusion of Object and Multiscale Visual Feature,F(xiàn)O-MSV)。該模型構(gòu)建對(duì)象提取器(Object Extractor,OE)利用指針生成網(wǎng)絡(luò)[3]得到的整合描述提取對(duì)象信息以避免遺漏微小物體。同時(shí)提出了一種新的多尺度交互模塊(Multiscale Interaction Module,MSCM)來(lái)獲取圖像的多尺度視覺(jué)特征適應(yīng)多尺度的特點(diǎn)。此外,設(shè)計(jì)一種新的對(duì)象-視覺(jué)融合機(jī)制(Object-Visual Fusion Mechanism,ovFM)來(lái)利用對(duì)象信息并融合多尺度視覺(jué)信息避免出現(xiàn)識(shí)別對(duì)象錯(cuò)誤的問(wèn)題,且改善了長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long Short Term Networks,LSTM)的結(jié)構(gòu),稱為多輸入LSTM(Multi-Input LSTM,I_LSTM)。
本文詳細(xì)內(nèi)容請(qǐng)下載:http://ihrv.cn/resource/share/2000005064
作者信息:
賈亞敏,陳 姣,彭玉青
(河北工業(yè)大學(xué) 人工智能與數(shù)據(jù)科學(xué)學(xué)院,天津300401)