引用格式:及昕浩,彭玉青.基于深度注意力的融合全局和語(yǔ)義特征的圖像描述模型[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,2024,43(2):49-53.
引言
圖像描述[1-2]是一種使用自然語(yǔ)言描述圖像內(nèi)容的任務(wù),是一項(xiàng)涉及計(jì)算機(jī)視覺(jué)領(lǐng)域和自然語(yǔ)言處理領(lǐng)域的跨領(lǐng)域研究?jī)?nèi)容。目前大多數(shù)方法使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)編碼圖像以提取圖像特征,然后使用Transformer網(wǎng)絡(luò)結(jié)構(gòu)來(lái)解析圖像特征并生成描述語(yǔ)句。Pan等人[3]提出了XLinear注意力塊來(lái)捕獲單或多模態(tài)之間的二階相互作用,并將其集成到Transformer編碼器和解碼器中。Cornia等人[4]在Transformer編碼器和解碼器中設(shè)計(jì)了類(lèi)似網(wǎng)格的連接,以利用編碼器的低級(jí)和高級(jí)特征。多數(shù)研究者針對(duì)Transformer網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn),沒(méi)有關(guān)注CNN提取到的圖像特征其對(duì)應(yīng)的感受野是均勻的網(wǎng)格,難以明顯地關(guān)注圖像中對(duì)象內(nèi)容信息的問(wèn)題。此外Transformer模型中的注意力機(jī)制僅僅是隱式地計(jì)算單個(gè)區(qū)域和其他區(qū)域的相似性,無(wú)法捕捉長(zhǎng)距離的關(guān)系。
作者信息:
及昕浩,彭玉青
(河北工業(yè)大學(xué)人工智能與數(shù)據(jù)科學(xué)學(xué)院,天津300401)
文章下載地址:http://ihrv.cn/resource/share/2000005902