基于深度注意力的融合全局和语义特征的图像描述模型
网络安全与数据治理
及昕浩,彭玉青
(河北工业大学人工智能与数据科学学院,天津300401)
摘要: 现有的图像描述模型使用全局特征时受限于感受野大小相同,而基于对象区域的图像特征缺少背景信息。为此,提出了一种新的语义提取模块提取图像中的语义特征,使用多特征融合模块将全局特征与语义特征进行融合,使得模型同时关注图像的关键对象内容信息和背景信息。并提出基于深度注意力的解码模块,对齐视觉和文本特征以生成更高质量的图像描述语句。所提模型在Microsoft COCO数据集上进行了实验评估,分析结果表明该方法能够明显提升描述的性能,相较于其他先进模型具有竞争力。
中圖分類號:TP391文獻標識碼:ADOI: 10.19358/j.issn.2097-1788.2024.02.008
引用格式:及昕浩,彭玉青.基于深度注意力的融合全局和語義特征的圖像描述模型[J].網絡安全與數(shù)據(jù)治理,2024,43(2):49-53.
引用格式:及昕浩,彭玉青.基于深度注意力的融合全局和語義特征的圖像描述模型[J].網絡安全與數(shù)據(jù)治理,2024,43(2):49-53.
Deep attention based image caption model with fusion of global and semantic feature
Ji Xinhao,Peng Yuqing
(School of Artificial Intelligence, Hebei University of Technology, Tianjin 300401,China)
Abstract: Aiming at the problems that existing image caption generation models face limitations when utilizing global features due to the fixed receptive field size, and object region based image features lack background information, an image caption model(DFGS) is proposed. A multifeature fusion module is designed to fuse global and semantic feature, allowing the model to focus on key object and background information in the image. A deep attentionbased decoding module is designed to align visual and textual features, enhancing the generation of higher quality image description statements. Experimental results on MSCOCO dataset show that the proposed model can produce more accurate captions, and is competitive compared with other advanced models.
Key words : image caption; global feature; semantic feature; feature fusion
引言
圖像描述[1-2]是一種使用自然語言描述圖像內容的任務,是一項涉及計算機視覺領域和自然語言處理領域的跨領域研究內容。目前大多數(shù)方法使用卷積神經網絡(Convolutional Neural Network, CNN)編碼圖像以提取圖像特征,然后使用Transformer網絡結構來解析圖像特征并生成描述語句。Pan等人[3]提出了XLinear注意力塊來捕獲單或多模態(tài)之間的二階相互作用,并將其集成到Transformer編碼器和解碼器中。Cornia等人[4]在Transformer編碼器和解碼器中設計了類似網格的連接,以利用編碼器的低級和高級特征。多數(shù)研究者針對Transformer網絡結構進行改進,沒有關注CNN提取到的圖像特征其對應的感受野是均勻的網格,難以明顯地關注圖像中對象內容信息的問題。此外Transformer模型中的注意力機制僅僅是隱式地計算單個區(qū)域和其他區(qū)域的相似性,無法捕捉長距離的關系。
作者信息:
及昕浩,彭玉青
(河北工業(yè)大學人工智能與數(shù)據(jù)科學學院,天津300401)
文章下載地址:http://ihrv.cn/resource/share/2000005902

此內容為AET網站原創(chuàng),未經授權禁止轉載。
