《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 其他 > 设计应用 > 基于单阶段GANs的文本生成图像模型
基于单阶段GANs的文本生成图像模型
信息技术与网络安全
胡 涛1,李金龙2
(1.中国科学技术大学 大数据学院,安徽 合肥230026; 2.中国科学技术大学 计算机科学与技术学院,安徽 合肥230026)
摘要: 针对目前生成以文本为条件的图像通常会遇到生成质量差、训练不稳定的问题,提出了通过单阶段生成对抗网络(GANs)生成高质量图像的模型。具体而言,在GANs的生成器中引入注意力机制生成细粒度的图像,同时通过在判别器中添加局部-全局语言表示,来精准地鉴别生成图像和真实图像;通过生成器和判别器之间的相互博弈,最终生成高质量图像。在基准数据集上的实验结果表明,与具有多阶段框架的最新模型相比,该模型生成的图像更加真实且取得了当前最高的IS值,能够较好地应用于通过文本描述生成图像的场景。
中圖分類號(hào): TP391
文獻(xiàn)標(biāo)識(shí)碼: A
DOI: 10.19358/j.issn.2096-5133.2021.06.009
引用格式: 胡濤,李金龍. 基于單階段GANs的文本生成圖像模型[J].信息技術(shù)與網(wǎng)絡(luò)安全,2021,40(6):50-55.
Text to image generation based on single-stage GANs
Hu Tao1,Li Jinlong2
(1.School of Data Science,University of Science and Technology of China,Hefei 230026,China; 2.School of Computer Science and Technology,University of Science and Technology of China,Hefei 230026,China)
Abstract: For the current generation of images conditioned on text usually encounters the problems of poor quality and unstable training, a model for generating high-quality images through single-stage generative adversarial networks (GANs) is proposed. Specifically, the attention mechanism is introduced into the generator to generate fine-grained images, also, local language is added to the discriminator to indicate accurate discrimination between the generated image and the real image. Finally, a high-quality image is generated through the mutual game of the generator and the discriminator. The experimental results on the benchmark dataset show that, compared with the latest model with a multi-stage framework, the image generated by the model is more realistic and achieves the highest IS value, which can be better applied to scenes that generate images through text descriptions.
Key words : text to image generation;generative adversarial networks;attention mechanism

0 引言

生成以給定文本描述為條件的高分辨率逼真的圖像,已成為計(jì)算機(jī)視覺(jué)(CV)和自然語(yǔ)言處理(NLP)中具有挑戰(zhàn)性的任務(wù)。該課題具有各種潛在的應(yīng)用,例如藝術(shù)創(chuàng)作、照片編輯和視頻游戲。

最近,由于生成對(duì)抗網(wǎng)絡(luò)(GANs)[1]在生成圖像中已經(jīng)取得了很好的效果,REEDS在2016年首次提出通過(guò)條件生成對(duì)抗網(wǎng)絡(luò)(cGANs)[2]從文字描述中生成合理的圖像[3];ZHANG H在2017年通過(guò)堆疊多個(gè)生成器和判別器提出StackGAN++[4]模型,首次生成256×256分辨率圖像。當(dāng)前,幾乎所有文本生成圖像模型都是基于StackGAN,這些模型有多對(duì)生成器和判別器,通過(guò)將文本嵌入和隨機(jī)噪聲輸入第一個(gè)生成器生成初始圖像,在后續(xù)的生成器中對(duì)初始圖像進(jìn)行細(xì)化最終生成高分辨率圖像。例如,AttnGAN[5]在每個(gè)生成器中引入了跨模態(tài)注意力機(jī)制,以幫助生成器更詳細(xì)地合成圖像;MirrorGAN[6]從生成的圖像中重新生成文本描述,以實(shí)現(xiàn)文本-圖像語(yǔ)義一致性;DM-GAN[7]引入了動(dòng)態(tài)記憶網(wǎng)絡(luò)[8]來(lái)解決堆疊結(jié)構(gòu)訓(xùn)練不穩(wěn)定的問(wèn)題。




本文詳細(xì)內(nèi)容請(qǐng)下載:http://ihrv.cn/resource/share/2000003600




作者信息:

胡  濤1,李金龍2

(1.中國(guó)科學(xué)技術(shù)大學(xué) 大數(shù)據(jù)學(xué)院,安徽 合肥230026;

2.中國(guó)科學(xué)技術(shù)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,安徽 合肥230026)


此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容