文獻(xiàn)標(biāo)識(shí)碼: A
DOI: 10.19358/j.issn.2096-5133.2021.06.009
引用格式: 胡濤,李金龍. 基于單階段GANs的文本生成圖像模型[J].信息技術(shù)與網(wǎng)絡(luò)安全,2021,40(6):50-55.
0 引言
生成以給定文本描述為條件的高分辨率逼真的圖像,已成為計(jì)算機(jī)視覺(CV)和自然語言處理(NLP)中具有挑戰(zhàn)性的任務(wù)。該課題具有各種潛在的應(yīng)用,例如藝術(shù)創(chuàng)作、照片編輯和視頻游戲。
最近,由于生成對(duì)抗網(wǎng)絡(luò)(GANs)[1]在生成圖像中已經(jīng)取得了很好的效果,REEDS在2016年首次提出通過條件生成對(duì)抗網(wǎng)絡(luò)(cGANs)[2]從文字描述中生成合理的圖像[3];ZHANG H在2017年通過堆疊多個(gè)生成器和判別器提出StackGAN++[4]模型,首次生成256×256分辨率圖像。當(dāng)前,幾乎所有文本生成圖像模型都是基于StackGAN,這些模型有多對(duì)生成器和判別器,通過將文本嵌入和隨機(jī)噪聲輸入第一個(gè)生成器生成初始圖像,在后續(xù)的生成器中對(duì)初始圖像進(jìn)行細(xì)化最終生成高分辨率圖像。例如,AttnGAN[5]在每個(gè)生成器中引入了跨模態(tài)注意力機(jī)制,以幫助生成器更詳細(xì)地合成圖像;MirrorGAN[6]從生成的圖像中重新生成文本描述,以實(shí)現(xiàn)文本-圖像語義一致性;DM-GAN[7]引入了動(dòng)態(tài)記憶網(wǎng)絡(luò)[8]來解決堆疊結(jié)構(gòu)訓(xùn)練不穩(wěn)定的問題。
本文詳細(xì)內(nèi)容請(qǐng)下載:http://ihrv.cn/resource/share/2000003600
作者信息:
胡 濤1,李金龍2
(1.中國科學(xué)技術(shù)大學(xué) 大數(shù)據(jù)學(xué)院,安徽 合肥230026;
2.中國科學(xué)技術(shù)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,安徽 合肥230026)