《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 人工智能 > 設(shè)計(jì)應(yīng)用 > 復(fù)雜景觀圖像的語(yǔ)義多狀態(tài)圖像風(fēng)格遷移
復(fù)雜景觀圖像的語(yǔ)義多狀態(tài)圖像風(fēng)格遷移
電子技術(shù)應(yīng)用
桑晨浩,莫路鋒,屠國(guó)青
浙江農(nóng)林大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院
摘要: 復(fù)雜景觀圖像包含具有不同特征的各種對(duì)象,傳統(tǒng)的風(fēng)格遷移方法無(wú)法在同一圖像中對(duì)不同對(duì)象進(jìn)行局部風(fēng)格遷移。CycleGAN可以通過(guò)偽監(jiān)督策略在沒(méi)有配對(duì)樣本的情況下實(shí)現(xiàn)風(fēng)格遷移。但是CycleGAN無(wú)法實(shí)現(xiàn)對(duì)復(fù)雜風(fēng)景圖像中不同類(lèi)別對(duì)象的風(fēng)格遷移;同時(shí)CycleGAN在復(fù)雜場(chǎng)景中的泛化能力不足且復(fù)雜度高。因此,提出了一種基于語(yǔ)義類(lèi)別的復(fù)雜風(fēng)景多狀態(tài)圖像生成方法,即語(yǔ)義類(lèi)別風(fēng)格遷移(Semantic Category Style Transfer,SCST),能夠有效地結(jié)合局部特征實(shí)現(xiàn)復(fù)雜風(fēng)景的圖像生成。同時(shí)提出了上下文感知的風(fēng)格遷移模型GCycleGAN。實(shí)驗(yàn)結(jié)果表明本文提出的GCycleGAN的性能優(yōu)于CycleGAN、DualGAN和Munit等基于深度學(xué)習(xí)的圖像生成模型。
中圖分類(lèi)號(hào):TP389.1 文獻(xiàn)標(biāo)志碼:A DOI: 10.16157/j.issn.0258-7998.245971
中文引用格式: 桑晨浩,莫路鋒,屠國(guó)青. 復(fù)雜景觀圖像的語(yǔ)義多狀態(tài)圖像風(fēng)格遷移[J]. 電子技術(shù)應(yīng)用,2025,51(6):40-46.
英文引用格式: Sang Chenhao,Mo Lufeng,Tu Guoqing. Multi-state image generation of complex landscapes via semantic category style transfer[J]. Application of Electronic Technique,2025,51(6):40-46.
Multi-state image generation of complex landscapes via semantic category style transfer
Sang Chenhao,Mo Lufeng,Tu Guoqing
College of Mathematics and Computer Science, Zhejiang Agricultural and Forest University
Abstract: Complex landscape images contain various objects with different characteristics, and traditional style transfer methods are unable to perform local style transfer on different objects within the same image. CycleGAN can achieve style transfer without paired samples through a pseudo-supervised strategy. However, CycleGAN fails to transfer styles between different categories of objects in complex landscape images; moreover, it lacks generalization ability in complex scenes and has high complexity. Therefore, this paper proposes a method for generating complex landscape multi-state images based on semantic categories, namely Semantic Category Style Transfer (SCST), which effectively combines local features for the generation of complex landscape images. Additionally, this paper introduces a context-aware style transfer model called GCycleGAN. Experimental results show that the performance of the proposed GCycleGAN is superior to that of deep learning-based image generation models such as CycleGAN, DualGAN, and Munit.
Key words : landscape;local style transfer;SCST;CycleGAN;Gated-MLP;image generation

引言

圖像風(fēng)格遷移(IST)是圖像生成領(lǐng)域的一個(gè)熱門(mén)研究主題[1],可應(yīng)用于城市規(guī)劃、景觀設(shè)計(jì)、文化藝術(shù)等領(lǐng)域。其目的是將X領(lǐng)域中的風(fēng)景圖像轉(zhuǎn)移到Y(jié)領(lǐng)域。因此,各種IST研究相繼應(yīng)用于景觀設(shè)計(jì)[2]。語(yǔ)義分割與 CycleGAN 的結(jié)合最近已成為景觀圖像局部風(fēng)格遷移的主流,旨在轉(zhuǎn)移景觀圖像中特定對(duì)象的風(fēng)格。Kurzman 等人[3]設(shè)計(jì)了一種兩階段局部遷移模型,實(shí)現(xiàn)了城市街道中真實(shí)圖像與地面物體的流行藝術(shù)之間的局部風(fēng)格遷移。Duan 等人[4]使用手工制作的語(yǔ)義分割和 CycleGAN,將城市景觀圖像中交通標(biāo)志的紋理風(fēng)格進(jìn)行遷移。Kim 等人[5]利用 CycleGAN 和語(yǔ)義掩膜,將真實(shí)景觀圖像中的對(duì)象轉(zhuǎn)換為動(dòng)漫風(fēng)格。但是,CycleGAN用于復(fù)雜景觀的多狀態(tài)圖像生成仍存在兩方面的不足。首先,它的圖像上下文感知能力還有待進(jìn)一步提升。盡管文獻(xiàn)[6]和文獻(xiàn)[7]探索了Vision Transformer通過(guò)self -attention捕獲景觀圖像上下文信息的有效性,但該方法參數(shù)量較大,容易過(guò)擬合,且難以訓(xùn)練[8]。其次,其無(wú)法針對(duì)圖像中不同對(duì)象分別進(jìn)行風(fēng)格轉(zhuǎn)換,例如,不同的樹(shù)種在不同季節(jié)的風(fēng)格轉(zhuǎn)換中有不同的表現(xiàn)。這使得CycleGAN無(wú)法很好地應(yīng)用于復(fù)雜景觀圖像的風(fēng)格遷移和多狀態(tài)的圖像生成。

針對(duì)以上兩個(gè)方面的問(wèn)題,本文提出一種基于語(yǔ)義類(lèi)別風(fēng)格遷移的復(fù)雜景觀的多狀態(tài)圖像生成方法SCST(Semantic Category Style Transfer),根據(jù)復(fù)雜景觀圖像中不同語(yǔ)義類(lèi)別的特征,實(shí)現(xiàn)對(duì)各個(gè)語(yǔ)義類(lèi)別區(qū)域的局域風(fēng)格遷移。在SCST中,首先通過(guò)語(yǔ)義分割確定復(fù)雜景觀圖像中各個(gè)區(qū)域的語(yǔ)義類(lèi)別。然后按照各個(gè)語(yǔ)義類(lèi)別所代表對(duì)象在目標(biāo)狀態(tài)下的變化特征,采用改進(jìn)的具有上下感知的風(fēng)格遷移模型GCycleGAN對(duì)各個(gè)語(yǔ)義類(lèi)別區(qū)域分別進(jìn)行風(fēng)格遷移。GCycleGAN通過(guò)在CycleGAN的生成器與判別器的主干特征提取網(wǎng)絡(luò)引入更輕量的Gated-MLP[9],降低參數(shù)量和模型復(fù)雜度的同時(shí)加快訓(xùn)練收斂速度,通過(guò)全局信息與局部信息的融合,提高處理信息的效率和準(zhǔn)確性,從而訓(xùn)練出更加準(zhǔn)確的生成模型。最后結(jié)合語(yǔ)義分割結(jié)果,將風(fēng)格遷移后的各個(gè)區(qū)域融合到一起,得到最終的全局風(fēng)格遷移的目標(biāo)狀態(tài)景觀圖像。


本文詳細(xì)內(nèi)容請(qǐng)下載:

http://ihrv.cn/resource/share/2000006560


作者信息:

桑晨浩,莫路鋒,屠國(guó)青

(浙江農(nóng)林大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,浙江 杭州 311300)


Magazine.Subscription.jpg

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。