中文引用格式: 桑晨浩,莫路鋒,屠國青. 復(fù)雜景觀圖像的語義多狀態(tài)圖像風(fēng)格遷移[J]. 電子技術(shù)應(yīng)用,2025,51(6):40-46.
英文引用格式: Sang Chenhao,Mo Lufeng,Tu Guoqing. Multi-state image generation of complex landscapes via semantic category style transfer[J]. Application of Electronic Technique,2025,51(6):40-46.
引言
圖像風(fēng)格遷移(IST)是圖像生成領(lǐng)域的一個熱門研究主題[1],可應(yīng)用于城市規(guī)劃、景觀設(shè)計、文化藝術(shù)等領(lǐng)域。其目的是將X領(lǐng)域中的風(fēng)景圖像轉(zhuǎn)移到Y(jié)領(lǐng)域。因此,各種IST研究相繼應(yīng)用于景觀設(shè)計[2]。語義分割與 CycleGAN 的結(jié)合最近已成為景觀圖像局部風(fēng)格遷移的主流,旨在轉(zhuǎn)移景觀圖像中特定對象的風(fēng)格。Kurzman 等人[3]設(shè)計了一種兩階段局部遷移模型,實現(xiàn)了城市街道中真實圖像與地面物體的流行藝術(shù)之間的局部風(fēng)格遷移。Duan 等人[4]使用手工制作的語義分割和 CycleGAN,將城市景觀圖像中交通標(biāo)志的紋理風(fēng)格進行遷移。Kim 等人[5]利用 CycleGAN 和語義掩膜,將真實景觀圖像中的對象轉(zhuǎn)換為動漫風(fēng)格。但是,CycleGAN用于復(fù)雜景觀的多狀態(tài)圖像生成仍存在兩方面的不足。首先,它的圖像上下文感知能力還有待進一步提升。盡管文獻[6]和文獻[7]探索了Vision Transformer通過self -attention捕獲景觀圖像上下文信息的有效性,但該方法參數(shù)量較大,容易過擬合,且難以訓(xùn)練[8]。其次,其無法針對圖像中不同對象分別進行風(fēng)格轉(zhuǎn)換,例如,不同的樹種在不同季節(jié)的風(fēng)格轉(zhuǎn)換中有不同的表現(xiàn)。這使得CycleGAN無法很好地應(yīng)用于復(fù)雜景觀圖像的風(fēng)格遷移和多狀態(tài)的圖像生成。
針對以上兩個方面的問題,本文提出一種基于語義類別風(fēng)格遷移的復(fù)雜景觀的多狀態(tài)圖像生成方法SCST(Semantic Category Style Transfer),根據(jù)復(fù)雜景觀圖像中不同語義類別的特征,實現(xiàn)對各個語義類別區(qū)域的局域風(fēng)格遷移。在SCST中,首先通過語義分割確定復(fù)雜景觀圖像中各個區(qū)域的語義類別。然后按照各個語義類別所代表對象在目標(biāo)狀態(tài)下的變化特征,采用改進的具有上下感知的風(fēng)格遷移模型GCycleGAN對各個語義類別區(qū)域分別進行風(fēng)格遷移。GCycleGAN通過在CycleGAN的生成器與判別器的主干特征提取網(wǎng)絡(luò)引入更輕量的Gated-MLP[9],降低參數(shù)量和模型復(fù)雜度的同時加快訓(xùn)練收斂速度,通過全局信息與局部信息的融合,提高處理信息的效率和準(zhǔn)確性,從而訓(xùn)練出更加準(zhǔn)確的生成模型。最后結(jié)合語義分割結(jié)果,將風(fēng)格遷移后的各個區(qū)域融合到一起,得到最終的全局風(fēng)格遷移的目標(biāo)狀態(tài)景觀圖像。
本文詳細(xì)內(nèi)容請下載:
http://ihrv.cn/resource/share/2000006560
作者信息:
桑晨浩,莫路鋒,屠國青
(浙江農(nóng)林大學(xué) 數(shù)學(xué)與計算機科學(xué)學(xué)院,浙江 杭州 311300)

