文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.190060
中文引用格式: 黃海新,梁志旭,張東. 基于深度學(xué)習(xí)的圖像風(fēng)格化算法研究綜述[J].電子技術(shù)應(yīng)用,2019,45(7):27-31.
英文引用格式: Huang Haixin,Liang Zhixu,Zhang Dong. A survey of image stylization algorithms based on deep learning[J]. Application of Electronic Technique,2019,45(7):27-31.
0 引言
圖像風(fēng)格化是指通過一些算法,將一張具有藝術(shù)風(fēng)格圖像的風(fēng)格映射到其他自然圖像上,使原自然圖像保留原始語義內(nèi)容的同時(shí)具備該藝術(shù)圖像的藝術(shù)風(fēng)格。圖像風(fēng)格化這一概念的提出是源于人們被某些藝術(shù)繪畫大師的藝術(shù)作品所吸引,渴望自己也能夠擁有同樣藝術(shù)風(fēng)格的圖像,而重新繪制特殊風(fēng)格的圖像則需要大量相關(guān)技術(shù)人員的投入和資源損耗,于是一些研究人員開始研究相應(yīng)算法來完成圖像風(fēng)格化任務(wù)。
自20世紀(jì)90年代中期以來,人們相繼提出大量風(fēng)格化算法,其中非真實(shí)感渲染[1]方法取得了較好的效果,但這種方法局限于僅能針對(duì)單一風(fēng)格進(jìn)行繪制,如果需要拓展到其他風(fēng)格的轉(zhuǎn)換,則需要重新修改算法和參數(shù)。研究人員后來進(jìn)一步將風(fēng)格化問題轉(zhuǎn)化為風(fēng)格圖像的紋理合成問題,將目標(biāo)風(fēng)格圖像的紋理特征信息映射到待風(fēng)格化圖像中完成風(fēng)格化任務(wù)。WANG B等[2]從風(fēng)格圖像數(shù)據(jù)集中提取紋理信息,將紋理信息與被分割的原始圖像結(jié)合成新的風(fēng)格化圖像。HERTZMANN A等[3]通過學(xué)習(xí)來自未經(jīng)轉(zhuǎn)換的圖片和風(fēng)格化圖像的示例對(duì)的類似變換來進(jìn)行風(fēng)格化任務(wù)。FRIGO O等[4]提出一種無監(jiān)督的風(fēng)格化方法,具體是對(duì)小圖像塊的分割和重構(gòu)完成風(fēng)格轉(zhuǎn)移。以上這些算法都是圖像風(fēng)格化的傳統(tǒng)算法,傳統(tǒng)算法還有很多,但其最大的局限性就是僅僅使用了圖像低層次的特征,無法完美捕捉到圖像的結(jié)構(gòu)分布,這就導(dǎo)致風(fēng)格化效果不理想。
1 基于深度學(xué)習(xí)的圖像風(fēng)格化算法
深度學(xué)習(xí)對(duì)于計(jì)算機(jī)視覺方面良好的效果使得風(fēng)格化研究人員不得不將目光轉(zhuǎn)移到它身上。隨著卷積神經(jīng)網(wǎng)絡(luò)[5]的提出,圖像的高層次特征得以有效利用,傳統(tǒng)風(fēng)格化算法的局限性得以消除,這吸引了大量的風(fēng)格化研究人員。
GATYS L A等開創(chuàng)性地利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行風(fēng)格化任務(wù)。他們?cè)谖墨I(xiàn)[6]中首先利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像紋理合成的任務(wù),從目標(biāo)風(fēng)格圖像中提取紋理。他們用Gram矩陣來表示紋理信息,Gram矩陣是預(yù)訓(xùn)練分類網(wǎng)絡(luò)VGG的各過濾器激活值之間的相關(guān)系數(shù),這種基于Gram矩陣的紋理表示方式有效地模擬了紋理的各種變化。他們初始化一張?jiān)肼晥D像,將噪聲圖像和待提取紋理的目標(biāo)圖像都送入VGG網(wǎng)絡(luò)中,通過最小化噪聲圖像和目標(biāo)圖像之間各層的Gram矩陣之間的差值作為損失函數(shù)對(duì)噪聲圖像的像素值進(jìn)行優(yōu)化,通過反復(fù)的優(yōu)化迭代得到目標(biāo)圖像的紋理,這是圖像的紋理也就是風(fēng)格的提取過程。
在后來的工作中,GATYS L A等人在紋理合成的基礎(chǔ)上通過引入目標(biāo)內(nèi)容圖像,修改了損失函數(shù)使算法同時(shí)針對(duì)風(fēng)格和內(nèi)容進(jìn)行優(yōu)化,滿足了保持目標(biāo)語義內(nèi)容不變同時(shí)的風(fēng)格化任務(wù),可以做到如圖1所示的風(fēng)格化效果。此方法雖然能夠較好地完成圖像風(fēng)格化的任務(wù),但是其缺點(diǎn)也是很明顯的,由于優(yōu)化需要較長(zhǎng)的等待時(shí)間,因此在實(shí)時(shí)性這一方面此方法有很大的局限性。另外,由于卷積神經(jīng)網(wǎng)絡(luò)不可避免地會(huì)丟失一些低級(jí)特征信息,因此GATYS L A等人的算法在風(fēng)格化后的細(xì)節(jié)方面表現(xiàn)不佳且難以實(shí)現(xiàn)真實(shí)照片作為風(fēng)格的轉(zhuǎn)換任務(wù)。
針對(duì)GATYS L A等[7]的研究中關(guān)于實(shí)時(shí)性的問題,ULYANOV D等[8]和JOHNSON J等[9]都提出了相應(yīng)的解決辦法。這兩種方法的原理相似,都是采用離線訓(xùn)練的方式預(yù)先訓(xùn)練一個(gè)風(fēng)格轉(zhuǎn)換網(wǎng)絡(luò),只不過采用不同的網(wǎng)絡(luò)結(jié)構(gòu),兩個(gè)網(wǎng)絡(luò)結(jié)構(gòu)分別如圖2和圖3所示。這樣,當(dāng)需要進(jìn)行圖像風(fēng)格化任務(wù)時(shí),只需要將圖像送入轉(zhuǎn)換網(wǎng)絡(luò)中,即可立即獲得風(fēng)格化后的圖像。但是,由于這兩種算法的核心思想是基于文獻(xiàn)[7]的算法,因此這兩種算法依舊面臨著GATYS L A等風(fēng)格化后的局部細(xì)節(jié)方面表現(xiàn)不佳的問題。而且最大的局限性是預(yù)訓(xùn)練的轉(zhuǎn)換網(wǎng)絡(luò)只能對(duì)一種風(fēng)格進(jìn)行訓(xùn)練,如果想實(shí)現(xiàn)多個(gè)風(fēng)格的轉(zhuǎn)換,需要為每種特定風(fēng)格都訓(xùn)練一個(gè)轉(zhuǎn)換網(wǎng)絡(luò)。
除了Gram矩陣可用于表示紋理特征外,馬爾科夫隨機(jī)場(chǎng)(MRF)也是對(duì)圖像紋理特征建模的另一種方法。考慮到Gram矩陣的一些局限性,一些研究人員采用MRF的方法處理風(fēng)格化問題。基于MRF的紋理建模表示方法假定在一個(gè)紋理圖像中,每個(gè)像素僅與其相鄰的像素有關(guān),即每個(gè)像素完全由其空間鄰域表征。
LI C和WAND M[10]認(rèn)為GATYS L A等基于Gram矩陣的紋理表示方法僅考慮像素特征的相關(guān)性,沒有考慮空間結(jié)構(gòu),這導(dǎo)致了算法在真實(shí)圖像作為目標(biāo)風(fēng)格時(shí)不能很好地完成風(fēng)格化任務(wù)。所以,他們提出了結(jié)合MRF和神經(jīng)網(wǎng)絡(luò)的方法。具體原理與GATYS L A等的原理相似,不同點(diǎn)在于沒有利用特征圖之間的關(guān)系構(gòu)成Gram矩陣,而是將特征圖生成了很多的局部圖像塊(local patch),利用MRF去尋找圖像塊與圖像塊之間關(guān)系的匹配,這樣能更好地保留像素局部的信息,可以完成真實(shí)照片作為目標(biāo)風(fēng)格圖像的風(fēng)格化任務(wù),如圖4所示。這種方法的缺點(diǎn)在于當(dāng)內(nèi)容圖像和風(fēng)格圖像在結(jié)構(gòu)上存在很大差異時(shí),由于圖像塊之間難以匹配,可能導(dǎo)致風(fēng)格化任務(wù)失敗。
考慮到文獻(xiàn)[10]實(shí)時(shí)性的問題,LI C和WAND M又提出了一種離線訓(xùn)練的方式完成風(fēng)格化任務(wù)[11]。其核心思想依舊基于MRF,通過對(duì)抗性訓(xùn)練一個(gè)前饋網(wǎng)絡(luò)來解決效率問題。同樣,這種基于MRF的方法有利于保留紋理像素的局部細(xì)節(jié)信息,所以對(duì)于復(fù)雜的紋理圖像,這種方法的風(fēng)格化效果要比JOHNSON J等和ULYANOY D等要好。但是,由于算法對(duì)圖像語義內(nèi)容和高層次特征上考慮的缺乏,因此對(duì)于非紋理圖像(如臉部)作為目標(biāo)風(fēng)格圖像時(shí)往往得不到很好的結(jié)果。
以上算法的很大限制就是往往只針對(duì)單一風(fēng)格進(jìn)行風(fēng)格化任務(wù),若希望得到不同的風(fēng)格化結(jié)果則需要多次運(yùn)行算法或訓(xùn)練多個(gè)風(fēng)格轉(zhuǎn)換網(wǎng)絡(luò)。于是研究人員開始對(duì)如何一次完成多種風(fēng)格的轉(zhuǎn)換任務(wù)這一問題進(jìn)行研究。DUMOULIN V等[12]提出了一種基于條件實(shí)例規(guī)范化的方法去訓(xùn)練一個(gè)多風(fēng)格條件轉(zhuǎn)換網(wǎng)絡(luò),具體做法是通過歸一化不同轉(zhuǎn)換參數(shù)的特征統(tǒng)計(jì)將內(nèi)容圖像轉(zhuǎn)換為不同的風(fēng)格,來實(shí)現(xiàn)通過調(diào)整不同的轉(zhuǎn)換參數(shù)來模擬不同的風(fēng)格的目的。LI Y等[13]將初始化的噪聲圖像送入不同的子風(fēng)格網(wǎng)絡(luò)中得到相應(yīng)的風(fēng)格特征編碼,然后結(jié)合內(nèi)容特征編碼和風(fēng)格特征編碼送入轉(zhuǎn)換網(wǎng)絡(luò)的上采樣部分完成風(fēng)格轉(zhuǎn)換,不同的風(fēng)格可以通過選擇單元進(jìn)行選擇。ZHANG H和DANA K[14]將多種風(fēng)格送入預(yù)訓(xùn)練的VGG網(wǎng)絡(luò)中得到多尺度風(fēng)格特征,然后將此風(fēng)格特征與來自編碼器中的不同層的多尺度內(nèi)容特征組合,通過其所提出的激勵(lì)層,實(shí)現(xiàn)多風(fēng)格化。
除了多風(fēng)格轉(zhuǎn)換,一些研究人員還對(duì)任意風(fēng)格的轉(zhuǎn)換進(jìn)行了研究。HUANG X和BELONGIE S[15]提出了基于文獻(xiàn)[12]思想的另一種方法,他們將條件實(shí)例規(guī)范化修改為自適應(yīng)實(shí)例歸一化,與DUMOULIN V等[12]不同的是他們采用的風(fēng)格轉(zhuǎn)換網(wǎng)絡(luò)的下采樣部分包含了VGG網(wǎng)絡(luò)前幾層在內(nèi)且參數(shù)固定,這樣得到的特征激活值經(jīng)過自適應(yīng)實(shí)例歸一化處理后上采樣重構(gòu)后即可得到風(fēng)格化后的圖像。此方法能夠完成實(shí)時(shí)的任意風(fēng)格化處理,上采樣部分的網(wǎng)絡(luò)參數(shù)需要大量的風(fēng)格圖像和內(nèi)容圖像進(jìn)行訓(xùn)練。后來,LI Y等[16]又對(duì)HUANG X和BELONGIE S[15]的方法進(jìn)行了改進(jìn),他們采用相同的網(wǎng)絡(luò)結(jié)構(gòu),只是用白化著色變換代替了自適應(yīng)實(shí)例歸一化,這是因?yàn)榘谆儞Q可以去除風(fēng)格相關(guān)信息并保留內(nèi)容結(jié)構(gòu),這使得內(nèi)容圖像的特征信息能夠較好地傳遞,然后通過著色變換將風(fēng)格特征與內(nèi)容結(jié)合后,經(jīng)過上采樣重構(gòu)圖像后得到的就是風(fēng)格化后的圖像。
2 圖像風(fēng)格化的拓展
隨著圖像風(fēng)格化技術(shù)的成熟,一些研究人員發(fā)現(xiàn)圖像風(fēng)格化算法具備更廣泛的研究?jī)r(jià)值,可以拓展到其他相關(guān)應(yīng)用,以下僅簡(jiǎn)要介紹圖像風(fēng)格化的幾個(gè)拓展方向。
2.1 視頻風(fēng)格化
視頻可以理解為一張張圖像經(jīng)過連續(xù)化處理得到的,那么圖像的風(fēng)格化任務(wù)就可以拓展到視頻風(fēng)格化的領(lǐng)域來。需要注意的是,視頻風(fēng)格化算法需要考慮相鄰視頻幀之間的平滑過渡。第一個(gè)視頻風(fēng)格化算法由RUDER M等提出[17-18],他們使用光流法計(jì)算光流信息,并引入了時(shí)間一致性損失,他們的算法實(shí)現(xiàn)了平滑的視頻風(fēng)格化結(jié)果。后來HUANG H等基于RUDER M等的思想提出一個(gè)離線訓(xùn)練的視頻風(fēng)格化模型[19],具體做法是將兩個(gè)連續(xù)的幀畫面送入風(fēng)格轉(zhuǎn)換網(wǎng)絡(luò)中得到輸出,對(duì)輸出的結(jié)果直接計(jì)算時(shí)間一致性損失來約束兩幀之間的連續(xù)性。
2.2 人臉風(fēng)格化
盡管之前的算法都能夠?qū)崿F(xiàn)風(fēng)格化任務(wù),但是由于沒有單獨(dú)考慮頭部特征導(dǎo)致難以實(shí)現(xiàn)單獨(dú)針對(duì)頭部的風(fēng)格化效果。SELIM A等[20]在風(fēng)格化過程中增加了增益圖對(duì)空間配置進(jìn)行約束,這使得面部的結(jié)構(gòu)特征在風(fēng)格化過程中得以保留。ZHAO M T等[21]從由繪畫大師預(yù)先繪畫的肖像中提取筆觸信息,將筆觸信息傳遞給內(nèi)容圖像實(shí)現(xiàn)人臉風(fēng)格化方法。WANG N N等[22]采用MRF的方法實(shí)現(xiàn)人臉風(fēng)格化,他們的方法可以從訓(xùn)練數(shù)據(jù)集中為目標(biāo)圖像匹配到最合適的特征信息完成風(fēng)格化任務(wù)。
2.3 語義風(fēng)格化
語義風(fēng)格化是假設(shè)有兩張圖像,兩張圖像有著相似的語義內(nèi)容但不同的風(fēng)格,希望將一張圖像的風(fēng)格過渡到另一張圖像上。CHAMPANDARD A J[23]提出基于圖像塊匹配的算法[24]完成語義風(fēng)格化任務(wù)。CHEN Y L和HSU C T[25]提出了一種不同的思路,他們約束空間對(duì)應(yīng)關(guān)系及風(fēng)格特征統(tǒng)計(jì)完成語義風(fēng)格化。
3 存在問題及今后研究方向
由于風(fēng)格這一概念的模糊性,人們對(duì)于風(fēng)格化圖片效果的評(píng)估往往都是基于主觀意識(shí),風(fēng)格化的好與壞完全由個(gè)人主觀評(píng)判。由于人與人之間主觀意識(shí)上的差異,導(dǎo)致對(duì)風(fēng)格化結(jié)果的評(píng)判也各不相同。不同于分類任務(wù)[26],圖像風(fēng)格化沒有一個(gè)預(yù)期的標(biāo)準(zhǔn)來對(duì)風(fēng)格化結(jié)果進(jìn)行評(píng)判,這是目前各種風(fēng)格化算法普遍面臨的問題,如何找到一個(gè)標(biāo)準(zhǔn)的評(píng)估方法,將會(huì)是風(fēng)格化領(lǐng)域內(nèi)各研究人員今后的一個(gè)重要研究方向。
雖然基于圖像優(yōu)化的在線風(fēng)格化算法(如GATYS L A等[7]和LI C、WAND M等[10])可以較好地完成圖像風(fēng)格化的任務(wù),但是此類方法由于需要在線優(yōu)化,難以保證風(fēng)格化的速度。離線訓(xùn)練風(fēng)格轉(zhuǎn)換網(wǎng)絡(luò)的方式(如ULYANOV D等[8]和JOHNSON J等[9])可以避免此類速度問題,但訓(xùn)練一個(gè)單風(fēng)格轉(zhuǎn)換網(wǎng)絡(luò)不夠靈活,因?yàn)槎鄶?shù)情況下用戶需要多種風(fēng)格化方式,而訓(xùn)練一個(gè)多風(fēng)格轉(zhuǎn)換網(wǎng)絡(luò)得到的效果卻又不如針對(duì)單一風(fēng)格轉(zhuǎn)換網(wǎng)絡(luò)的效果好,所以如何提出一種同時(shí)滿足轉(zhuǎn)換速度和轉(zhuǎn)換效果的方法也是今后研究的一個(gè)重要方向。
4 結(jié)論
本文主要介紹了基于深度學(xué)習(xí)的圖像風(fēng)格化方法,并對(duì)相應(yīng)算法的優(yōu)缺點(diǎn)和今后的研究發(fā)展方向進(jìn)行了簡(jiǎn)要的分析。通過研究發(fā)現(xiàn),盡管傳統(tǒng)方法能夠完成風(fēng)格化任務(wù),但是由于其局限性,不論是在合成速度方面還是圖像效果方面都不是很理想。隨著深度學(xué)習(xí)的介入,傳統(tǒng)處理圖像的方法得到了更好的發(fā)揮,圖像的特征信息也得到了充分利用,可以說神經(jīng)網(wǎng)絡(luò)使人們對(duì)圖像風(fēng)格化這一領(lǐng)域的研究向前邁了一大步。雖然目前圖像風(fēng)格化領(lǐng)域有了一些進(jìn)展,可以實(shí)現(xiàn)一些簡(jiǎn)單的應(yīng)用,但距離風(fēng)格化技術(shù)的全面成熟仍需要不斷的發(fā)展改進(jìn)。總而言之,圖像風(fēng)格化作為一個(gè)具有廣泛商業(yè)用途,充滿吸引力和挑戰(zhàn)性的方向,有重要的研究意義等著研究人員去發(fā)展創(chuàng)新。
參考文獻(xiàn)
[1] GOOCH B,GOOCH A.Non-photorealistic rendering[M].Natick,MA,USA:A.K.Peters,Ltd.,2001.
[2] WANG B,WANG W P,YANG H P,et al.Efficient examplebased painting and synthesis of 2D directional texture[J].IEEE Transactions on Visualization and Computer Graphics,2004,10(3):266-277.
[3] HERTZMANN A,JACOBS C E,OLIVER N,et al.Image analogies[C].Proceedings of the 28th Annual Conference On Computer Graphics And Interactive Techniques.ACM,2001:327-340.
[4] FRIGO O,SABATER N,DELON J,et al.Split and match:Example-based adaptive patch sampling for unsupervised style transfer[C].IEEE Conference on Computer Vision and PatternRecognition,2016:2338-2351.
[5] 徐中輝,呂維帥.基于卷積神經(jīng)網(wǎng)絡(luò)的圖像著色[J].電子技術(shù)應(yīng)用,2018,44(10):19-22.
[6] GATYS L A,ECKER A S,BETHGE M.Texture synthesis using convolutional neural networks[C].International Conference on Neural Information Processing Systems.MIT Press,2015.
[7] GATYS L A,ECKER A S,BETHGE M.A neural algorithm of artistic style[J].arXiv:1508,06576[cs.CV].
[8] ULYANOV D,LEBEDEV V,VEDALDI A,et al.Texture networks:feed-forward synthesis of textures and stylized images[C].International Conference on Machine Learning,2016:1349-1357.
[9] JOHNSON J,ALAHI A,Li Feifei.Perceptual losses for real-time style transfer and super-resolution[C].European Conference on Computer Vision,2016:694-711.
[10] LI C,WAND M.Combining markov random fields and convolutional neural networks for image synthesis[C].Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2016:2479-2486.
[11] LI C,WAND M.Precomputed real-time texture synthesis with markovian generative adversarial networks[C].European Conference on Computer Vision,2016:702-716.
[12] DUMOULIN V,SHLENS J,KUDLUR M.A learned representation for artistic style[C].International Conference on Learning Representations,2017.
[13] LI Y,CHEN F,YANG J,et al.Diversified texture synthesis with feed-forward networks[C].Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2017:3920-3928.
[14] ZHANG H,DANA K.Multi-style generative network for real-time transfer[J].arXiv:1703.06953.
[15] HUANG X,BELONGIE S.Arbitrary style transfer in real-time with adaptive instance normalization[C].Proceedings of the IEEE International Conference on Computer Vision,2017:1501-1510.
[16] LI Y,F(xiàn)ANG C,YANG J,et al.Universal style transfer via feature transforms[C].Advances in Neural Information Processing Systems,2017:385-395.
[17] RUDER M,DOSOVITSKIY A,BROX T.Artistic style transfer for videos[C].German Conference on Pattern Recognition,2016:26-36.
[18] RUDER M,DOSOVITSKLY A,BROX T.Artistic style transfer for videos and spherical images[J].International Journal of Computer Vision,2018,126:1199.
[19] HUANG H,WANG H,LUO W,et al.Real-time neural style transfer for videos[C].Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2017:783-791.
[20] SELIM A,ELGHARIB M,DOYLE L.Painting style transfer for head portraits using convolutional neural networks[J].ACM Transactions on Graphics,2016,35(4):129.
[21] ZHAO M T,ZHU S C.Portrait painting using active templates[C].ACM SIGG RAPH/Eurographics Symposium on Non-Photorealistic Animation and Rendering,2011:117-124.
[22] WANG N N,TAO D C,GAO X B,et al.Transductive face sketch-photo synthesis[J].IEEE Transactions on Neural Networks and Learning Systems,2013,24(9):1364-1376.
[23] CHAMPANDARD A J.Semantic style transfer and turning two-bit doodles into fine artworks[J].arXiv:1603:01768[cs.CV].
[24] LI C,WAND M.Combining markov random fields and convolutional neural networks for image synthesis[C].Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2016:2479-2486.
[25] CHEN Y L,HSU C T.Towards deep style transfer:A content-aware perspective[C].Proceedings of the British Machine Vision Conference,2016.
[26] 許少尉,陳思宇.基于深度學(xué)習(xí)的圖像分類方法[J].電子技術(shù)應(yīng)用,2018,44(6):116-119.
[27] 鄧盈盈,唐帆,董未名.圖像藝術(shù)風(fēng)格化的研究現(xiàn)狀[J].南京信息工程大學(xué)學(xué)報(bào)(自然科學(xué)版),2017(6):31-36.
[28] JING Y,YANG Y,F(xiàn)ENG Z,et al.Neural style transfer:a review[J].arXiv:1705.04D58[cs.CV].
作者信息:
黃海新,梁志旭,張 東
(沈陽理工大學(xué) 自動(dòng)化與電氣工程學(xué)院,遼寧 沈陽110159)