文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.182404
中文引用格式: 徐中輝,呂維帥. 基于卷積神經(jīng)網(wǎng)絡(luò)的圖像著色[J].電子技術(shù)應(yīng)用,2018,44(10):19-22.
英文引用格式: Xu Zhonghui,Lv Weishuai. Image coloring based on convolution neural network[J]. Application of Electronic Technique,2018,44(10):19-22.
0 引言
圖像著色是灰度圖像偽彩色化的過(guò)程,具有很高的研究和應(yīng)用價(jià)值。早期圖像著色方法主要分為兩類:一類是基于局部顏色擴(kuò)展[1],另一類是基于顏色傳遞[2]。前者需要用戶指定整張圖片的顏色,要求用戶解決全局優(yōu)化問(wèn)題,并在目標(biāo)圖像上標(biāo)注一定數(shù)量的彩色筆刷作為著色的依據(jù),再進(jìn)行顏色擴(kuò)展完成對(duì)整幅圖像的著色。這類方法可以得到一些較好的彩色圖像,但是需要處理復(fù)雜的紋理和大量的人為干涉,不同的顏色區(qū)域要求用彩色筆刷顯式地標(biāo)記為不同顏色。因此在整個(gè)著色過(guò)程中,用戶的工作量很大且著色效果高度依賴其藝術(shù)技巧。后者在圖像著色過(guò)程中消除了人為因素的干預(yù)和影響,與前者不同的是,這類方法需要一幅彩色圖像作為參考圖像,用以傳遞顏色信息。應(yīng)用此類方法得到的圖像顏色與參考圖像類似,因此在結(jié)果上減少了顏色種類的數(shù)量,而且要找到一個(gè)合適的示例圖片需要花費(fèi)很長(zhǎng)時(shí)間。隨著深度學(xué)習(xí)的發(fā)展及運(yùn)用,深度神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)驅(qū)動(dòng)彩色化方法已經(jīng)成為一種趨勢(shì)[3]。例如,CHENG Z等[3]采用圖像描述符作為輸入的深度神經(jīng)網(wǎng)絡(luò)圖像著色方法,使用神經(jīng)網(wǎng)絡(luò)提取圖像特征。IIZUKA S等[4]使用一種基于全局層次特征和中層特征的理論對(duì)黑白圖像進(jìn)行編碼然后著色,將兩部分特征融合再預(yù)測(cè)像素的顏色信息,并且網(wǎng)絡(luò)還可以對(duì)圖像分類。ZHANG R等[5]使用了多模態(tài)的方案,每個(gè)像素都給出了可能出現(xiàn)顏色的概率值,因此著色后會(huì)出現(xiàn)幾種不同顏色風(fēng)格的圖像。
受以上工作的啟發(fā),本文結(jié)合深度神經(jīng)網(wǎng)絡(luò)Inception-ResNet-v2[6]設(shè)計(jì)了一個(gè)全自動(dòng)的著色網(wǎng)絡(luò)模型,在模型中加入了SENet模塊[7],SENet可以顯式地對(duì)特征通道之間的相互依賴關(guān)系進(jìn)行建模,通過(guò)學(xué)習(xí)的方式來(lái)自動(dòng)獲取到每個(gè)特征通道的重要程度,然后依照重要程度增強(qiáng)有用特征,并且抑制對(duì)當(dāng)前任務(wù)無(wú)用的特征。Inception-ResNet-v2與SENet結(jié)合作為一個(gè)高水平的特征提取器,同時(shí)使用PoLU函數(shù)[8]替代線性整流函數(shù)(Rectified Linear Unit, ReLU)函數(shù),提高網(wǎng)絡(luò)性能。
1 模型與算法
1.1 理論方法
式中,n為權(quán)值,在負(fù)數(shù)部分控制著PoLU函數(shù)變化率。PoLU函數(shù)有非零輸出用于負(fù)輸入,這不僅增加了學(xué)習(xí)的穩(wěn)定性和表示能力,而且能使單位輸出的均值接近于零,從而減少了偏置移位效應(yīng)。與以前的激活函數(shù)不同,當(dāng)n>1時(shí),PoLU函數(shù)在其負(fù)狀態(tài)下與y=x有交點(diǎn),它能增大響應(yīng)區(qū)域。為了更好地訓(xùn)練網(wǎng)絡(luò),找到模型最優(yōu)參數(shù),同時(shí)量化模型損失,在顏色空間中采用估計(jì)像素顏色值和它們真實(shí)值之間的均方誤差(MSE),然后通過(guò)網(wǎng)絡(luò)反向傳播該損失,用以更新模型參數(shù)達(dá)到最佳。對(duì)于一張圖片P,表示目標(biāo)和重建圖像的第X個(gè)分量的第ij像素值,公式如下:
1.2 算法
本文模型是通過(guò)預(yù)測(cè)圖像的a*和b*顏色分量,并將其與輸入圖像的亮度分量結(jié)合,獲得最后的彩色圖像。在模型中使用SE-Inception-ResNet-v2網(wǎng)絡(luò)并從其最后一層獲取灰度圖像的嵌入,網(wǎng)絡(luò)體系架構(gòu)如圖2所示。它主要由3部分組成,分別是特征提取模塊、融合模塊和重建模塊。其中主線網(wǎng)絡(luò)U-Net提取“局部特征”,SE-Inception-ResNet-v2提取“全局特征”,兩部分互不干擾,“全局特征”可以指導(dǎo)“局部特征”,例如指導(dǎo)圖像是在室內(nèi)還是室外,水上還是水下,同時(shí)“局部特征”可以給出局部紋理等一些細(xì)節(jié)信息;融合模塊拼接兩部分特征提取模塊提取到的特征張量,將其融合到一起;重建模塊將重建輸入圖像并與輸入圖像的亮度分量結(jié)合輸出彩色圖像。下面詳細(xì)介紹這3個(gè)組成部分。
1.2.1 特征提取模塊
特征提取模塊如圖2所示,在U-Net中,輸入的灰度圖像尺寸為H×W,輸出是H/8×W/8×512的特征表示,最后一層處理卷積層的張量,從512通道張量減少到256通道張量。在卷積層,所有卷積核都為3×3,并用填充保護(hù)該層的輸入大小。為了降低網(wǎng)絡(luò)的計(jì)算量,在網(wǎng)絡(luò)中使用步長(zhǎng)為2×2的卷積層,而不是最大池化層來(lái)減少?gòu)埩看笮 T谥Ь€網(wǎng)絡(luò)使用SE-Inception-ResNet-v2提取圖像嵌入,有些高水平的特征如門內(nèi)、水下、車內(nèi)、室外,傳達(dá)可用于彩色化過(guò)程的圖像信息。為了滿足Inception的圖像輸入要求299×299×3,先將輸入圖像的尺寸轉(zhuǎn)換為299×299,然后將圖像與自身疊加以獲得一個(gè)三通道圖像,隨后將生成的圖像輸入到網(wǎng)絡(luò),并在Softmax函數(shù)之前提取最后一層的輸出。根據(jù)Inception-ResNet-v2框架規(guī)則,輸出是1 001×1×1的嵌入。主線特征提取模塊最后輸出是一個(gè)尺寸為H/8×W/8×256的張量,此輸出將與SE-Inception-ResNet-v2網(wǎng)絡(luò)輸出在融合模塊融合。具體參數(shù)見表1所示。
1.2.2 融合模塊
融合模塊如圖2所示,它將特征提取模塊提取到的兩部分特征表示融合到一起。網(wǎng)絡(luò)從SE-Inception-ResNet-v2提取特征向量,將其復(fù)制HW/64次,沿空間深度軸附加到主線U-Net特征提取模塊輸出[4]。在網(wǎng)絡(luò)中應(yīng)用此方法得到一個(gè)形狀為H/8×W/8×1 257的特征張量。通過(guò)對(duì)特征張量的鏡像和多次拼接,確保特征張量所傳遞的語(yǔ)義信息在圖像的所有空間區(qū)域中均勻分布。同時(shí)在網(wǎng)絡(luò)中應(yīng)用256個(gè)大小為1×1的卷積核,生成一個(gè)H/8×W/8×256維度的特征張量。
1.2.3 重建模塊
特征張量經(jīng)融合模塊之后,流向重建模塊。在重建模塊中,由卷積層和上采樣層處理特征張量,用于重建圖像的通道。在主線特征提取模塊中,應(yīng)用步長(zhǎng)為2×2卷積層減小了張量尺寸,在重建模塊中應(yīng)用上采樣層使張量的寬和高增加。最后一個(gè)是帶有PoLU傳遞函數(shù)的卷積層,之后是一個(gè)上采樣層,輸出的圖像張量為H×W×2,再結(jié)合輸入圖像的亮度分量生成最終的彩色圖像。重建模塊的卷基層同樣使用填充以保護(hù)圖像的大小,具體參數(shù)如表2所示。
2 實(shí)驗(yàn)結(jié)果與分析
2.1 實(shí)驗(yàn)過(guò)程
數(shù)據(jù)集的正確選擇對(duì)實(shí)驗(yàn)效果的提升有著重大影響,基于數(shù)據(jù)驅(qū)動(dòng)的圖像彩色化方法中使用最為廣泛的是ImageNet數(shù)據(jù)集。為提升訓(xùn)練效果,將重新調(diào)節(jié)圖像尺寸,輸入進(jìn)SE-Inception-ResNet-v2的圖像尺寸調(diào)整為299×299,輸入進(jìn)主線U-Net中的圖像尺寸調(diào)整為224×224。網(wǎng)絡(luò)利用NVIDIA CUDA Toolkit和NVIDIA GeForce GTX加速訓(xùn)練,在訓(xùn)練時(shí)使用了大約120 000張ImageNet數(shù)據(jù)集圖像,使用5%作為訓(xùn)練期間的驗(yàn)證數(shù)據(jù)集。
2.2 結(jié)果分析
為了對(duì)比不同方法的著色效果,對(duì)圖3(a)人物灰度圖像應(yīng)用不同方法得到的結(jié)果如圖3所示。圖3(b)是應(yīng)用Ryan Dahl方法得到的彩色圖像,其圖像主體雪山涂上了人們不希望出現(xiàn)的顏色——棕色。Ryan Dahl方法在其著色方法中把圖像著色作為一個(gè)回歸問(wèn)題進(jìn)行處理,在網(wǎng)絡(luò)中使用歐氏距離函數(shù)作為損失函數(shù)。雖然將此作為回歸問(wèn)題處理看起來(lái)非常適合,但是因?yàn)轭伾臻g的連續(xù)性質(zhì),在實(shí)踐應(yīng)用中基于分類的方法更好。圖3(c)是應(yīng)用Larron方法生成的圖像,在視覺效果上比Ryan Dahl方法好,但是部分山體也出現(xiàn)了棕色,Larron方法是通過(guò)預(yù)測(cè)每個(gè)像素的顏色直方圖進(jìn)行著色的,對(duì)空間位置信息不敏感。圖3(d)是應(yīng)用本文的方法得到的結(jié)果,與Ryan Dahl方法和Larron方法的結(jié)果相比,本文方法的結(jié)果在顏色連續(xù)性、圖像顏色的合理性以及顏色在圖像空間位置的合理分布等方面都有出色的表現(xiàn)。本文方法在網(wǎng)絡(luò)中應(yīng)用了目前在圖像分類任務(wù)中準(zhǔn)確度最高的網(wǎng)絡(luò)模型,同時(shí)加入SENet模塊,提高了網(wǎng)絡(luò)的表示能力。
對(duì)圖4(a)鳥類灰度圖像應(yīng)用不同方法著色,結(jié)果如圖4所示。圖4(b)是應(yīng)用Ryan Dahl方法得到的結(jié)果,可以看出草地上很多部分都沒有很好地涂上綠色,顏色連續(xù)性較差,而且鳥類身上的顏色也偏暗。圖4(c)是應(yīng)用Larron方法得到的結(jié)果,此圖在視覺效果上要優(yōu)于圖4(b),但是草地并不是綠色的,Larron方法在實(shí)驗(yàn)中使用了多模態(tài)的方法,顏色會(huì)有幾種概率值,草可能是綠色,也可能是枯黃的。圖4(d)是應(yīng)用本文的方法得到的結(jié)果圖,與圖4(b)和圖4(c)相比,本文方法的結(jié)果在顏色連續(xù)性和顏色空間分布上更接近于真實(shí)圖像。
3 結(jié)論
圖像彩色化具有很大的發(fā)展空間和應(yīng)用價(jià)值,本文基于卷積神經(jīng)網(wǎng)絡(luò),設(shè)計(jì)了一種基于數(shù)據(jù)驅(qū)動(dòng)的黑白圖像著色方案,它可以在不進(jìn)行任何用戶干預(yù)的情況下對(duì)黑白圖像進(jìn)行著色。該方案利用彩色圖像轉(zhuǎn)換的灰度圖像作為輸入,輸出與灰度圖像對(duì)應(yīng)的彩色圖像的a*和b*顏色分量的預(yù)測(cè)值。然后結(jié)合灰度L*和a*、b*的輸出,獲得基于CIE色彩空間的彩色圖像,最后形成從灰度圖像到彩色圖像的非線性映射。由于在實(shí)驗(yàn)中只使用了ImageNet數(shù)據(jù)集的子集,只有小部分顏色主題被網(wǎng)絡(luò)訓(xùn)練,因此,在一些關(guān)聯(lián)不大的主題圖片上,本文的方案可能表現(xiàn)不是很理想,但是如果網(wǎng)絡(luò)選擇在一個(gè)更大的、主題更豐富的訓(xùn)練數(shù)據(jù)集上訓(xùn)練,這個(gè)問(wèn)題可以得到較好的解決,這也是下一步努力的方向。
參考文獻(xiàn)
[1] CHIA Y S,ZHUO S,GUPTA R K,et al.Semantic colorization with internet images[J].ACM Transactions on Graphic,2011,30(6):1-8.
[2] GUPTA R K,CHIA Y S,RAJAN D,et al.Image colorization using similar images[C].ACM International Conference on Multimedia,2012:369-378.
[3] CHENG Z,YANG Q,SHENG B. Deep colorization[C].Proceedings of the 2015 IEEE International Conference on Computer Vision(ICCV).IEEE Computer Society,2015:415-423.
[4] IIZUKA S,SIMO-SERRA E,ISHIKAWA H.Let there be color!:joint end-to-end learning of global and local image priors for automatic image colorization with simultaneous classification[J].ACM Transactions on Graphics(TOG),2016,35(4):110.
[5] ZHANG R,ISOLA P,EFROS A A.Colorful image colorization[C].European Conference on Computer Vision.Springer,Cham,2016:649-666.
[6] SZEGEDY C,IOFFE S,VANHOUCKE V,et al.Inception-v4,inception-resnet and the impact of residual connections on learning[C].AAAI,2017,4:12.
[7] HU J,SHEN L,SUN G.Squeeze-and-excitation net-works[J].arXiv preprint arXiv:1709.01507,2017.
[8] LI Y,DING P L K,LI B.Training neural networks by using Power Linear Units(PoLUs)[J].arXiv preprint arXiv:1802.00212,2018.
[9] RONNEBERGER O,F(xiàn)ISCHER P,BROX T.U-Net:convolutional networks for biomedical image segmentation[C].International Conference on Medical Image Computing and Computer-Assisted Intervention.Springer,Cham,2015:234-241.
作者信息:
徐中輝,呂維帥
(江西理工大學(xué) 信息工程學(xué)院,江西 贛州341000)