文獻標識碼:A
DOI: 10.19358/j.issn.2096-5133.2018.08.010
中文引用格式:王雅欣,史瀟瀟.基于生成對抗網絡的人臉熱紅外圖像生成[J].信息技術與網絡安全,2018,37(8):40-44.
0 引言
熱紅外圖像是紅外傳感器根據熱輻射采集的圖像,具有良好的目標探測能力。與可見光圖像相比,熱紅外圖像因不受光照影響具有更好的魯棒性,近年來在表情識別研究中開始受到關注[1-3]。然而,熱紅外數據的采集需要昂貴的設備,與可見光圖像相比獲取成本高昂。因而,本文提出基于生成對抗網絡從可見光人臉圖像生成熱紅外人臉圖像的方法。
傳統的生成模型對機器學習來說具有不同的限制。比如,對真實樣本進行最大似然估計的生成模型,嚴重依賴于所選取樣本的分布情況;采用近似法學習的生成模型難以求得最優(yōu)解,只能逼近目標函數的下界;馬爾科夫鏈方法雖然既可以用于生成模型的訓練又可用于新樣本的生成,但是計算復雜度較高。隨著深度學習的發(fā)展,神經網絡模型在各個領域取得突破性進展[4-6]。GOODFELLOW I等人根據博弈論提出了生成對抗網絡(Generative Adversarial Networks,GAN)[7],創(chuàng)造性地結合了生成模型和判別模型進行數據生成。但GAN的生成方式太過自由,在圖片像素較多的情況下容易失控。針對這一問題,MIRZA M[8]在GAN的基礎上提出條件生成對抗網絡(Conditional Generative Adversarial Networks,cGAN)。而ISOLA P[9]受cGAN和文獻[10]啟發(fā),將GAN的目標函數與傳統損失函數相結合提出Pix2Pix方法,該方法在多種任務中有著出色的表現。
本文提出基于生成對抗網絡生成熱紅外人臉圖像的方法,與Pix2Pix[9]一樣在cGAN目標函數的基礎上加上傳統損失函數作為懲罰項,即任務目標,懲罰項為可見圖片與生成樣本間的相似程度。實驗在USTC-NVIE[11]庫上進行,在以可見光圖像為條件進行熱紅外圖像生成的基礎上,利用SVM模型進行表情識別,驗證生成的熱紅外圖片能否被模型識別以及作為擴充樣本是否可以提升模型的訓練效果。
1 方法介紹
1.1 網絡結構
本文的網絡框架如圖1所示,由生成器(Generator,G)和判別器(Discriminator,D)組成。生成器使用隨機噪聲z在可見光圖片y的約束下生成樣本圖片G(z,y)傳遞給判別器。生成的樣本圖片與可見光圖片的L1距離被作為懲罰項反饋給生成模型,以此保證最終的生成圖片與可見光圖片的相似程度。判別器接收到的輸入既有生成的樣本圖片G(z,y)也有真實的熱紅外圖片,它的任務就是判斷接收到的圖片在該可見光圖片y約束的情況下有多大概率是真實的。本文生成器模型采用U-Net神經網絡結構,如圖1中生成器G中框圖所示。判別器模型則采用神經網絡,其結構如圖1中判別器D框圖所示。
1.1.1 生成器
本文采用U-Net結構作為生成器的網絡結構。在ISOLA P提出U-Net結構前,圖像到圖像的轉化任務中編碼解碼結構的使用最為廣泛,其結構如圖2所示。編碼解碼結構在編碼時,使用卷積層和激活函數減少信息量。解碼時則執(zhí)行與編碼過程相反的操作。但在數據流傳遞的過程中,會出現輸出與輸入之間信息遺失的情況。因此ISOLA P提出了U-Net生成器結構[9] ,其結構如圖1中生成器結構所示。U-Net的結構和編碼解碼類似,但該結構在編解碼過程的鏡像層間加了跳步連接(通過復制編碼層的特征圖譜傳遞給對應的解碼層實現),以此解決生成器輸出輸入之間信息傳遞的問題。
1.1.2 判別器
ISOLA P[9]為了追求細節(jié)的生成效果,采用馬爾科夫鏈模型作為判別器。然而熱紅外人臉圖像并不追求分毫畢現的效果,因此本文采用神經網絡作為判別器結構,其結構如圖1中的判別器所示。輸入經過這個卷積神經網絡輸出判定該輸入是真實圖像的概率。
1.2 目標函數
本文的目的是通過生成對抗網絡以可見光人臉圖像為素材生成熱紅外人臉圖像??紤]到同一張圖的可見光圖像與熱紅外圖像的五官分布一致,而且文獻[10]表明,將cGAN的目標函數和傳統的目標結合可以提高生成圖像的質量,因此本文在生成時還考慮生成圖像與可見光圖像之間的相似程度,即有條件約束的生成對抗網絡,其目標函數為:
minGmaxDV(D,G)=V′(D,G)+λLL1 (1)
式(1)中V′(D,G)就是cGAN的目標函數,即不考慮生成圖像與可見光圖像相似程度的目標函數:
本文將可見光圖片y和生成器輸出G(z,y)之間的L1距離作為兩張圖片相似程度的懲罰項:
式(2)和式(3)中z是隨機噪聲,x是目標圖像,y是可見光圖像,G(z,y)指生成器的輸出,D(·)指判別器輸出的概率。判別器的目標是最大化式(1),即maxDV(D,G),而生成器的目標是最小化式(2)的第二項與λLL1之和,其中,λ是超參數。
1.3 訓練和優(yōu)化
為了訓練生成對抗網絡,需要反復迭代多次,每次迭代需要交換固定判別器和生成器中的一個模型參數,更新另一個模型的參數。
判別器的訓練過程如下:
(1)從隨機噪聲z中采樣;
(2)對訓練樣本進行采樣,采樣的可見光圖片作為條件y,對應的熱紅外圖片作為真實數據樣本x;
(3)更新判別器模型的參數;
(4)所有樣本都采樣過一遍后,固定判別器模型參數,開始新一輪的生成器參數更新。
生成器的訓練過程如下:
(1)從隨機噪聲z中采樣;
(2)對訓練樣本的可見光圖片進行采樣作為條件變量y;
(3)計算y與輸出G(z, y)之間的L1距離;
(4)更新生成器模型的參數;
(5)所有樣本都采樣過一遍后,固定生成器模型參數,開始新一輪的判別器參數更新。
本文使用隨機梯度下降法進行參數優(yōu)化,進行足夠多次交替訓練的迭代之后,停止訓練。
2 實驗條件及結果分析
2.1 實驗條件
本文在USTC-NVIE[8]數據庫上進行實驗,該數據庫在左、中、右三種光源下,共收集了126名志愿者6種基本面部表情(高興、悲傷、驚喜、恐懼、憤怒和厭惡)的可見光和熱紅外圖像。
在進行實驗之前,需要對圖片進行預處理。使用haar級聯特征對可見光圖像進行人臉定位和截?。粚峒t外圖像則使用大津法(OSTU)和垂直投影曲線進行人臉定位和截取。最終,截取了1 051對有表情的可見光人臉圖像和熱紅外人臉圖像對以及980對無表情的可見光和熱紅外圖像對,并調整所有圖像的大小為256×256。本文將成對的可見光人臉圖像和熱紅外圖像稱為一個樣本。
2.1.1 對照實驗設置
本文設置了3組對照模型進行效果對比,加上本文提出的模型,共4組模型,都采用神經網絡作為判別器,但生成器結構和目標函數各不相同。為了方便表述,后文稱公式(2)為目標函數Ⅰ,稱公式(1)為目標函數Ⅱ;以編碼解碼為生成器結構的生成框架為網絡結構I,以U-Net為生成器結構的生成框架為網絡結構II。則本文的4組實驗模型分別是網絡結構I目標函數I、網絡結構I目標函數II、網絡結構II目標函數I以及本文提出的方法網絡結構 II目標函數II。
本文使用的判別器神經網絡如圖1中的判別器框架所示,所有卷積核大小都為4×4,除最后一層的步長為1,使用Sigmoid激活函數輸出概率,其他卷積層的步長都為2,都使用LeakyReLU作為激活函數并且都需要進行批量正則化(Batch Normalization, BN)。
對于兩種生成器網絡結構,除了跳步連接的差別外,所有卷積層的卷積核大小都為4×4,步長都為2,都使用ReLU函數作為激活函數,并且都需要進行批量正則化。從輸入開始各編碼層的輸出通道數為32→64→128→256→512→512→512→512,編碼之后一直到輸出的各解碼層的輸出通道數為512→512→512→ 512→ 256→128→64→32→3。
設置的4組模型除進行生成實驗外還進行表情識別實驗。
2.1.2 生成實驗條件
生成實驗中,數據集被分為訓練集、驗證集和測試集。其中,訓練集有1 222個樣本,包含了全部的980對無表情圖片和242對有表情圖片。驗證集和測試集樣本則都是有表情的圖片,分別有384個樣本和425個樣本。
為了評估測試集的目標圖片和生成圖片的差異,本文使用高斯Parzen窗[12]作為衡量標準。
2.1.3 識別實驗條件
為了驗證生成圖像能否被模型識別,本文使用SVM作為識別模型,以生成實驗的訓練集和驗證集中的熱紅外圖像為訓練集,總共有1 606幅熱紅外圖像。訓練SVM模型分別識別測試集的生成圖像和原本熱紅外圖像(目標圖像)的表情標簽。
最后,為了驗證生成圖片作為擴充樣本的效果,仍使用SVM模型,除了生成實驗的訓練集和驗證集外,再加入213幅生成的圖像,總共1 819幅熱紅外圖像作為訓練集。剩下的212幅生成圖像的目標圖像作為測試集。
2.2 實驗結果和分析
2.2.1 生成實驗結果
圖3為一個樣本的可見圖像、生成的紅外圖像及其目標圖像的示例。對比4種模型的生成圖片與目標圖片可以發(fā)現,本文提出的模型(網絡結構II目標函數II)的生成圖片與目標圖片更相似。表1是生成圖片與目標圖片基于Parzen窗的對數似然估計,結果表明本文提出的方法的生成圖片(圖3(e))與目標圖片更相似。結合表1的結果以及圖3的成像效果考慮,生成效果還是比較令人滿意的。
2.2.2 識別實驗結果
表2是使用SVM模型識別生成圖片的實驗結果,實驗結果表明生成的圖片可以被識別模型識別,并且與目標圖片被識別的效果相似。本文提出的方法(網絡結構II目標函數II)的準確率是所有生成圖片中最高的。
表3分別是沒有進行樣本擴充與使用生成圖片作為擴充樣本訓練的模型對真實熱紅外圖像的識別結果。實驗結果表明生成的圖片作為擴充樣本對模型識別效果的提升起了積極的作用。與沒有擴充樣本的模型相比,四組擴充訓練集樣本的模型,識別準確率分別提升了1.28%、2.7%、1.97%以及3.24%。訓練集只進行了12.36%的擴充,提升效果令人滿意。由此可見使用生成對抗網絡生成圖片可以作為擴增樣本提升模型訓練效果。四組擴充識別實驗中,本文提出的方法(網絡結構II目標函數II)生成的圖片作為擴增樣本訓練效果最好。
綜合生成實驗以及識別實驗可以發(fā)現本文提出的方法比其他模型的結果更好。如果分別觀察各組實驗的網絡結構和目標函數,可以發(fā)現不論是生成實驗還是識別實驗,目標函數相同的情況下,使用U-Net的(網絡結構II)模型,實驗結果都比使用編碼解碼器(網絡結構I)的結果要好。而網絡結構相同的情況下,使用目標函數II的結果都比使用目標函數I的結果要好。綜上所述,本文所提方法表現出的優(yōu)越性是來自模型結構以及目標函數的雙重作用。
3 結論
為了解決近年來備受研究關注的熱紅外圖像采集困難的問題,本文提出采用條件生成對抗網絡結合L1損失從可見光圖像中生成熱紅外圖像的方法。USTC-NVIE庫上的實驗結果表明,生成對抗網絡框架可用來從可見光圖像生成熱紅外圖像,并且生成的圖片作為擴充樣本可提升模型訓練的效果。
參考文獻
[1] BETTADAPURA V. Face expression recognition and analysis: the state of the art[J]. arXiv preprint arXiv:1203.6722. 2012.
[2] YOSHITOMI Y, KIM S I, Kawano T, et al. Effect of sensor fusion for recognition of emotional states using voice, face image and thermal image of face[C]//Proceedings in 9th IEEE International Workshop on Robot and Human Interactive Communication, 2000. IEEE, 2000: 178-183.
[3] JARLIER S, GRANDJEAN D, DELPLANQUE S, et al. Thermal analysis of facial muscles contractions[J]. IEEE Transactions on Affective Computing, 2011, 2 (1): 2-9.
[4] DAHL G E, YU D, DENG L, et al. Context-dependent pre-trained deep neural networks for large vocabulary speech recognition[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2012, 20 (1): 30-42.
[5] RUSSAKOVSKY O, DENG J, SU H, et al. Imagenet large scale visual recognition challenge[J].International Journal of Computer Vision, 2015, 115 (3): 211-252.
[6] HINTON G, DENG L, YU D, et al. Deep neural networks for acoustic modeling in speech recognition:the shared views of four research groups[J]. IEEE Signal Processing Magazine, 2012,29 (6): 82-97.
[7] GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C]//Advances in Neural Information Processing Systems, 2014: 2672-2680.
[8] MIRZA M,OSINDERO S. Conditional generative adversarial nets[J]. arXiv preprint arXiv:1411.1784. 2014.
[9] ISOLA P, ZHU J Y, ZHOU T, et al. Image-to-image translation with conditional adversarial networks[J].arXiv preprint arXiv:1611.07004. 2016.
[10] PATHAK D,KRAHENBUHL P, DONAHUE J, et al. Context encoders: feature learning by in painting[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 2536-2544.
[11] WANG S, LIU Z,LV S, et al. A natural visible and infrared facial expression database for expression recognition and emotion inference[J]. IEEE Transactions on Multimedia, 2010, 12(7): 682-691.
[12] BREULEUX O, BENGIO Y, VINCENT P. Quickly generating representative samples from an rbm derived process[J]. Neural Computation, 2011, 23 (8): 2058-2073.
(收稿日期:2018-04-14)
作者簡介:
王雅欣(1991-),女,碩士研究生,主要研究方向:情感計算。
史瀟瀟(1991-),女,碩士,主要研究方向:情感計算。