文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.190950
中文引用格式: 趙淑歡. 基于深淺特征融合的人臉識(shí)別[J].電子技術(shù)應(yīng)用,2020,46(2):28-31,35.
英文引用格式: Zhao Shuhuan. Fusion of deep and shallow features for face recognition[J]. Application of Electronic Technique,2020,46(2):28-31,35.
0 引言
人臉識(shí)別是模式識(shí)別和機(jī)器學(xué)習(xí)領(lǐng)域研究熱點(diǎn)之一,實(shí)際圖像中存在的遮擋、光照、姿勢(shì)、年齡等變化是人臉識(shí)別在實(shí)際應(yīng)用中遇到的主要挑戰(zhàn)。
傳統(tǒng)算法是從圖像中進(jìn)行特征選擇和提取,降低復(fù)雜度,提高效率。特征選擇和特征提取都被視為子空間學(xué)習(xí)算法,因這些算法均是在一個(gè)新空間找到原始高維數(shù)據(jù)的低維表示。
最著名子空間學(xué)習(xí)法有主成分分析(Principal Component Analysis,PCA)[1],該算法學(xué)習(xí)一個(gè)投影以保留數(shù)據(jù)的主要能量。由于其在數(shù)據(jù)重構(gòu)和能量保存方面的性能良好,因此在數(shù)據(jù)處理中PCA常作為數(shù)據(jù)的預(yù)處理技術(shù)。研究人員提出一些基于PCA的改進(jìn)算法,以進(jìn)一步提高PCA解決人臉識(shí)別問題的性能[2]。因PCA算法不能保留數(shù)據(jù)的幾何結(jié)構(gòu),研究人員提出LPP(Locality Preserving Projection)[3]、SPP(Sparsity Preserving Projections)[4]、NPE(Neighborhood Preserving Embedding)[5]。盡管這些算法在特征提取上各有優(yōu)點(diǎn),但因其提取的特征缺乏判別能力[6],故不適用于分類問題。
LDA(Linear Discriminant Analysis)是模式分類中常用提取判別性特征的算法之一[7]。LDA利用標(biāo)簽信息學(xué)習(xí)判別性投影矩陣,最大化類間距離,同時(shí)最小化類內(nèi)距離,以此提高分類準(zhǔn)確度。郝靜靜等人[8]結(jié)合PCA與LDA算法優(yōu)勢(shì)提高人臉識(shí)別性能。LDA還有很多變形以提高性能,例如:OLDA(Orthogonal LDA)[9]、ULDA(Uncorrelated LDA)[10]、2DLDA(2-Dimensional LDA)[11]。Wen Jie等人[12]提出一種魯棒稀疏LDA算法(Robust Sparse Linear Discriminant Analysis,RSLDA),提取的特征對(duì)噪聲和投影維數(shù)具有更強(qiáng)的魯棒性。
針對(duì)人臉中特定問題,研究人員提出各種對(duì)應(yīng)算法,例如:為去除光照影響,文獻(xiàn)[13]提出一種光照正則化方法,引入了色度空間的概念;Hu Changhui等人[14]提出一種新的高頻特征和一種基于高頻的稀疏表示分類用于處理不同光照條件下的單樣本人臉識(shí)別;Du Lingshuang等人[15]用基于核范數(shù)的誤差模型描述測(cè)試樣本中的遮擋和污損;歐陽寧等人[16]將多種算法融合提出人臉圖像光照預(yù)處理算法。
以上算法提取的特征均為淺層特征,這些特征在特定的數(shù)據(jù)和任務(wù)中性能優(yōu)異,但大多數(shù)淺層特征普適性差[17],對(duì)于新的數(shù)據(jù)和任務(wù)需要新的域知識(shí)。
針對(duì)淺層特征的局限性,深度學(xué)習(xí)算法[18-19]從數(shù)據(jù)中自主學(xué)習(xí)特征。深度學(xué)習(xí)思想是建立多層表示獲得數(shù)據(jù)深層抽象語義特征,這種抽象表示對(duì)類內(nèi)變化具有更強(qiáng)的魯棒性。深度學(xué)習(xí)處理圖像分類任務(wù)的關(guān)鍵因素是卷積結(jié)構(gòu)的選用,一個(gè)卷積神經(jīng)網(wǎng)絡(luò)(ConvNet)結(jié)構(gòu)[20-21]包含多個(gè)訓(xùn)練階段和有監(jiān)督分類器。每個(gè)階段一般包括三層:卷積組層、非線性處理層和特征池化層。
典型的深度學(xué)習(xí)網(wǎng)絡(luò)有ConvNet和CNNs[22-23],但這些網(wǎng)絡(luò)需要豐富的經(jīng)驗(yàn)去調(diào)試,第一個(gè)有清晰數(shù)學(xué)調(diào)試的是小波散度網(wǎng)絡(luò)(Wavelet Scattering Networks,ScatNet)[24]。但是這種提前設(shè)置好的結(jié)構(gòu)卻不適用于人臉識(shí)別,因?yàn)槿四樦锌赡馨庹?、遮擋使得類?nèi)變化較大[25]。Chan Tsung-Han等人[25]提出簡(jiǎn)單的PCANet網(wǎng)絡(luò)用于圖像分類,以PCA作卷積核,簡(jiǎn)化訓(xùn)練過程,且其分類性能高。
深度特征往往需要大量的有標(biāo)記的樣本去訓(xùn)練,且時(shí)間消耗較大;而淺層特征提取的判別性信息有限,不能挖掘數(shù)據(jù)最本質(zhì)的特征,魯棒性差,但不需要訓(xùn)練,時(shí)間消耗低。針對(duì)這些問題,本文將圖像的深淺特征進(jìn)行融合以提高特征提取的效率和魯棒性,并應(yīng)用于人臉識(shí)別。
1 深淺特征融合分類算法
本文將淺層特征和深度特征進(jìn)行融合提出基于深淺特征融合的人臉識(shí)別算法,目的是充分發(fā)揮深淺層特征各自優(yōu)勢(shì),提高人臉識(shí)別性能,同時(shí)對(duì)深度學(xué)習(xí)算法的原理進(jìn)行簡(jiǎn)單的分析。算法基本流程如圖1所示。
在淺層特征提取階段,本文采用局部-全局的分步特征提取方案:HOG特征可提取圖像淺層局部特征;考慮到數(shù)據(jù)的分布特點(diǎn),選用RSLDA特征可在保留數(shù)據(jù)分布的基礎(chǔ)上提取數(shù)據(jù)的全局特征,因此本文算法的淺層特征中包含了局部-全局特征,且保留數(shù)據(jù)局部性;在深度特征提取階段,為解決少樣本情況下深度特征提取問題,采用PCANet提取網(wǎng)絡(luò)的深度特征;然后采用對(duì)深淺特征進(jìn)行融合并分類。
1.1 淺層特征提取
本文采用HOG作淺層特征,HOG(Histogram of Oriented Gradients)特征是圖像的一種簡(jiǎn)單有效的局部特征描述符,首先,將圖像劃分成多個(gè)區(qū)域;然后,計(jì)算每個(gè)區(qū)域的梯度直方圖,再將每個(gè)區(qū)域劃分成幾塊,計(jì)算每塊的梯度直方圖并串聯(lián),構(gòu)成該區(qū)域特征;將所有區(qū)域特征串聯(lián)起來構(gòu)成圖像的HOG特征描述符。
1.2 深度特征提取
PCANet 原理如圖2所示,在每個(gè)階段選用經(jīng)典的PCA濾波器作卷積核;非線性層選用最簡(jiǎn)單的二進(jìn)制量化(哈希編碼);特征池化層采用逐塊二進(jìn)制碼直方圖作為最終的網(wǎng)絡(luò)輸出特征。
假設(shè)第i層濾波器個(gè)數(shù)為L(zhǎng)i,PCA最小化造成的正交濾波器的重構(gòu)誤差即:
1.3 判別性信息再選取
本文采用RSLDA算法進(jìn)一步對(duì)深淺層特征進(jìn)行提煉。RSLDA算法可自適應(yīng)選取最具判別性的特征,提取的特征不僅能保留大部分能量,且對(duì)噪聲具有一定的魯棒性。算法簡(jiǎn)要介紹如下:
設(shè)有數(shù)據(jù)集X=[x1,x2,…,xn]∈Rm×n(m表示樣本維數(shù),n表示樣本個(gè)數(shù)),RSLDA采用l2,1范數(shù),優(yōu)化方程如下:
其中,Q∈Rm×d(d<m)為判別性投影矩陣;Sb和Sw分別為類間和類內(nèi)散度矩陣;λ1為平衡參數(shù),u為一個(gè)小的正常數(shù)用于平衡兩個(gè)散度矩陣。通過采用l2,1范數(shù),式(3)可自適應(yīng)分配特征權(quán)重。其中約束條件X=PQTX,PTP=I可以看作PCA的變體用以保留能量,P∈Rm×d為正交重構(gòu)矩陣。λ2為平衡參數(shù),E表示誤差,是對(duì)隨機(jī)噪聲的建模。
1.4 特征融合
原理分析:對(duì)任意一張給定的圖像I,采用HOG算法提取圖像的淺層局部特征,記為IH,考慮到數(shù)據(jù)的分布特點(diǎn),采用RSLDA進(jìn)一步對(duì)HOG特征進(jìn)行降維,同時(shí)在保留數(shù)據(jù)分布的基礎(chǔ)上提取數(shù)據(jù)的全局特征,此時(shí)特征記為IHR,因此本文算法的淺層特征中包含了局部-全局特征,且保留數(shù)據(jù)分布性;同時(shí)本算法采用PCANet提取網(wǎng)絡(luò)的深度特征記為IP,同樣采用RSLDA對(duì)PCANet特征進(jìn)行降維,降維后的特征記為IPR;在特征融合階段首先采用串聯(lián)的形式將深淺特征進(jìn)行簡(jiǎn)單融合得到IHP=[IHP,IPR],因融合后的特征會(huì)存在一定的冗余信息,因此進(jìn)一步采用RSLDA對(duì)IHP進(jìn)行降維,同時(shí)也提煉出IHP中最具判別力的特征,這也是對(duì)深淺特征的進(jìn)一步融合;最后,訓(xùn)練SVM分類器進(jìn)行分類。
2 實(shí)驗(yàn)仿真
為驗(yàn)證本文算法性能,在AR和Yale B人臉數(shù)據(jù)庫上進(jìn)行實(shí)驗(yàn),并選用SRC、PCANe、PCANet_RSLDA_SRC、HOG_PCA_SRC、HOG_RSLDA_SRC作為對(duì)比算法。
2.1 AR數(shù)據(jù)庫
AR數(shù)據(jù)庫包含120人每人26張采集于兩個(gè)時(shí)期的圖片,其中一人的全部圖像如圖3所示。
首先選用120人每人第一個(gè)時(shí)期采集的13張圖像作訓(xùn)練樣本,第二個(gè)時(shí)期樣本作測(cè)試集,即訓(xùn)練和測(cè)試樣本的數(shù)量均為120×13=1 560張。因此,此實(shí)驗(yàn)的訓(xùn)練及測(cè)試集中均涵蓋了光照、表情、遮擋及時(shí)間變化。實(shí)驗(yàn)結(jié)果如表1所示。
分析表1的實(shí)驗(yàn)結(jié)果可知,各算法性能為HOG_PCA_SRC<HOG_RSLDA_SRC<PCANet_RSLDA_SRC<本文算法。分析HOG_PCA_SRC<HOG_RSLDA_SRC可知RSLDA能夠比PCA更好地保留判別性信息,也更適用于特征降維;此外基于HOG特征算法的性能低于基于PCANet算法性能,說明深度特征比淺層特征更具判別性;本文算法識(shí)別率高于單獨(dú)的深層特征和淺層特征算法,說明深淺特征融合算法能更好地提取人臉圖像中的判別性信息,且隨著特征維數(shù)的降低,本文算法識(shí)別率下降的速度明顯低于對(duì)比算法,證明本文算法具有一定的魯棒性。
選用第一期的7張無遮擋圖像作訓(xùn)練樣本,即訓(xùn)練樣本總數(shù)為120×7=840張,選用第二期的口罩和墨鏡遮擋作測(cè)試樣本,即測(cè)試樣本的個(gè)數(shù)為120×3=360張。不同情況下各算法的識(shí)別率如表2和表3所示。
分析表2和表3結(jié)果可知,在墨鏡遮擋的情況下,本文算法能在不同的特征維數(shù)下獲得最高的識(shí)別率,PCANet_RSLDA_SRC的性能僅次于本文算法性能約1%,其余3種算法的識(shí)別率較低,而HOG_RSLDA_SRC 與PCANet_RSLDA_SRC相比其性能相差較多,說明HOG特征不適用于遮擋條件下的人臉識(shí)別,而PCANet提取的特征相對(duì)于HOG特征對(duì)遮擋具有更強(qiáng)的魯棒性。本文算法將兩種算法提取的特征進(jìn)行融合后作為最終的人臉特征,且實(shí)驗(yàn)結(jié)果顯示,融合特征的識(shí)別率明顯高于PCANet 和HOG特征所能達(dá)到的識(shí)別率,說明本文算法的融合方法能夠挑選出強(qiáng)魯棒性特征進(jìn)行融合。
圍巾遮擋時(shí),因遮擋面積較大,信息損失較多,所以算法性能均大幅下降,但本文算法仍能獲得高于對(duì)比算法的識(shí)別率。
2.2 Yale B數(shù)據(jù)庫實(shí)驗(yàn)
Yale B數(shù)據(jù)庫包含30個(gè)人每人64張不同光照條件下的正面照片,部分樣例圖像如圖4所示。實(shí)驗(yàn)隨機(jī)選取每人的20張圖片做訓(xùn)練,30張圖片做測(cè)試,重復(fù)10次取平均識(shí)別結(jié)果作為最終的結(jié)果,如圖5所示。
由圖5可知,本文算法識(shí)別率高于對(duì)比算法,證明了本文算法在不同光照條件下對(duì)人臉識(shí)別具有更強(qiáng)的魯棒性;但與PCANet_RSLDA_SRC相比,二者識(shí)別率相差不多,說明在該情況下本文算法性能優(yōu)勢(shì)有限。
3 結(jié)論
本文將HOG特征和PCANet網(wǎng)絡(luò)提取的特征進(jìn)行融合,不僅包含數(shù)據(jù)的淺層局部和數(shù)據(jù)分布信息,還包含深度判別性信息,在AR及Yale B人臉數(shù)據(jù)庫的實(shí)驗(yàn)結(jié)果驗(yàn)證了本文算法的有效性和魯棒性。但和典型的PCANet相比本文算法的識(shí)別性能略低,而典型的PCANet所提取到的特征維數(shù)極高,且需要消耗大量的內(nèi)存及時(shí)間,而本文算法因融合了深淺層特征可以在很小的特征維數(shù)下獲得較高的識(shí)別率,因此本文算法具有一定的合理性。今后的研究工作中會(huì)探索更具判別性更合理的深淺特征進(jìn)行更有效的融合。
參考文獻(xiàn)
[1] KIRBY M,SIROVICH L.Application of the karhunen-loeve procedure for the characterization of human faces[J].IEEE Transactions on Pattern analysis and Machine intelligence,1990,12(1):103-108.
[2] 首照宇,楊曉帆,莫建文.基于改進(jìn)的RPCA人臉識(shí)別算法[J].電子技術(shù)應(yīng)用,2015,41(9):157-160.
[3] HE X,NIYOGI P.Locality preserving projections[C].Advances in Neural Information Processing Systems,2004:153-160.
[4] QIAO L,CHEN S,TAN X.Sparsity preserving projections with applications to face recognition[J].Pattern Recognition,2010,43(1):331-341.
[5] HE X,CAI D,YAN S,et al.Neighborhood preserving embedding[C].IEEE International Conference on Computer Vision,2005:1208-1213.
[6] QIAO Z,ZHOU L,HUANG J Z.Sparse linear discriminant analysis with applications to high dimensional low sample size data[J].Iaeng International Journal of Applied Mathematics,2009,39(1):48-60.
[7] FAN Z,XU Y,ZHANG D.Local linear discriminant analysis framework using sample neighbors[J].IEEE Transactions on Neural Networks,2011,22(7):1119-1132.
[8] 郝靜靜,李莉.一種基于KPCA與LDA的人臉識(shí)別改進(jìn)算法[J].電子技術(shù)應(yīng)用,2013,39(12):132-137.
[9] YE J,XIONG T.Null space versus orthogonal linear discriminant analysis[C].International Conference on Machine Learning,2006:1073-1080.
[10] YE J,JANARDAN R,LI Q,et al.Feature reduction via generalized uncorrelated linear discriminant analysis[J].IEEE Transactions on Knowledge and Data Engineering,2006,18(10):1312-1322.
[11] YANG J,ZHANG D,YONG X,et al.Two-dimensional discriminant transform for face recognition[J].Pattern Recognition,2005,38(7):1125-1129.
[12] Wen Jie,F(xiàn)ang Xiaozhao,Cui Jinrong,et al.Robust sparse linear discriminant analysis[J].IEEE Transactions on Circuits and Systems for Video Technology,2019,29(2):390-403.
[13] Zhang Wuming,Zhao Xi,JEAN-MARIE M,et al.Improving shadow suppression for illumination robust face recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2019,41(3):611-624.
[14] Hu Changhui,Lu Xiaobo,Liu Pan,et al.Single sample face recognition under varying illumination via QRCP decomposition[J].IEEE Transactions on Image Processing,2019,28(5):2624-2638.
[15] Du Lingshuang,Hu Haifeng.Nuclear norm based adapted occlusion dictionary learning for face recognition with occlusion and illumination changes[J].Neurocomputing,2019,340:133-144.
[16] 歐陽寧,鐘歡虹,袁華,等.針對(duì)光照變化的人臉識(shí)別算法研究[J].電子技術(shù)應(yīng)用,2015,41(5):152-155.
[17] BENGIO Y,COURVILLE A,VINCENT P.Representation learning:a review and new perspectives[J].IEEE Transactions on Pattern Analysis and Machine. Intelligence,2013,35(8):1798-1828.
[18] 范葉平,李玉,楊德勝,等.基于深度集成學(xué)習(xí)的人臉智能反饋認(rèn)知方法[J].電子技術(shù)應(yīng)用,2019,45(5):5-8.
[19] 黃海新,張東.基于深度學(xué)習(xí)的人臉活體檢測(cè)算法[J].電子技術(shù)應(yīng)用,2019,45(8):44-47.
[20] GOODFELLOW I J,WARDE-FARLEY D,MIRZA M,et al.Maxout networks [C].Processing of 30th ICML,2013:1-9.
[21] KRIZHEVSKY A,SUTSKEVER I,HINTON G E.ImageNet classification with deep convolutional neural network[C].NIPS,2012:1097-1105.
[22] Li Yong,Zeng Jiabei,Shan Shiguang,et al.Occlusion aware facial expression recognition using CNN with attention mechanism[J].IEEE Transactions on Image Processing,2019,28(5):2439-2450.
[23] SHAKEEL M S,LAM K M.Deep-feature encoding-based discriminative model for age-invariant face recognition[J].Pattern Recognition,2019,93:442-457.
[24] BRUNA J,MALLAT S.Invariant scattering convolution networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(8):1872-1886.
[25] CHAN T H,Jia Kui,Gao Shenghua,et al.PCANet:a simple deep learning baseline for image classification? [J].IEEE Transactions on Image Peocessing,2015,24(12):5017-5032.
作者信息:
趙淑歡
(河北大學(xué) 電子信息工程學(xué)院,河北 保定071002)