《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 嵌入式技術(shù) > 設(shè)計(jì)應(yīng)用 > 人臉識(shí)別研究的新進(jìn)展及趨勢(shì)
人臉識(shí)別研究的新進(jìn)展及趨勢(shì)
林景亮1,陳岳林2,蔡曉東2
1.桂林電子科技大學(xué) 機(jī)電工程學(xué)院, 廣西 桂林 541004;2.桂林電子科技大學(xué) 信息科技學(xué)院,
摘要: 簡(jiǎn)要回顧了人臉識(shí)別技術(shù)的研究背景及發(fā)展歷程,總結(jié)了近三四年人臉識(shí)別方法的研究進(jìn)展,根據(jù)三維人臉重構(gòu)方法的數(shù)據(jù)來(lái)源不同,將其分為基于靜態(tài)圖像和視頻序列的三維重構(gòu)技術(shù)。重點(diǎn)對(duì)目前多特征和多模態(tài)識(shí)別技術(shù)進(jìn)行了分類闡述,分析了一些有代表性的算法并對(duì)其識(shí)別結(jié)果進(jìn)行了比較。最后,總結(jié)了人臉識(shí)別技術(shù)現(xiàn)存的研究難點(diǎn),并探討了其未來(lái)的發(fā)展方向。
Abstract:
Key words :

摘 要:簡(jiǎn)要回顧了人臉識(shí)別技術(shù)的研究背景及發(fā)展歷程,總結(jié)了近三四年人臉識(shí)別方法的研究進(jìn)展,根據(jù)三維人臉重構(gòu)方法的數(shù)據(jù)來(lái)源不同,將其分為基于靜態(tài)圖像和視頻序列的三維重構(gòu)技術(shù)。重點(diǎn)對(duì)目前多特征多模態(tài)識(shí)別技術(shù)進(jìn)行了分類闡述,分析了一些有代表性的算法并對(duì)其識(shí)別結(jié)果進(jìn)行了比較。最后,總結(jié)了人臉識(shí)別技術(shù)現(xiàn)存的研究難點(diǎn),并探討了其未來(lái)的發(fā)展方向。
關(guān)鍵詞:人臉識(shí)別;三維人臉重構(gòu);多特征;多模態(tài)

    在現(xiàn)有的眾多生物特征(指紋、虹膜、視網(wǎng)膜、掌形等)識(shí)別技術(shù)中,人臉識(shí)別技術(shù)具有傳統(tǒng)的識(shí)別技術(shù)無(wú)法比擬的優(yōu)點(diǎn),如直接、友好、對(duì)用戶干擾少、更易于被接受等。人臉識(shí)別技術(shù)是一門(mén)融合了多學(xué)科(生物學(xué)、心理學(xué)、認(rèn)知學(xué)等)、多技術(shù)(模式識(shí)別、圖像處理、計(jì)算機(jī)視覺(jué)等)的新的生物識(shí)別技術(shù),它具有廣泛的應(yīng)用和巨大的市場(chǎng)前景,可用于身份確認(rèn)(verification or authentication 一對(duì)一比較)、身份鑒別(identification or recognition 一對(duì)多匹配)、訪問(wèn)控制(門(mén)監(jiān)系統(tǒng))、安全監(jiān)控(銀行、海關(guān)監(jiān)控)、人機(jī)交互(虛擬現(xiàn)實(shí)、游戲)等。在人臉識(shí)別研究的早期階段,識(shí)別技術(shù)主要依賴于人的先驗(yàn)知識(shí),也就是二維人臉識(shí)別方法。20世紀(jì)80年代,二維圖像處理技術(shù)日趨成熟,在一定約束條件下人臉識(shí)別已經(jīng)能取得較好的效果,但同時(shí)也暴露了二維人臉識(shí)別技術(shù)對(duì)環(huán)境和人臉姿態(tài)變化魯棒性差的缺點(diǎn)。從20世紀(jì)90年代開(kāi)始,隨著計(jì)算機(jī)性能的飛躍性發(fā)展和成像技術(shù)的進(jìn)一步提高,三維人臉識(shí)別技術(shù)成為目前最受關(guān)注的新方法[1]。在國(guó)內(nèi),比較有代表性的成果是北京奧運(yùn)會(huì)使用的自動(dòng)人臉識(shí)別系統(tǒng)。
1 三維人臉重構(gòu)方法
    三維人臉重構(gòu)是指通過(guò)含有人臉的圖像或視頻中有限的人臉信息來(lái)建立人臉三維模型。根據(jù)人臉信息來(lái)源的不同,本文將三維人臉重構(gòu)方法分為從靜態(tài)圖像重構(gòu)和從視頻序列重構(gòu)兩大類。
1.1 從靜態(tài)圖像重構(gòu)三維人臉
    傳統(tǒng)的三維重建技術(shù)大多是通過(guò)特征點(diǎn)的提取和匹配計(jì)算特征點(diǎn)的三維坐標(biāo)來(lái)獲取臉部的三維結(jié)構(gòu)。特征點(diǎn)定位有手工標(biāo)定和自動(dòng)檢測(cè)兩種,特征點(diǎn)數(shù)目比較大時(shí),手工標(biāo)定很難嚴(yán)格定義特征點(diǎn)之間的對(duì)應(yīng)關(guān)系。ZHANG C等人[2]采用點(diǎn)對(duì)點(diǎn)集的距離來(lái)間接描述特征點(diǎn)之間的相似度,但是,這種局部相似度不能保證全局最優(yōu)匹配,且有可能造成畸變。
    為了減少點(diǎn)對(duì)應(yīng)性的困難,參考文獻(xiàn)[3]中提出了以形狀匹配為相似性度量的通用頭部形變模型,在不需要嚴(yán)格的特征點(diǎn)對(duì)應(yīng)甚至某些特征點(diǎn)缺失的情況下,完成姿態(tài)估計(jì)和三維重建。為了解決搜索點(diǎn)之間的最佳相似性,文中還提出了一種多級(jí)搜索的方法,大大減少了搜索時(shí)間,但這只是基于多幅圖像的情況。雖然多幅圖像可以消除人臉特征部件檢測(cè)的不確定性,但特定臉的多幅圖像一般難以獲得,所以當(dāng)前的很多研究都是基于單一圖像的。為了能獲得人臉的完整的臉部特征信息,單一圖像一般要求是正面人臉圖像且是中性表情。
    BREUER P[4]和胡元奎[5]等人都是基于單一圖像進(jìn)行建模。參考文獻(xiàn)[4]中提出了一種融合支持向量機(jī)(Support Vector Machine)和三維形變模型(3D Morphable Model)的方法,分別用不同方法檢測(cè)人臉和人臉的局部特征(鼻尖、眼角、嘴角),然后確定人臉特征可能的位置并評(píng)估特征點(diǎn)的輪廓,通過(guò)迭代處理提高算法對(duì)頭部方向的魯棒性,最后初始化形變模型的模型試配流程來(lái)產(chǎn)生高分辨率的三維人臉模型。但是,形變模型算法需要花費(fèi)很長(zhǎng)的時(shí)間對(duì)大量的三維人臉數(shù)據(jù)進(jìn)行訓(xùn)練。參考文獻(xiàn)[5]基于通用三維人臉模型的三維人臉合成方法能很好地減少算法的復(fù)雜性和訓(xùn)練時(shí)間。他們利用了基于知識(shí)的特征點(diǎn)定位算法和ASM(Active Shape Model)方法進(jìn)行人臉特征點(diǎn)的定位,用SFS(Shape From Shading)算法恢復(fù)人臉表面深度,并利用內(nèi)插算法對(duì)通用三維人臉模型進(jìn)行變形處理以生成適用于特定人臉的三維模型。此算法的優(yōu)點(diǎn)是只需要一個(gè)通用的三維人臉模型即可,不需要進(jìn)行額外的訓(xùn)練,而且對(duì)訓(xùn)練數(shù)據(jù)以及存儲(chǔ)空間的實(shí)際需求很容易滿足,具有明顯的優(yōu)勢(shì)。
    無(wú)論是單一圖像還是多幅圖像,靜態(tài)圖像提供的信息都是相對(duì)有限的,例如無(wú)法提供連續(xù)多幀圖像和時(shí)間相干性 。于是,在研究從靜態(tài)圖像重構(gòu)人臉模型的同時(shí),少數(shù)研究嘗試了從視頻圖像序列重構(gòu)三維人臉模型的方法。
1.2 從視頻序列重構(gòu)三維人臉
    從視頻重構(gòu)人臉的過(guò)程和從單一圖像重構(gòu)人臉的過(guò)程基本上一樣(如圖1所示),只是源圖像不同。視頻序列雖然也可以使用適合于單一圖像的方法,如參考文獻(xiàn)[4]從圖像序列中選出最合適的一幀圖像(例如正面圖像)來(lái)重構(gòu)三維人臉模型,但這顯然不是應(yīng)用視頻序列圖像的目的。


    PARK U等[6]用通用三維人臉模型和兩個(gè)視頻幀來(lái)重構(gòu)特定用戶三維人臉模型。他們從立體視頻中重建臉部標(biāo)記點(diǎn)的稀疏集合,將其用于薄板樣條TPS(Thin Plate Spline)的試配過(guò)程,在TPS試配的基礎(chǔ)上對(duì)一般人臉模型進(jìn)行非線性變換,得到合適的三維人臉模型,將視頻中人臉紋理信息對(duì)三維人臉模型進(jìn)行映射,從而獲得真實(shí)的三維人臉模型。該方法應(yīng)用比較廣泛,但在重建的初始化階段,初始值與通用模型非常相似,導(dǎo)致重建的模型與視頻中的人臉相比更近似于通用人臉模型。此缺點(diǎn)可以利用SFM(Structure From Motion)算法[7]解決。首先,SFM算法能夠保留通用人臉模型的特定特征;其次,通過(guò)與通用人臉模型比較,兩臉間的誤差在能量函數(shù)最小化過(guò)程中都被修正。但是,不使用通用模型,單純用SFM算法對(duì)視頻圖像進(jìn)行三維估計(jì)會(huì)使深度估計(jì)變得困難,可能會(huì)帶來(lái)其他信息不足或估計(jì)誤差等問(wèn)題。文中的算法流程如圖2所示[7]。

2 多特征融合人臉識(shí)別方法
    重構(gòu)三維人臉模型只是人臉識(shí)別的重要手段之一,但其算法相對(duì)復(fù)雜。目前,使用多方法(二維)融合來(lái)提高識(shí)別性能還是人臉識(shí)別領(lǐng)域研究的熱點(diǎn)[8-15]。多方法融合主要分為融合多種臉部特征(膚色、輪廓和紋理等信息)和融合多種模態(tài)(二維和三維信息)兩種。由于圖像與形狀信息相對(duì)獨(dú)立,多特征融合的人臉識(shí)別方法曾經(jīng)很少使用。
    2005年前后,SU Hong Tao[8]和周曉彥等人[9]分別提出了融合主分量分析PCA(Principal Component Analysis)與線性判別式分析LDA(Linear Discriminant Analysis)混合特征和融合核主元分析KPCA(Kernel Principal Component Analysis)與核判別式分析KDA(Kernel Discriminant Analysis)的人臉識(shí)別算法。在參考文獻(xiàn)[8]中,利用庫(kù)中圖像和被檢測(cè)圖像的交互信息進(jìn)行粗分類,在圖形數(shù)據(jù)的傅里葉頻率區(qū)域進(jìn)行PCA和LDA特征的抽取。由于PCA和LDA能分別反映圖像的不同特性,故融合兩子特征將取得比單一特征更好的分類性能。參考文獻(xiàn)[9]首先求解KDA的最佳判別矢量,然后基于KPCA準(zhǔn)則函數(shù)求得另一組投影矢量,最后將兩組投影矢量融合成一組新的特征矢量用于特征的提取。
    與參考文獻(xiàn)[8]和參考文獻(xiàn)[9]不同,LIU Zhi Ming等[10]應(yīng)用了顏色和頻率特征。離散傅里葉變換將膚色RIQ空間轉(zhuǎn)換到頻域并分別求出各個(gè)顏色分量的掩飾面(mask),用增強(qiáng)Fisher模型EFM(Enhanced Fisher Model)抽取互補(bǔ)頻率特征(包括檢測(cè)臉、庫(kù)中人臉和R分量大?。?,在特征水平上用級(jí)聯(lián)的方法將其融合在一起,將得到的相似性結(jié)果用于分類。分別對(duì)各個(gè)分量進(jìn)行互補(bǔ)頻率特征抽取和分類,最后將分類結(jié)果通過(guò)加權(quán)因子再次融合在一起,用于人臉的識(shí)別。該方法比單顏色分量時(shí)的識(shí)別率有很大的提高,這也說(shuō)明,單一特征所包含的信息都是有限的。充分利用人臉的膚色和紋理結(jié)構(gòu)等各種特征,將會(huì)取得較好的識(shí)別效果。
3 多模態(tài)融合人臉識(shí)別方法
    多模態(tài)融合的人臉識(shí)別方法與多特征融合方法一樣,目的是融合二維和三維甚至四維的臉部信息,以提高識(shí)別的精度和算法對(duì)環(huán)境的魯棒性[11,14-15]。
    在多模態(tài)融合的研究上,比較成功的是MIAN A等人[12]提出的全自動(dòng)三維人臉識(shí)別算法。該算法能全自動(dòng)檢測(cè)人臉鼻子區(qū)域,自動(dòng)修正三維人臉姿態(tài)和進(jìn)行標(biāo)準(zhǔn)化處理,可以在規(guī)模比較大的人臉識(shí)別中通過(guò)粗匹配快速拒絕大多數(shù)不適合的人臉并能自動(dòng)分割易受表情影響和不易受表情影響區(qū)域。但是,算法在最后識(shí)別階段容易受頭發(fā)的影響,且無(wú)法自動(dòng)檢測(cè)側(cè)面圖像。為了解決此問(wèn)題,他們?cè)谇捌谘芯康幕A(chǔ)上提出了一種有效的多模態(tài)(二維/三維)融合和混合(局部/整體特征)匹配的方法[13]。該方法在參考文獻(xiàn)[12]的基礎(chǔ)上,用三維球面人臉描述SFR(Spherical Face Representation)和可變尺度特征變換SIFT(Scale-Invariant Feature Transform)描述子來(lái)構(gòu)建拒絕分類器,通過(guò)粗(整體)匹配快速拒絕大部分候選人臉并對(duì)剩下的人臉進(jìn)行區(qū)域分割,得到對(duì)表情不敏感的局部特征區(qū)域(眼睛-前額/鼻子),再用修正的迭代最近點(diǎn)算法(Modified ICP)對(duì)這些局部特征進(jìn)行單獨(dú)匹配。
    相對(duì)三維融合二維信息的方法,三維與四維信息的融合技術(shù)應(yīng)用比較少。參考文獻(xiàn)[14]中PAPATHEODOROR T等人利用人臉紋理結(jié)構(gòu)和表面信息注冊(cè),提出一種自動(dòng)的四維人臉識(shí)別方法。他們利用立體攝像系統(tǒng),結(jié)合面部外觀的二維紋理映射描述符和三維面部幾何的致密三維網(wǎng)格頂點(diǎn)描述符,重構(gòu)四維人臉數(shù)據(jù)。在識(shí)別階段先進(jìn)行三維或者四維剛性注冊(cè),然后通過(guò)ICP算法和歐氏距離計(jì)算兩臉部圖形對(duì)應(yīng)點(diǎn)的距離,根據(jù)相似性判斷來(lái)進(jìn)行識(shí)別。表1所示是多特征融合與多模態(tài)融合的一些代表性算法在各自實(shí)驗(yàn)中的結(jié)果。


  由于現(xiàn)在人臉數(shù)據(jù)庫(kù)并不統(tǒng)一,不同文獻(xiàn)的實(shí)驗(yàn)數(shù)據(jù)庫(kù)一般不一樣,且所使用的圖像類型(顏色圖像和灰度圖像)與大小不同,因此很難根據(jù)它的識(shí)別率來(lái)判斷某個(gè)算法的優(yōu)劣性。此外,即使使用同一個(gè)數(shù)據(jù)庫(kù),數(shù)據(jù)庫(kù)中也往往含有各種變化劇烈程度不一致的表情、姿態(tài)和光照情況,在不同的環(huán)境和姿態(tài)表情下,算法的結(jié)果會(huì)有很大的差別。
    目前,三維人臉識(shí)別方法已經(jīng)代替二維人臉識(shí)別方法成為研究熱點(diǎn)??朔砬樽藨B(tài)和環(huán)境影響是目前三維識(shí)別研究的主要目的,其手段就是從圖像中重構(gòu)人臉三維模型。圖像采集設(shè)備的差異和成像原理的不同,造成了采集數(shù)據(jù)的差異,如何更好地獲取更多的有效信息與對(duì)數(shù)據(jù)的正規(guī)化一樣成為難題。同時(shí),特征點(diǎn)定位和人臉特征的提取對(duì)三維人臉重構(gòu)非常重要,有效地監(jiān)測(cè)定位和特征提取算法有待進(jìn)一步地完善。
    雖然三維數(shù)據(jù)獲取技術(shù)有了飛速發(fā)展,但遠(yuǎn)沒(méi)有達(dá)到像獲取二維圖像那么方便和普及,且基于三維信息的識(shí)別技術(shù)同樣會(huì)受到人臉姿態(tài)和環(huán)境的影響。此外,由于三維識(shí)別算法在某些特定環(huán)境下(視頻監(jiān)控、受限制區(qū)域)無(wú)法像二維識(shí)別技術(shù)一樣取得令人滿意的結(jié)果,它需要二維方法甚至更高維方法的輔助來(lái)提高它的識(shí)別精度和魯棒性,故融合多特征的識(shí)別技術(shù)和融合多模態(tài)的人臉識(shí)別技術(shù)在很長(zhǎng)的一段時(shí)間內(nèi)將是最有效的人臉識(shí)別方法之一。
參考文獻(xiàn)
[1] 段錦, 周春光, 劉小華. 三維人臉識(shí)別研究進(jìn)展[J] . 小型微型計(jì)算機(jī)系統(tǒng), 2004 , 25 (5) : 886-890.
[2] ZHANG C, COHEN S. 3-D face structure extraction and recognition from images using 3-D morphing and distance mapping[ J ] . IEEE Trans on PAMI, 2002 ,11 (11):1249-1258.
[3] XUE Feng, DING Xiao Qing. 3D reconstruction of  human face based on shape match morphing model[ J ] . ACTA ELECTRONICA SINICA , 2006, 34(10):1896-1899.
[4] BREUR P, KIM Kwang-In, KIENZLE W, et al . Automat ic 3D face reconstruction from single images or video[C]. Automatic Face & Gesture Recognition, 2008. FG '08. 8th IEEE International Conference on 17-19 Sept. 2008:1-8.
[5] 胡元奎.可變光照和可變姿態(tài)下的人臉圖像識(shí)別研究[D]. 合肥: 中國(guó)科學(xué)技術(shù)大學(xué), 2006.
[6] PARK U, JAIN A K. 3D face reconstruction from stereo video[C]. Proceedings of the 3rd Canadian Conference on Computer and Robot Vision (CRV’06),2006:41–41.
[7] CHOWDHURY A R, CHELLAPPA R, VO T, et al.3D face reconstruction from video using a generic model[C]. Multimedia and Expo, 2002. ICME '02. Proceedings. 2002 IEEE International Conference on Volume 1,26-29 Aug, 2002,1:449 - 452.
[8] SU Hong Tao, FENG D D, WANG Xiu Ying, et al . Face recognition using hybrid feature[C]. Machine Learning and Cybernetics, 2003 International Conference, 2003(5):3045–3049.
[9] 周曉彥,鄭文明. 一種融合KPCA和KDA的人臉識(shí)別新方法[J]. 計(jì)算機(jī)應(yīng)用, 2008,28(5):1263-1266.
[10] LIU Zhi Ming , LIU Cheng Jun. A hybrid color and frequency features  method  for  face recognition[J]. Image Processing, IEEE Transactions , 2008,17(10):1975–1980.
[11] LIN C J, CHU C H, LEE C Y, et al . 2D/3D Face Recognition Using Neural Networks Based on Hybrid Taguchi-Particle Swarm Optimization[C]. Intelligent Systems Design and Applications, 2008. ISDA '08. Eighth International Conference on Volume 2,26-28 Nov, 2008:307–312.
[12] MIAN A, BENNAMOUN M, OWENS R. Automatic 3D face detection, normalization and recognition[J]. 3D Data Processing, Visualization, and Transmission, Third International Symposium on 14-16 June, 2006:735–742.
[13] MIAN A S, BENNAMOUN M, OWENS R. An efficient multimodal 2D-3D hybrid approach to automatic face recognition[J]. IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE,2007,29(11):1927-1943.
[14] T PAPATHEODOROU, RUECKERT D. Evaluation of automatic 4D face recognition using surface and texture registration[C]. Automatic Face and Gesture Recognition, 2004. Proceedings. Sixth IEEE International Conference on 17-19 May, 2004:321–326.
[15] RAMA A,  TARRES F, ONOFRIO D, et al . Mixed 2D-3D information for pose estimation and face recognition[C]. Acoustics, Speech and Signal Processing, 2006. ICASSP 2006 Proceedings. 2006 IEEE International Conference on Volume 2, 2006:14-19.

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。