摘 要: 采用了一種基于SURF的人臉識別方法,其中所提取出的SURF特征向量對于圖像的尺度與旋轉(zhuǎn)變化均具有較好的適應(yīng)性;通過采用LDA算法有效地縮短了運算時間;此外還采用K-means聚類方法對特征向量進(jìn)行分組處理;最后通過綜合圖像的局部與全局特征信息便可完成對人臉的分類工作。實驗結(jié)果證明,最終所獲取的LDA-SURF特征向量對于一般圖像中人臉的平移、亮度變化、遮擋和噪聲等具有良好的不變性。
關(guān)鍵詞: 人臉識別;SURF;LDA算法;K-means聚類
經(jīng)過多年研究,人臉識別已經(jīng)得到了很大發(fā)展,而隨著在訪問控制、信息安全和視頻監(jiān)控等領(lǐng)域的應(yīng)用需求不斷增長,如何更好地解決低分辨率、出現(xiàn)遮擋以及光照、姿態(tài)和尺度變化等問題已經(jīng)成為近幾年來研究中的難點與重點[1]。
現(xiàn)在最為傳統(tǒng)的識別方法有Eigen Face、Fisher Face和2D-PCA等。其中由LOWE D G所提出的尺度旋轉(zhuǎn)不變性變換SIFT(Scale Invariant Feature Transform)憑借其良好的性能表現(xiàn)而迅速得到關(guān)注。由于SIFT特征對描述對象的姿態(tài)與大小變化均有很強(qiáng)的適應(yīng)性[2],因此可以將其應(yīng)用于人臉識別。目前已經(jīng)出現(xiàn)了大量的比較優(yōu)秀的尺度不變算法,SIFT算法具有較好的魯棒性,但其計算效率低、算法復(fù)雜度高;SURF算法的思想與SIFT類似,但是其復(fù)雜度有所精簡,在參考文獻(xiàn)[3]中,通過比較兩種特征的性能,最終判斷出SURF比SIFT具有更好的性能。本文所采用的人臉識別方法分特征提取與特征分類兩步進(jìn)行,其中特征提取采用SURF特征與LDA降維相結(jié)合的方法;而特征分類階段則通過改進(jìn)的K-means方法來對特征進(jìn)行區(qū)域劃分,然后綜合利用區(qū)域的局域相似性與全局相似性進(jìn)行最后的分類。具體流程如圖1所示。
1 圖像預(yù)處理
預(yù)處理階段對于人臉識別的功能實現(xiàn)起著非常關(guān)鍵的作用,這就要求在該階段中能夠去除掉盡可能多的由光照與視角所引起的噪聲,并保存圖像中盡可能多的有用信息。
首先要對圖像進(jìn)行膚色檢測處理,以剔除掉人臉周圍的頭發(fā)、衣服等噪聲影響;然后對人臉區(qū)域進(jìn)行直方圖歸一化與像素值歸一化處理,如圖2所示。
在人臉圖像中,兩眼的位置和間距受光照或表情變化的影響是最小的,因此通過對人眼進(jìn)行準(zhǔn)確定位,然后根據(jù)人臉器官的分布關(guān)系,就可以比較準(zhǔn)確地對臉部其他特征進(jìn)行定位,從而進(jìn)行尺寸歸一化處理,如圖3所示。
2 SURF特征介紹
SURF特征作為一種尺度旋轉(zhuǎn)不變特征,其獲取過程由檢測和描述兩步組成,SURF所采用的特征為64維,而不是128維,從而能夠在進(jìn)行特征提取和匹配時更加快速[4]。
為了減少濾波處理的運算量,通過使用盒濾波器來近似表示高斯二階偏導(dǎo)數(shù),并利用該近似表示對源圖像的積分圖像進(jìn)行濾波處理。
在實際計算時,先使用δ=1.2的大小為9×9的近似盒濾波器來構(gòu)成尺度最小的濾波器,隨著尺度的增大,利用這些不同尺度的濾波器來對圖像進(jìn)行濾波處理,并計算出行列式值,從而得出對應(yīng)的近似Hessian矩陣的行列式分布圖,由這些圖便可以構(gòu)成金字塔尺度空間。然后從這些分布圖中得到各個尺度下的行列式極值點,由極值點、同尺度下極值點周圍的8個點以及前后兩個尺度中的18個點組成一個3×3×3的正方體鄰域,將極值點與其正方體鄰域中的其余26個點比較大小,當(dāng)極值點的值大于所有這些點時,將該極值點作為候選點。
2.2 興趣點描述
在確定興趣點的位置之后,接下來就需要對SURF興趣點進(jìn)行描述。參考文獻(xiàn)[5]采用Haar小波響應(yīng)來進(jìn)行興趣點描述。圖4為濾波計算所使用的水平與垂直方向的Haar小波濾波器。其中,黑白兩種顏色區(qū)域的值分別為-1與1。
興趣點描述主要分為主方向確定以及描述向量生成兩步進(jìn)行。參考文獻(xiàn)[6]提出了一種確定方向的方法:假設(shè)檢測該興趣點時的尺度為s,對以興趣點為圓心,以6s為半徑的圓中的點計算Haar小波響應(yīng)。然后將x和y方向上的響應(yīng)值投影到圓形區(qū)域之中,從而得出dx與dy的分布圖,如圖5所示。讓π/3的扇形區(qū)域圍繞圓心旋轉(zhuǎn),對每個扇形區(qū)域中的dx與dy分別求和,利用這兩個值能夠得到一個方向向量,最終可以得到一個向量集合,其中最長的向量就可作為該興趣點的主方向。
2.3 SURF特征降維處理
(1)在訓(xùn)練階段,先從訓(xùn)練樣本集合中提取出SURF特征。設(shè)Ni(i=1,2,…,C)為從某一類人臉樣本中所提取的特征點的數(shù)目,因此可以定義矩陣Bi=1,2,…,C),該矩陣的每一行代表一個SURF向量。
2.4 SURF特征分組
在不同圖像中,興趣點的位置與數(shù)目往往會有很大區(qū)別,因此不能單純依靠興趣點在圖像中的位置來進(jìn)行匹配,否則就會出現(xiàn)錯誤匹配。為了只對人臉圖像中物理意義相同的特征點進(jìn)行比較,采用K-means方法來將人臉圖像分為數(shù)個子區(qū)域,然后將各個子區(qū)域分開進(jìn)行比較。這樣就能夠較好地解決上述問題。
K均值聚類是一種實時的非監(jiān)督性聚類算法,其基本原理是通過最小化誤差函數(shù)來將數(shù)據(jù)分到K種不同的類別中。但由于傳統(tǒng)的均值算法對初始聚類中心十分敏感,聚類中心的不同往往會導(dǎo)致聚類結(jié)果有很大的波動性。針對這一缺點,通過綜合考慮特征點的密度與距離分布特點,本文選擇出相距最遠(yuǎn)且區(qū)域密度為最高的k個點來作為初始聚類中心,這樣就可以盡量避免噪聲數(shù)據(jù)的干擾,從而更好地表現(xiàn)數(shù)據(jù)的分布狀況[7]。定義特征點的r鄰域為半徑為r的圓形區(qū)域,特征點之間的距離計算采用歐氏距離,則選擇最初聚類中心的算法描述如下。
?。?)初始化類的數(shù)目k、鄰域半徑r、以及鄰域內(nèi)所包含點的最小值Pmin。
?。?)計算每個特征點的鄰域內(nèi)所包含的特征點的數(shù)目,如果大于Pmin,就將該點加入到特征點集合M中。
?。?)找出集合M中其鄰域內(nèi)所包含的特征點數(shù)目最多的特征點,將該點作為候選的聚類中心P1,并從集合M中去除。
(4)將集合M中距離P1最遠(yuǎn)的特征點作為聚類中心P2,同樣將其從集合M中去除。
?。?)繼續(xù)尋找集合M中與所有候選聚類中心距離和最大的點作為候選中心點,直到找出k個點為止。
對這些聚類中心運用K-means聚類算法,則可以確定出圖像的各個子區(qū)域。如圖8所示,可以看到圖中所標(biāo)記出的子區(qū)域主要位于雙眼、鼻子和兩嘴角附近,而這些區(qū)域正是人臉圖像中最具有區(qū)分能力的部分。
2.5 特征匹配
經(jīng)過特征分組處理,人臉圖像中的興趣點將會被分到k個不同的區(qū)域Rm中,其中m=1,2,…,k,nk表示子區(qū)域Rk中特征點的數(shù)目,而fij表示子區(qū)域Ri中第j個特征向量。則圖像It與Ir的相似性的計算方法如下。
3 實驗及其結(jié)果
為了對上述人臉識別算法進(jìn)行測試,通過使用標(biāo)準(zhǔn)CAS-PEAL-R1共享人臉圖像數(shù)據(jù)庫來建立訓(xùn)練與測試的樣本庫,該數(shù)據(jù)庫總共包含有30 863幅人臉圖像,這些圖像可以分為兩個主要的子集:正面與非正面人臉圖像子集。這個數(shù)據(jù)庫內(nèi)容十分全面,其中的圖像含有各種表情變化、飾物變化、光照變化、背景變化、姿勢變化及視角變化等,而且面部圖像的關(guān)鍵點(如眼睛、嘴巴的位置)等比較規(guī)范,無需進(jìn)行歸一化和配準(zhǔn)等工作。訓(xùn)練樣本集中共包含有300人的1 200張圖像,通過利用LDA方法來得出訓(xùn)練集的最佳投影矩陣,同時利用K-means方法進(jìn)行特征區(qū)域劃分。測試樣本集中則包含438個人的2 287張圖片。
為了更好地判斷算法的性能,利用樣本集同時對當(dāng)前比較流行的KPCA與傳統(tǒng)的SURF兩種方法進(jìn)行測試,其中的KPCA方法是指核主成分分析方法,是PCA方法的改進(jìn)算法,主要是通過選擇合適的核函數(shù)來在高維空間提取人臉圖像的主成分。3種方法識別結(jié)果的ROC曲線如圖10所示。
為了更好地測試該算法對視頻中人臉的識別表現(xiàn),從2010年FIFA世界杯中的幾場比賽視頻中提取測試集。視頻的分辨率為720×580,幀率為25 f/s,通過從每場比賽視頻中抽取那些出現(xiàn)次數(shù)較多的球員所在的鏡頭序列,每個序列將會包含100~200幀人臉圖像,最終測試集包含3 000余幀圖像。由于視頻中存在姿勢、光照條件、人臉表情與鏡頭環(huán)境等諸多干擾因素,為了分析識別算法的魯棒性,將這些測試集分為A、B兩個子集。A類中的人臉圖像都來自于同一視頻,其中人臉的姿勢、表情、大小、光照與遮擋情況等改變較??;而B類中的圖像則來自于不同的比賽視頻,變化較大。具體測試結(jié)果如表1所示。
本文主要通過提取人臉的SURF特征來進(jìn)行人臉識別工作,然后運用LDA算法與改進(jìn)的K-means算法分別進(jìn)行降維與區(qū)域化處理。從實驗結(jié)果可以看出,無論對于在實驗室條件下所采集的人臉數(shù)據(jù)庫和從視頻中所抽取人臉圖像,均能取得較好的測試效果,但在環(huán)境條件改變較大的情況下,識別正確率仍然不高,有待進(jìn)一步的研究。
參考文獻(xiàn)
[1] BAY H, ESS A, TUYTELAARS T, et al. SURF: speeded up robust features[J]. Computer Vision and Image Understanding, 2008, 110(3):346-359.
[2] SHAKHNAROVICH G, MOGHADDAM B. Face recognition in subspaces[J]. Handbook of Face Recognition, 2004:141-168.
[3] Lei Yunqi, Jiang Xutuan, Shi Zhenxiang, et al. Face recognition method based on SURF feature[J]. International Symposium on Computer Network and Multimedia Technology, 2009:1-4.
[4] An Shan, Ma Xin, Song Rui, et al. Face detection and recognition with SURF for human-robot interaction[J].International Conference on Automation and Logistics, 2009:1946-1951.
[5] Zhao Tuo, Liang Zhizheng, ZHANG D, et al. Interest filter vs interest operator: face recognition using Fisher linear discriminant based on interest filter representation[J]. Pattern Recognition Letters, 2008,(29):1849-1857.
[6] 張銳娟,張建奇,楊翠.基于SURF的圖像配準(zhǔn)方法研究[J].紅外與激光工程,2009,38(1):160-165.
[7] PRABHUET P. Improvising the performance of K-means clustering for high dimensional data set[J]. International Journal on Computer Science and Engineering, 2011:2318-2321.