摘 要: 傳統(tǒng)的主分量分析在處理圖像識別問題時是基于向量的。結(jié)合視頻監(jiān)控應(yīng)用的特點,實現(xiàn)了兩種直接基于圖像矩陣的廣義主分量分析方法。經(jīng)使用ORL人臉" title="人臉">人臉庫試驗比較,該方法不僅在識別性能上優(yōu)于經(jīng)典的Eigenfaces和Fisherfaces方法,且大大加快了特征抽取的速度,滿足了視頻監(jiān)控系統(tǒng)" title="視頻監(jiān)控系統(tǒng)">視頻監(jiān)控系統(tǒng)中人臉識別" title="人臉識別">人臉識別實時性的需求。
關(guān)鍵詞: 廣義主分量分析 主分量分析 特征抽取 人臉識別
近年來,數(shù)字視頻監(jiān)控在各行各業(yè)得到了廣泛應(yīng)用,如軍事上、小區(qū)和樓宇安全監(jiān)控、銀行證券系統(tǒng)、林業(yè)部門火情監(jiān)控、交通違章和流量監(jiān)控等。視頻監(jiān)控系統(tǒng)對被監(jiān)控目標(biāo)的自動識別,給監(jiān)控部門提供了更多的信息保障,降低了犯罪率,并節(jié)省了人力和物力。人臉識別技術(shù)就是通過計算機分析人臉圖像,從中提取有效的識別信息,從而辨認(rèn)身份的一種技術(shù)。它是一種非侵犯式的主動識別,易為廣大人群所接受。人臉識別不僅在視頻監(jiān)控方面,在其他諸如安全驗證系統(tǒng)、信用卡驗證、視頻會議、人機交互等方面都具有十分廣闊的應(yīng)用前景。
人臉識別的方法很多,主分量分析PCA(也稱K-L變換)是特征抽取最為經(jīng)典的方法之一,目前仍被廣泛地應(yīng)用在人臉等圖像識別領(lǐng)域[1][2]。盡管PCA方法的性能不錯,但是傳統(tǒng)做法的缺點明顯:首先,將圖像矩陣轉(zhuǎn)化為圖像向量,然后以該圖像向量作為原始特征進(jìn)行PCA。由于圖像向量的維數(shù)一般較高,給隨后的特征抽取造成了困難。若圖像的分辨率為100×100,則所得圖像向量的維數(shù)高達(dá)10 000,在如此高維的圖像向量上完成PCA是非常耗時的。盡管利用奇異值分解定理可加速總體散布矩陣特征向量" title="特征向量">特征向量的求解速度,但整個特征抽取過程的計算量仍相當(dāng)可觀。
考慮到視頻監(jiān)控系統(tǒng)的實時性需求,本文借鑒Liu[3]代數(shù)特征抽取的新思路,直接利用圖像矩陣構(gòu)造圖像散布矩陣,實現(xiàn)了基于兩種圖像矩陣的廣義主分量分析方法。該方法簡單易行,不僅在識別性能上優(yōu)于Eigenfaces[4]和Fisherfaces[5]方法,其突出特點是特征抽取的速度大大加快,從根本上克服了傳統(tǒng)PCA耗時過多的弱點,滿足了視頻監(jiān)控系統(tǒng)中自動人臉識別實時性的需求。
1 經(jīng)典的主分量分析
PCA技術(shù)最早由Sirovich和Kirby引入人臉識別領(lǐng)域,其主要思想是降維,以Turk和Pentland的Eigenfaces方法最具代表性[6],該方法的具體過程如下:
設(shè)人臉灰度圖像的分辨率為m×n,則該圖像構(gòu)成一個m×n的圖像矩陣A。首先將圖像矩陣A轉(zhuǎn)化為N=m×n維的圖像向量x,根據(jù)訓(xùn)練樣本集構(gòu)造N×N的總體散布矩陣St:
St=E(x-Ex)(x-Ex)T (1)
選取一組標(biāo)準(zhǔn)正交且使得準(zhǔn)則函數(shù)式(2)達(dá)到極值的向量ξ1,…,ξd,做為投影軸,其物理意義是使投影后所得特征的總體散布量(類間散布量與類內(nèi)散布量之和)最大" title="最大">最大。
Jt(ξ)=ξTStξ (ξTξ=1) ??? (2)
由于準(zhǔn)則函數(shù)式(2)等價于
式(3)即為矩陣St的Rayleigh商。由Rayleigh商的極值性質(zhì)[7],最優(yōu)投影軸ξ1,…,ξd可取為St的d個最大特征值所對應(yīng)的標(biāo)準(zhǔn)正交的特征向量。
2 廣義主分量分析
2.1 基于圖像總體散布矩陣的主分量分析
設(shè)X表示n維列向量,基于圖像矩陣的PCA就是將m×n的圖像矩陣A通過線性變換Y=AX直接投影到X上,得到一個m維列向量Y,稱為圖像A的投影特征向量。
決定最優(yōu)投影軸X最直觀的辦法是通過投影特征向量Y的散布情況來決定投影方向X。通常采用以下準(zhǔn)則:
Jt(X)=tr(MTx) (4)
其中,MTx表示投影特征Y的總體散布矩陣,tr表示取矩陣的跡。最大化準(zhǔn)則(4)式的直觀意義是:尋找這樣的投影方向X,使投影后所得特征向量的總體散布量最大。
稱(9)式為廣義總體散布量準(zhǔn)則。最大化該準(zhǔn)則的單位向量X稱為最優(yōu)投影軸,其物理意義是,圖像矩陣在X軸上投影后所得的特征向量的總體分散程度最大。事實上,最優(yōu)投影軸即為圖像總體散布矩陣Mt的最大特征值所對應(yīng)的單位特征向量。
在樣本類別數(shù)較多的情況下,單一的最優(yōu)投影方向是不夠的,需要尋找一組滿足標(biāo)準(zhǔn)正交條件且最大化準(zhǔn)則函數(shù)(9)式的最優(yōu)投影軸X1,…,Xd。因此,準(zhǔn)則函數(shù)(9)式等價于:
2.2 基于圖像類間散布矩陣的主分量分析
上節(jié)的分析中,采用的是廣義總體散布量準(zhǔn)則,考慮到以樣本的可分性最好為目標(biāo),還可以在(4)式中采用另一準(zhǔn)則:
Jb(X)=tr(MBx) (11)
其中,MBx表示投影特征向量Y的類間散布矩陣,其物理意義是,圖像矩陣在X方向上投影后所得特征向量的類間分散程度最大。
同前面的分析,首先給出MBx的估計:
相應(yīng)地,最優(yōu)投影軸為矩陣Mb的最大特征值所對應(yīng)的單位特征向量。同樣,考慮到需要抽取多個投影軸,準(zhǔn)則函數(shù)(14)式等價于下式:
最優(yōu)投影軸X1,…,Xd即可取為Mb的d個最大特征值所對應(yīng)的標(biāo)準(zhǔn)正交的特征向量。
2.3 特征抽取
設(shè)最優(yōu)圖像投影軸為X1,…,Xd,由
Yk=AXk,k=1,2,…,d (17)
得到一組投影特征向量Y1,…,Yd,稱為圖像A的主成分,可將其合并為一個m×d維的圖像A的整體投影特征向量B用于后面的分類識別。
B=[Y1,…,Yd]T=A[X1,…,Xd]T=AP (18)
其中,P=[X1,…,Xd]T。
2.4 分類
3 試驗與分析
ORL人臉庫由40人、每人10幅112×92的圖像組成,其中有些圖像拍攝于不同的時期;人臉表情與臉部細(xì)節(jié)有著不同程度的變化,如笑或不笑、眼睛睜或閉、戴或不戴眼鏡;人臉姿態(tài)也有相當(dāng)程度的變化,深度旋轉(zhuǎn)與平面旋轉(zhuǎn)可達(dá)20°;人臉的尺度也有多達(dá)10%的變化。圖1是ORL人臉庫中某一人的5幅圖像。
本試驗中,以每人的前5幅圖像作為訓(xùn)練樣本,后5幅作為測試樣本,這樣訓(xùn)練樣本和測試樣本的總數(shù)均為200,屬于典型的高維小樣本識別問題。分別構(gòu)造圖像總體散布矩陣Mt和圖像類間散布矩陣Mb,并分別計算其前10個最大特征值所對應(yīng)的標(biāo)準(zhǔn)正交特征向量X1,…,X10,選取其中的1到10作為投影軸進(jìn)行(18)式的特征抽取。在此,人臉灰度圖像是112×92矩陣,若取k個投影軸,則所得整體投影特征向量的維數(shù)是112×k。
試驗1:在每個投影空間內(nèi),對兩種基于圖像矩陣(圖像總體散布矩陣Mt和圖像類間散布矩陣Mb)的主分量分析分別采用最小距離分類器和最近鄰分類器進(jìn)行分類,識別率見表1。
試驗2:比較了本文兩種基于圖像矩陣的主分量分析方法與經(jīng)典的Eigenfaces、Fisherfaces方法在最近鄰分類器下的識別率,結(jié)果見表2。
試驗3:比較了上面四種方法在取得最佳識別率時的特征抽取和識別時間,結(jié)果見表3。
由表1、表2可見,兩種基于圖像矩陣的主分量分析方法在兩類分類器下的識別率相差不大,其性能都優(yōu)于Eigenfaces和Fisherfaces方法。由表3可見,在時間方面,基于圖像類間散布矩陣Mb的主分量分析的特征抽取速度最快,是Eigenfaces、Fisherfaces方法的近26倍。這是因為在基于Mb的主分量分析中,Mb是92階的,而在Eigenfaces和Fisherfaces方法中需處理112×92=10 304階的總體散布矩陣,盡管利用奇異值定理可加速總體散布矩陣的特征向量的求解速度,但計算量仍很大,因此耗時過多。
本文結(jié)合視頻監(jiān)控系統(tǒng)中人臉識別實時性的需求,實現(xiàn)了兩種基于圖像矩陣的廣義主分量分析的人臉識別方法。與傳統(tǒng)主分量分析處理圖像識別問題不同,該方法不需要事先將圖像矩陣轉(zhuǎn)化為圖像向量,而是直接利用圖像矩陣本身構(gòu)造形如(8)式和(15)式所示的圖像散布矩陣,然后取它的d個最大特征值所對應(yīng)的標(biāo)準(zhǔn)正交的特征向量作為投影軸即可。實驗結(jié)果表明,該方法不僅在識別性能上優(yōu)于經(jīng)典的Eigenfaces和Fisherfaces方法,最突出的優(yōu)點是大幅度地降低了計算量,使特征抽取的速度提高了一個數(shù)量級,且方法簡單易行,適于實時視頻監(jiān)控系統(tǒng)的應(yīng)用。
參考文獻(xiàn)
1 Pentland A.Looking at people:Sensing for ubiquitous and wearable computing[J].IEEE Transactions on Pattern Analysis And Machine Intelligence,2000;22(1):107~109
2 Grudin M A.On internal representations in face recognition systems[J].Pattern Recognition,2000;33(7):1161~1177
3 Liu K,Cheng Y Q,Yang J Y.Algebraic feature extraction for image recognition based on an optimal discriminant criterion[J].Pattern Recognition,1993;26(6):903~911
4 Turk M,Pentland A.Face recognition using eigenfaces[A].In: Proceedings IEEE conference on computer vision and pattern recognition[C],Hawaii,1991:586~591
5 Belhumeur P N,Hespanha J P,Kriengmam D J.Eigenfaces vs.Fisherfaces:Recognition using class specific linear projec-tion[J].IEEE Transactions on Pattern Analysis And Machine Intelligence,1997;19(7):711~720
6 周 杰,盧春雨,張長水等.人臉自動識別方法綜述[J].電子學(xué)報,2000;28(4):102~105
7 程云鵬.矩陣論[M].西安:西北工業(yè)大學(xué)出版社,1999:294~302