摘 要: 介紹了一種基于稀疏編碼的人臉識(shí)別算法。先對10副自然圖像應(yīng)用稀疏編碼,學(xué)習(xí)到基函數(shù)和圖像稀疏表示的擬合分布的參數(shù)。在人臉識(shí)別中,用稀疏編碼和已得到的基函數(shù)表示圖像的稀疏,再經(jīng)過擬合分布函數(shù)得到人臉圖像的最終表示,然后應(yīng)用多分類線性支持向量機(jī)(SVM)來完成識(shí)別算法。通過在人臉數(shù)據(jù)庫上的實(shí)驗(yàn)表明,該算法具有很高的識(shí)別正確率。
關(guān)鍵詞: 人臉識(shí)別;稀疏編碼;多類線性SVM;循環(huán)ICA
人臉識(shí)別是生物特征識(shí)別的重要組成部分,相對于其他的生物特征識(shí)別技術(shù),人臉識(shí)別具有操作簡單、結(jié)果直觀、隱蔽性好等優(yōu)點(diǎn)。從100年多前被提出來后,人臉識(shí)別的研究熱度一直沒有降低。隨著互聯(lián)網(wǎng)等信息技術(shù)的發(fā)展,安全識(shí)別變得更加重要,人臉識(shí)別的應(yīng)用面也逐漸擴(kuò)大,在商業(yè)、安全以及司法等行業(yè)內(nèi)都有非常廣泛的應(yīng)用。人臉識(shí)別就是通過計(jì)算機(jī)完成人臉智能判別任務(wù)。圖像識(shí)別是人臉識(shí)別的主要方法。
由于自然條件下不同光照條件、拍攝角度、人臉表情等因素的影響,人臉圖像有較強(qiáng)的不穩(wěn)定性。找到對這些不利因素不敏感而又能有效鑒別特征的算法是提高識(shí)別性能的關(guān)鍵。主成分分析(PCA)是目前應(yīng)用最多的人臉識(shí)別方法。但是PCA方法只考慮了圖像的二階統(tǒng)計(jì)信息,沒有考慮更高階的信息?;谙∈杈幋a的人臉識(shí)別則可以得到更高階的信息,但目前的稀疏編碼的識(shí)別算法中基函數(shù)的學(xué)習(xí)大多依賴于人臉數(shù)據(jù)庫,基函數(shù)會(huì)隨著識(shí)別任務(wù)不同而需要重新學(xué)習(xí)得到[1]。
Shan[2]探索了一種模擬人類視覺過程的循環(huán)ICA(獨(dú)立成分分析)算法。提出通過對自然圖像的應(yīng)用循環(huán)ICA學(xué)習(xí),得到一種通用的視覺特征,這種視覺特征能應(yīng)用在視覺的所有識(shí)別任務(wù)中。
本文基于稀疏編碼學(xué)習(xí)到的通用視覺特征,把學(xué)習(xí)到的通用視覺特征應(yīng)用到基于稀疏編碼的人臉識(shí)別任務(wù)中,通過對兩種通用人臉數(shù)據(jù)庫的實(shí)驗(yàn),均得到了較高的識(shí)別正確率。
2.3估計(jì)a的累積分布函數(shù)
使用參考文獻(xiàn)[2]提到的累積分布函數(shù)方法,可以將圖像稀疏表示ai的密集區(qū)域拉開距離以便于識(shí)別,而非密集的區(qū)域則改變不大。得到累積分布函數(shù)的方法是使用擬合的方式:首先計(jì)算得到所有2 430 490提取圖像子
情和位置也有一定程度的變化。本文選擇直接從參考文獻(xiàn)[5]的主頁下載已經(jīng)手動(dòng)剪切和處理過的64×64大小的圖像。
(1)用Matlab 中的imresize函數(shù)把所有人臉圖像縮小為32×32。使用2.1節(jié)中的白化濾波器白化每個(gè)圖像,接著標(biāo)準(zhǔn)化每副圖像成零平均值和單位方差。對每副圖像提取所有的625個(gè)8×8大小的圖像子塊。
(2) 利用從自然圖像已學(xué)習(xí)到的基函數(shù)D,應(yīng)用稀疏編碼的求解過程的式(1)得到每個(gè)圖像子塊的最可能的稀疏表示ai。
(3) 對ai的每一維應(yīng)用非線性激勵(lì)函數(shù)Gi。當(dāng)a的維數(shù)是64時(shí),現(xiàn)在每個(gè)人臉圖像被一個(gè)625×64=40 000維向量表示。
延續(xù)參考文獻(xiàn)[5]中的方法,隨機(jī)地將圖像分成訓(xùn)練和測試樣本集,每次試驗(yàn)時(shí)從每個(gè)人的圖像中隨機(jī)選取M=2,3,…8個(gè)圖像作為訓(xùn)練圖像,剩余的作為測試圖像。對應(yīng)每個(gè)M,選擇測試50個(gè)隨機(jī)隊(duì)列,最后的識(shí)別率是所有隊(duì)列的平均識(shí)別率。
當(dāng)訓(xùn)練樣本和測試樣本選定后,每副圖像由40 000維的向量表示,維數(shù)太高對識(shí)別的計(jì)算時(shí)間和準(zhǔn)確度都有很大影響,接著選擇使用PCA來降低它的維數(shù)。主成分?jǐn)?shù)目的選擇要使95%的方差被捕獲。例如,當(dāng)M從2~8時(shí),主成分的數(shù)目為27~105。接著使用映射的PCA矩陣來得到訓(xùn)練樣本和測試樣本。
(4)在分類器的選擇上,選用支持向量機(jī)SVM,考慮到非線性SVM的隨維數(shù)增加計(jì)算時(shí)間指數(shù)級(jí)地增長,而選用線性SVM。采用的參考文獻(xiàn)[4]中用到的多類識(shí)別的線性SVM,其中的λ設(shè)置為0.01。
表1列出了在測試圖像上識(shí)別效果,隨著訓(xùn)練圖像數(shù)目的增加,圖像的識(shí)別率逐漸增高,使用參考文獻(xiàn)[5]在其主頁最新更新的結(jié)果作為對比,得到的識(shí)別效果要明顯地優(yōu)于參考文獻(xiàn)[5]的結(jié)果。即使是其最近更新的結(jié)果依舊不如本文的識(shí)別率高。
3.2 在ORL臉部數(shù)據(jù)庫上的實(shí)驗(yàn)
ORL數(shù)據(jù)庫總共包含400個(gè)臉部圖像,分屬40個(gè)人,每人10副。這些圖像拍攝在不同的時(shí)間、光照條件、臉部表情下,如圖4所示。如Yale人臉識(shí)別的實(shí)驗(yàn)一樣,從參考文獻(xiàn)[5]作者的主頁下載已手動(dòng)對齊和切割的64×64大小的圖像,接著用imresize函數(shù)縮小成32×32圖像。具體的實(shí)驗(yàn)步驟與測試Yale數(shù)據(jù)庫時(shí)一樣。從每個(gè)人的圖像中隨機(jī)挑選M=2,3…….8個(gè)圖像作為訓(xùn)練圖像,剩余作為測試。平均識(shí)別正確率如表2所示,本文依然選擇參考文獻(xiàn)[5]和其主頁最近更新的識(shí)別率作為比較。
本文算法在ORL人臉數(shù)據(jù)庫的表現(xiàn)也是隨著訓(xùn)練樣本數(shù)目的增加而增加,并且維數(shù)越大越接近參考文獻(xiàn)[5]的結(jié)果,如維數(shù)為7或8時(shí),得到的結(jié)果幾乎沒有差距。
根據(jù)參考文獻(xiàn)[2]中的通用視覺特征理論,利用稀疏編碼從自然圖像中學(xué)習(xí)到基函數(shù)和稀疏系數(shù)的累積分布函數(shù)參數(shù),并利用稀疏編碼應(yīng)用到人臉識(shí)別中。通過選用兩種通用的人臉數(shù)據(jù)庫進(jìn)行測試,均得到了比較高的識(shí)別率。并與別人的結(jié)果進(jìn)行了對比。算法還有很多可以改進(jìn)的地方:如分類器的其他選擇、預(yù)處理方法的改進(jìn)等。
參考文獻(xiàn)
[1] 楊榮根,任明武,楊靜宇. 基于稀疏表示的人臉識(shí)別方法[J].計(jì)算機(jī)科學(xué),2010,37(9):267-269.
[2] SHAN H H, ZHANG L Y, COTTRELL G W. Recursive ICA[C]. In Advances in Neural Information Processing Systems, 2007:1273-1280.
[3] OLSHAUSEN B A, FIELD D J. Emergence of simple-cell receptive field properties by earning a sparse
code for natural images[J].Nature,1996(381): 607-609.
[4] YANG J, YU K, GONG Y, et al. Linear spatial pyramid matching using sparse coding for image classification[C]. IEEE Confenece on CVPR, 2009:1794-1801.
[5] CAI D, HE X F, HE Y X, et al. Learning a spatially smooth subspace for face recognition[C]. IEEE
Confenece on CVPR, 2007:1-7.