王婧,彭亞雄,賀松,陳余
?。ㄙF州大學 大數(shù)據(jù)與信息工程學院,貴州 貴陽 550025)
摘要:基于生物特征識別的身份認證技術已經應用于多個領域,然而單一的生物特征有各自的優(yōu)缺點,為了提高身份認證的安全性和魯棒性,對多生物特征進行融合便成為了身份認證技術新的研究方向。將指紋識別和聲紋識別通過加權融合的方法在匹配層進行融合,實驗結果表明,融合系統(tǒng)的等錯誤率(EER)比指紋識別和聲紋識別提高了0.3%~0.4%,證明了融合系統(tǒng)識別率有所提高。
關鍵詞:指紋識別;聲紋識別;融合;生物特征
0引言
在當今這個信息發(fā)展的時代,身份認證技術是保障信息安全的重要技術之一。由于人體的生物特征有指紋、聲紋等,因此屬于身體特征的識別方式有:指紋識別[1]、手指靜脈識別[1]、人臉識別[2]、聲紋識別[3-4]等。之所以生物特征被廣泛地應用于身份認證,是因為這種認證方式具有穩(wěn)定性、無須記憶等優(yōu)點。
雖然生物特征識別技術有著眾多的優(yōu)點,但是它在現(xiàn)實中的應用并沒有想象中那么廣泛,而造成這種情況的原因有很多,如:利用指紋套復制指紋、說話人聲音的變化都會影響聲紋識別的效果。因此,將多種生物特征相結合既可以很好地彌補單一生物特征自身所帶來的缺陷,又可以提高身份認證的識別率。
本文研究說話人識別與指紋識別的融合方式,采用自適應加權融合方法,在分別對說話人識別與指紋識別進行研究之后,對自適應加權融合系統(tǒng)的識別率進行研究,經過實驗結果的比較,證明融合的識別效果要比單一生物特征的識別率好。
1基于指紋識別的身份認證
1.1指紋圖像建模
使用指紋[5]來進行身份認證,建模時,系統(tǒng)對指紋圖片進行特征提取,所提取的特征點為端點和分叉點,并生成模板,而在特征提取前需要對圖片進行預處理,通過確定的中心點的位置來確定分叉點,最后得到的指紋特征用特征位置和方向來表示。指紋圖像所提取的特征點如圖1所示?!?/p>
1.2指紋識別
在識別階段,所用的匹配方法是基于特征點模式,利用指紋圖像的細節(jié)點坐標模型來做細節(jié)匹配,該方法是利用端點和分叉點來進行指紋識別,它是利用幾何關系來判定模板圖像與測試圖像的兩組特征點位置特性的相似度,并且采用打分的方式輸出匹配的結果。具體的匹配方法可參閱參考文獻[1]。
1.3實驗
在進行指紋識別的研究時,本次實驗所用的數(shù)據(jù)是51個人的指紋數(shù)據(jù),每個人有不同的8張指紋圖片,為了實驗方便,在實驗的過程中均采用每個人的第一張圖片作為模板,剩余的7張圖片作為測試圖片,所得指紋識別系統(tǒng)的EER為0.367 8%。
2基于聲紋識別的身份認證
2.1聲紋識別系統(tǒng)
聲紋識別又稱為說話人識別,其識別過程與指紋識別類似,首先需要對說話人語音進行提取特征建模,然后再對測試語音提取特征并與模板進行匹配,得到相應的匹配結果。在本文中,聲紋識別所使用的模型為高斯混合模型通用背景模型(GMMUBM)[67]。所提取的特征是39維的MFCC(Mel頻率倒譜系數(shù))特征,其中包含13維的MFCC特征,并對每個特征向量進行一階、二階的動態(tài)差分。
2.2實驗
聲紋識別實驗所使用的數(shù)據(jù)庫是清華大學語音和語言技術中心所錄制的數(shù)據(jù)庫,為了便于融合,所取人數(shù)與指紋實驗人數(shù)相同,同為51人。與指紋識別不同的是,聲紋的訓練語音為12條8位的數(shù)字串,且這12條語音合為一條語音來訓練模型,訓練語音為7條8位的數(shù)字串,所得聲紋識別系統(tǒng)的EER為0.476 7%。
3自適應加權融合系統(tǒng)
3.1融合框架
本文中所稱的融合即數(shù)據(jù)融合,對應于數(shù)據(jù)的抽象層次,可將數(shù)據(jù)融合分為4個層次:數(shù)據(jù)級融合、特征級融合、匹配級融合和決策級融合,在本文中將會在匹配級采用自適應加權的融合算法。
3.2加權融合算法
匹配級融合有很多算法,但是較為簡單的方法是對子模塊的匹配值進行加權融合。而對于融合子模塊匹配值的常用方法有兩種:加法融合和乘法融合。其中乘法融合不常用,這是因為當其中一個子模塊本身匹配值極大或者極小時,融合的最終結果都會受到該子模塊的影響。而對于加法融合,各個子模塊的匹配分數(shù)之間沒有十分緊密的聯(lián)系,因此,即使某一個子模塊的匹配分數(shù)出錯,也不會對整個融合的結果有太大的影響。
3.3歸一化處理
由于每一個子模塊的模型不同,因此所得的匹配分數(shù)的形式也會有所不同,例如后驗概率、距離度量等。本文中的指紋識別匹配分數(shù)是利用幾何關系來判定模板圖像與測試圖像的兩組特征點位置特性的相似度,而聲紋識別的匹配分數(shù)是求特征矢量序列X由說話人s產生的后驗概率。顯然這兩種匹配值不可以直接用來當作融合系統(tǒng)的輸入匹配值,在融合之前,需要對兩種匹配值進行歸一化處理。
常用的數(shù)據(jù)歸一化方法有MinMax方法、MediaMAD方法、ZScore方法等,對于眾多的方法,本文采用MinMax方法進行數(shù)值歸一化處理。最大最小值歸一化方法是:將所需處理的數(shù)值全都轉化到[0,1]的區(qū)間。假設有N個匹配距離值{dn}n=1,2,…,N,計算公式為:
d′n=dn-dmindmax-dmin,d∈[0,1](1)
其中,dmax和dmin分別是{dn}n=1,2,…,N的最大值和最小值。
3.4融合算法和權重的分配
假設聲紋識別子系統(tǒng)和指紋識別子系統(tǒng)均有M個歸一化后的匹配值,分別記為:指紋子系統(tǒng){s(Ofinger|λi)}i=1,2,…,M和聲紋子系統(tǒng){s(Ospeaker|λi)}i=1,2,…,M ,根據(jù)加權的加法融合方法,融合后的匹配計算公式為:
s(OfingerOspeaker|λi)=αs(Ospeaker|λi)+βs(Ofinger|λi),
i=1,2,…,M(2)
其中,α+β=1;s(OfingerOspeaker|λi)表示在輸入聲紋識別子系統(tǒng)和指紋識別子系統(tǒng)的歸一化匹配值后的聯(lián)合匹配分數(shù),與單一子系統(tǒng)的匹配分數(shù)相同,分數(shù)值越高,表明測試體與模板越匹配,反之,則不匹配。
為了得到一個穩(wěn)定且可靠的融合系統(tǒng),將指紋識別數(shù)據(jù)庫和聲紋識別數(shù)據(jù)庫的人數(shù)分為3組,分別為A組、B組、C組,將采取3組測試。第一組測試,取A組的數(shù)據(jù)來確定權值,融合權重的α值將從0取到1,其中以0.05的步長逐漸遞增,如此可得到21組融合后的數(shù)值,從這21組的數(shù)值中可找出EER最小的一組權值作為融合系統(tǒng)最優(yōu)的權重,并用這組權重值對B組和C組的數(shù)據(jù)進行加權融合,得到EER1。依照相同的方法進行其余兩組測試,且分別用B組、C組的數(shù)據(jù)確定權值,并得到相應的EER2和EER3。比較3個EER值的大小,得到最小的EER值,而該值所對應的權值即為整個融合系統(tǒng)最優(yōu)的權重,也是最終所采用的權重。
4實驗
4.1數(shù)據(jù)庫
加權融合所使用的數(shù)據(jù)庫就是之前指紋識別與聲紋識別所使用的數(shù)據(jù)庫,兩方各51人,每個人都有8條數(shù)據(jù),且取第一條數(shù)據(jù)來訓練模型,得到訓練集;剩下的7條數(shù)據(jù)做測試,得到測試集。
4.2實驗結果及分析
根據(jù)第3節(jié)所提到的方法得到的最優(yōu)權重,使用該權重對數(shù)據(jù)進行融合,對于系統(tǒng)的性能,將會以EER的值來體現(xiàn),具體的實驗結果如圖2所示。從圖2可以很明顯地看出,當α的值從0到1以0.05的步長逐漸增長時,EER的值呈U形曲線變化;當α的值為0.55時,EER的值達到最小,其值為0.013 11。換言之,此時的融合系統(tǒng)達到最好的狀態(tài),其識別率和穩(wěn)定性優(yōu)于取其他權重的時刻。較單一的指紋識別或是聲紋識別,加權融合的EER有了很大的提高,說明采用加權融合的方法將聲紋識別和指紋識別相結合是有利于系統(tǒng)性能的。
5結論
無論是基于哪種生物特征識別的身份認證技術,它們都有各自的優(yōu)勢和劣勢,為了更好地提高身份認證的安全性和識別率,可以從多個層次考慮多個生物特征識別的融合。本文在匹配層采用加權融合的算法對聲紋識別和指紋識別進行融合,實驗結果也證明了融合效果要好于單一的生物特征識別,同時也證明了融合的可行性。在今后的研究中,可以從其他層次對兩種識別進行融合,以求得到更好的融合系統(tǒng)。
參考文獻
?。?] 李雪峰.基于指紋與手指靜脈的雙模態(tài)識別算法研究[D].哈爾濱:哈爾濱工程大學,2010.
[2] 陳倩.多生物特征融合身份識別研究[D].杭州:浙江大學 2007.
?。?] 熊振宇.大規(guī)模、開集、文本無關說話人辨認研究[D].北京:清華大學,2005.
[4] 陶佰睿,郭琴,李春輝,等.聲紋認證前端音頻預處理SOPC設計[J].電子技術應用,2014,40(9):2426.
[5] 曾杰,吳曉紅,吳小強,等.基于QT/E和指紋識別模塊的巖屑圖像采集系統(tǒng)的設計[J].微型機與應用,2014,33(24):3841.
?。?] KENNY P. Bayesian speaker verification with heavy tailed priors[C]. Speaker and Language Recognition Workshop (IEEE Odyssey), 2010.
?。?] GHARAMANI Z, HINTON G E. The EM algorithm for mixtures of factor analyzers[R]. Technical Report CRGTR961, Department of Computer Science, University of Toronto, 1996.5.