文獻(xiàn)標(biāo)識(shí)碼: A
文章編號(hào): 0258-7998(2011)05-0110-04
一個(gè)典型的說(shuō)話人識(shí)別系統(tǒng)提取的說(shuō)話人特征通常為時(shí)變特性參數(shù)如梅爾倒譜系數(shù)MFCC(Mel-Frequency Cepstrum Coefficients)[1]、感知線性預(yù)測(cè)系數(shù)PLP(Perceptual Linear Prediction)[2]或韻律特征[3]。然而,實(shí)際使用時(shí)由于受到噪音干擾,或者訓(xùn)練與識(shí)別傳輸通道不匹配,識(shí)別系統(tǒng)通常不能表現(xiàn)良好[4]。目前解決這一問(wèn)題的手段主要集中在特征域、模型域和得分域?,F(xiàn)有特征域魯棒性處理方法主要有:RASTA濾波[5]、倒譜均值歸一化(CMN)[6]、直方圖均衡[7]和倒譜規(guī)整[8-11]等。這些算法通常以在識(shí)別前增加額外的運(yùn)算來(lái)?yè)Q取魯棒性的提高,如統(tǒng)計(jì)概率密度分布及計(jì)算各階矩等。
本文算法主要從特征域入手,旨在減少識(shí)別階段運(yùn)算時(shí)間的同時(shí)提高識(shí)別系統(tǒng)的魯棒性。參考文獻(xiàn)[12]采用了觀察值的各階矩和中心矩作為段級(jí)特征,并與模型結(jié)合,在不顯著影響識(shí)別率的情況下提高了識(shí)別速度。其缺點(diǎn)是,采用段級(jí)特征與采用幀級(jí)特征相比較識(shí)別率較低。參考文獻(xiàn)[13]提出了一種改進(jìn)的PCA方法用于掌紋識(shí)別,通過(guò)提取更有利于分類的基向量,提高了降維后特征的魯棒性。本文結(jié)合了兩者的優(yōu)點(diǎn),提出了一種基于PCA的段級(jí)特征PCAULF(PCA based Utterance Level Feature)提取算法。該算法特點(diǎn)如下:
(1)以段級(jí)特征代替幀級(jí)特征,可減少識(shí)別過(guò)程中模板匹配的次數(shù),通過(guò)減少運(yùn)算量來(lái)提高識(shí)別速度;
(2)在段級(jí)特征降維時(shí)引入改進(jìn)的PCA算法,一方面實(shí)現(xiàn)了數(shù)據(jù)的降維,既抑制了噪聲對(duì)識(shí)別系統(tǒng)的影響,又提高了識(shí)別的速度;另一方面,選擇更利于分類的特征向量組成變換矩陣,提高識(shí)別系統(tǒng)的魯棒性。
實(shí)驗(yàn)結(jié)果表明,在三種不同噪聲背景下進(jìn)行測(cè)試比對(duì),段級(jí)特征獲得了較高的識(shí)別率和較快的識(shí)別速度。
1 段級(jí)特征提取算法
1.1 段級(jí)特征的定義
由于語(yǔ)音的短時(shí)平穩(wěn)特性,可以考慮在一段語(yǔ)音中提取特征,這樣就使得同樣的語(yǔ)音長(zhǎng)度用更少的語(yǔ)音特征去描述,該特征被稱為段級(jí)特征。它是和傳統(tǒng)的按幀提取語(yǔ)音特征相對(duì)應(yīng)的一個(gè)概念。段級(jí)特征的一般表示形式是:
其中,ULFi、ULFi′代表第i個(gè)段級(jí)特征矢量,式(1)表示ULFi′從連續(xù)的G幀語(yǔ)音信號(hào)s中直接提取,式(2)表示ULFi從連續(xù)的G個(gè)幀級(jí)特征矢量a中提取。使用段級(jí)特征的關(guān)鍵在于段長(zhǎng)G的選取和函數(shù)fG(·)的選取。首先討論函數(shù)的選取,段級(jí)特征是觀察值的函數(shù)。本文中,fG(·)主要包括以下兩個(gè)步驟:
(1)以G為段長(zhǎng)、Ginc為段移,將G個(gè)幀級(jí)特征矢量組合成超矢量。組成超矢量的操作類似于對(duì)數(shù)據(jù)的取幀操作,如圖1所示。
(2)采用改進(jìn)的主成分分析方法對(duì)超矢量進(jìn)行降維,得到段級(jí)特征。
1.2 PCA方法
主成分分析PCA(Principal Component Analysis)是一種掌握事物主要矛盾的統(tǒng)計(jì)分析方法,它可以從多元事物中解析出主要影響因素,簡(jiǎn)化復(fù)雜的問(wèn)題。PCA假定具有大變化的方向的數(shù)據(jù)比有很少變化的方向上的數(shù)據(jù)攜帶有更多的信息,因而它尋找具有最大方差的那些稱之為主軸的方向來(lái)表征原始數(shù)據(jù)。計(jì)算主成分的目的是在最小均方誤差意義下將高維數(shù)據(jù)投影到較低維空間。
的形式有效表示X。其中,通過(guò)K-L變換(Karhunen-Loeve Transform)計(jì)算相互正交的一組基向量,可以得到P。
具體的PCA分析步驟如下:
2 實(shí)驗(yàn)配置及結(jié)果分析
采用PCAULF作為特征參數(shù)的說(shuō)話人識(shí)別模型如圖2所示。語(yǔ)音數(shù)據(jù)經(jīng)過(guò)預(yù)處理和特征提取兩個(gè)步驟,得到幀級(jí)特征矢量集。訓(xùn)練時(shí),由PCA對(duì)所有語(yǔ)音的段級(jí)特征求取降維變換矩陣,之后通過(guò)訓(xùn)練得到模板參數(shù);識(shí)別時(shí),首先使用訓(xùn)練時(shí)得到的變換矩陣對(duì)待測(cè)語(yǔ)音的段級(jí)特征進(jìn)行降維,之后再通過(guò)模板匹配得到識(shí)別結(jié)果。
語(yǔ)音數(shù)據(jù)采用TIMIT語(yǔ)音數(shù)據(jù)庫(kù),隨機(jī)選取50人,每人共10條語(yǔ)音,每條語(yǔ)音長(zhǎng)4~6 s,其中8條用于訓(xùn)練,2條用于識(shí)別,保證了訓(xùn)練與識(shí)別語(yǔ)音的不一致。噪聲庫(kù)采用NoiseX-92專業(yè)噪聲庫(kù)中的三種常見噪聲,分別為平穩(wěn)高斯白噪聲、粉噪聲和Babble噪聲?;€系統(tǒng)聲學(xué)特征采用能量和12階MFCC特征以及衍生的ΔMFCC,共26維,之后進(jìn)行了倒譜提升和RASTA濾波;模型采用訓(xùn)練和識(shí)別較為快速的矢量量化(VQ),碼本大小取32。語(yǔ)音采樣頻率為8 kHz,幀長(zhǎng)為32 ms,幀移為12.5 ms。
本節(jié)主要開展了以下三個(gè)實(shí)驗(yàn):
實(shí)驗(yàn)一:對(duì)純凈的語(yǔ)音進(jìn)行訓(xùn)練,以段長(zhǎng)分別為G=1,2,…,8,段移分別為Ginc=1,2,…,G求取段級(jí)特征,設(shè)累積貢獻(xiàn)率門限為1,得到變換矩陣(該變換矩陣并沒有實(shí)現(xiàn)降維);在識(shí)別階段,先對(duì)G幀語(yǔ)音特征組成的超矢量進(jìn)行變換,再測(cè)試其識(shí)別率。該實(shí)驗(yàn)主要用于分析合適的段長(zhǎng)和段移。
實(shí)驗(yàn)二:在純凈語(yǔ)音基礎(chǔ)上,以信噪比SNR(Signal Noise Ratio)為20 dB、10 dB、5 dB分別混疊了NoiseX-92專業(yè)噪聲庫(kù)中的平穩(wěn)高斯白噪聲(White)、粉噪聲(Pink)和Babble噪聲(Babble),取實(shí)驗(yàn)一分析得出的段長(zhǎng)和段移,采用不同的PCA降維參數(shù),對(duì)幀級(jí)特征和段級(jí)特征進(jìn)行變換,測(cè)試識(shí)別率,并對(duì)各種噪聲和SNR條件下的識(shí)別率求平均,得到不同PCA參數(shù)所對(duì)應(yīng)的識(shí)別率。該實(shí)驗(yàn)主要用于分析降維參數(shù)對(duì)識(shí)別率的影響。
實(shí)驗(yàn)三:根據(jù)實(shí)驗(yàn)一、二得到的段長(zhǎng)、段移和降維參數(shù),采用實(shí)驗(yàn)二的加噪方法對(duì)純凈語(yǔ)音進(jìn)行加噪,對(duì)段級(jí)特征、經(jīng)過(guò)PCA降維處理的幀級(jí)特征以及基線系統(tǒng)的幀級(jí)特征的識(shí)別性能進(jìn)行了測(cè)試。該實(shí)驗(yàn)主要用于對(duì)本文提出的算法的識(shí)別精度和速度進(jìn)行測(cè)試。
2.1 段長(zhǎng)與段移分析
實(shí)驗(yàn)一結(jié)果如表1所示。
由表1可見,當(dāng)以幀級(jí)特征作為訓(xùn)練和識(shí)別的特征時(shí),其識(shí)別率明顯低于經(jīng)PCA方法變換后的段級(jí)特征的識(shí)別率。總體來(lái)說(shuō),當(dāng)G固定時(shí),隨著Ginc的增加,識(shí)別率逐漸降低;當(dāng)Ginc固定時(shí),隨著G的增加,識(shí)別率也逐漸降低。當(dāng)G≥8時(shí),段級(jí)特征識(shí)別率不如幀級(jí)特征。當(dāng)G=1,Ginc=1時(shí),等效為直接用PCA方法對(duì)幀級(jí)特征進(jìn)行變換。由于幀級(jí)特征(能量+MFCC+ΔMFCC)中計(jì)算一階差分時(shí)引入了冗余,PCA方法正是為了去除各個(gè)主成分之間的冗余,故經(jīng)PCA變換后的幀級(jí)特征(G=1,Ginc=1)擁有更好的識(shí)別性能。但當(dāng)語(yǔ)音信號(hào)為帶噪數(shù)據(jù)時(shí),該特征識(shí)別性能不如段級(jí)特征(見2.3節(jié))。
由于當(dāng)G和Ginc均較大時(shí),模板匹配次數(shù)減小,識(shí)別速度會(huì)得到明顯提高,因此,為了兼顧識(shí)別速度和精度,結(jié)合表1的結(jié)果,本文選取G=6,Ginc=4。
2.2 PCA降維參數(shù)分析
實(shí)驗(yàn)二結(jié)果如圖3(a)、(b)所示。其中,PCA參數(shù)主要指的是設(shè)定的累積貢獻(xiàn)率門限,即選用累積貢獻(xiàn)率不小于累積貢獻(xiàn)率門限的多個(gè)特征矢量組成降維變換矩陣。
由圖3(a)可見,對(duì)于幀級(jí)特征,當(dāng)訓(xùn)練語(yǔ)音和待測(cè)語(yǔ)音較純凈時(shí),累積貢獻(xiàn)率門限值越大,識(shí)別率越高。圖3(b)表明,對(duì)于段級(jí)特征,累積貢獻(xiàn)率門限值位于94%附近時(shí),識(shí)別效果較好。門限太大易造成噪聲參與識(shí)別,影響識(shí)別精度;門限太小,易造成降維后的特征包含語(yǔ)音信息不充分,雖然能提高識(shí)別速度,但卻降低了識(shí)別精度。因此,本文在進(jìn)行PCA降維時(shí),選用累積貢獻(xiàn)率不小于94%的特征向量組成降維變換矩陣。
2.3 帶噪環(huán)境下基于PCAULF的說(shuō)話人識(shí)別系統(tǒng)性能分析
實(shí)驗(yàn)三結(jié)果如圖4~圖6所示。
由圖4~6可以看出:(1)總體來(lái)說(shuō),在三種常見噪聲環(huán)境下,段級(jí)特征與經(jīng)PCA降維后的幀級(jí)特征識(shí)別率相近,均高于直接采用幀級(jí)特征時(shí)的識(shí)別率。(2)由于段級(jí)特征引入了長(zhǎng)時(shí)特征,且PCA降維在一定程度上抑制了噪聲對(duì)識(shí)別的影響,因此,在SNR較低時(shí)(SNR<20 dB時(shí))具有更好的魯棒性。
以上實(shí)驗(yàn)的PC配置為:Intel Core(TM)2 Duo CPU E7500 @2.93 GHz,1.96 GB內(nèi)存。三種特征在所有語(yǔ)音的識(shí)別階段的平均運(yùn)算時(shí)延如表2所示。
可見,由于識(shí)別時(shí),模板匹配的運(yùn)算時(shí)延遠(yuǎn)大于對(duì)數(shù)據(jù)進(jìn)行降維的運(yùn)算時(shí)延,而段級(jí)特征的引入帶來(lái)了模板匹配次數(shù)的減小,因此,段級(jí)特征在識(shí)別階段的運(yùn)算速度明顯大于幀級(jí)特征,約為幀級(jí)特征的2.8倍,更加適用于實(shí)時(shí)說(shuō)話人識(shí)別系統(tǒng)。
本文以現(xiàn)有的幀級(jí)語(yǔ)音特征為基礎(chǔ),結(jié)合語(yǔ)音的長(zhǎng)時(shí)特性和改進(jìn)PCA方法,提出了一種適用于說(shuō)話人識(shí)別的段級(jí)語(yǔ)音特征,并分析了算法中的參數(shù)對(duì)識(shí)別性能的影響。實(shí)驗(yàn)結(jié)果表明,該算法在提高語(yǔ)音特征魯棒性的同時(shí),提高了識(shí)別速度,適用于實(shí)時(shí)說(shuō)話人識(shí)別系統(tǒng)。
參考文獻(xiàn)
[1] FURUI S. Digital speech processing, synthesis, and recognition[M]. New York: Marcel Dekker, 2001.
[2] GISH H, SCHMIDT M. Text independent speaker identification[J]. IEEE Signal Proc, 1994,11(4):18-32.
[3] REYNOLDS D A. The super SID project: Exploiting high level information for high accuracy speaker recognition[A]. In IEEE International Conference on Acoustics, Speech and Signal Processing[C]. Hong Kong, China, 2003:784-787.
[4] DRYGAJLO A,MALIKI M E. Speaker verification in noisy environments with combined spectral subtraction and missing feature theory[A]. In IEEE International Conference on Acoustics, Speech and Signal Processing[C]. Seattle, USA, 1998,1:121-124.
[5] HERMANSKY H, MORGAN N. Rasta processing of speech[J]. IEEE Trans on Speech and Audio Processing. 1994,2(4):578-589.
[6] WANG L ,KITAOKA N,NAKAGAWA S. Analysis of effect of compensation parameter estimation for CMN on speech/speaker recognition[A]. In 9th International Symposium on Signal Processing and Its Applications(ICASSP’07)[C]. Sharjah, 2007:1-4.
[7] TORRE A, SEGURA J C,BENITEZ C. Non-linear transformations of the feature space for robust speech recognition[A]. In IEEE Proc. Of ICASSP[C]. Orlando, USA, 2002:401-404.
[8] VIIKKI O, LAURILA K. Cepstral domain segmental feature vector normalization for noise robust speech recognition[J]. Speech Communication, 1998, 25(1):133-147.
[9] HSU C W, LEE L S. High order cestral moment normalization(HOCMN) for robust speech recognition[A]. In IEEE Proc of ICASSP[C]. Montreal, Canada, 2004:197-200.
[10] LIU B, DAI L R,LI J Y. Double gaussian based feature normalization for robust speech recognition[A]. In Proc of ISCSLP[C]. Hong Kong, 2004:253-256.
[11] DU J, Wang Renhua. Cepstral shape normalization(CSN) for robust speech recognition[A]. In Proc of ICASSP[C]. Las Vegas, USA, 2008: 4389-4392.
[12] 王波, 徐毅瓊, 李弼程. 基于段級(jí)特征的對(duì)話環(huán)境下說(shuō)話人分段算法[J]. 計(jì)算機(jī)工程與應(yīng)用, 2007, 28(10):2401-2416.
[13] 任蘇亞, 基于改進(jìn)的PCA和ICA算法的掌紋識(shí)別研究[D]. 北京: 北京交通大學(xué), 2007:35-39.
[14] NALIN P S, MAYUR D J, PRAKASH C,et al. Palm print recognition: two level structure matching[A]. In Proc. of IJCNN [C]. Vancouver, Canada, 2006: 664-669.