《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 其他 > 設(shè)計(jì)應(yīng)用 > 一種基于PCA的段級(jí)特征
一種基于PCA的段級(jí)特征
來(lái)源:電子技術(shù)應(yīng)用2011年第5期
張興明,王科人,黃山奇
國(guó)家數(shù)字交換系統(tǒng)工程技術(shù)研究中心, 河南 鄭州 450002
摘要: 提出了一種基于PCA的段級(jí)特征(PCAULF)。該特征以現(xiàn)有的幀級(jí)語(yǔ)音特征為基礎(chǔ),通過(guò)計(jì)算段級(jí)特征引入了語(yǔ)音的長(zhǎng)時(shí)特性。對(duì)段級(jí)特征使用PCA降維,一方面去除由于引入段級(jí)特征帶來(lái)的冗余,實(shí)現(xiàn)數(shù)據(jù)降維,提高識(shí)別速度;另一方面抑制了噪聲對(duì)識(shí)別系統(tǒng)的影響,提高了段級(jí)特征的魯棒性。在訓(xùn)練階段,計(jì)算所有語(yǔ)音的段級(jí)特征,使用PCA方法得到變換矩陣;在測(cè)試階段,先使用變換矩陣對(duì)段級(jí)特征進(jìn)行降維,再進(jìn)行判別。實(shí)驗(yàn)結(jié)果表明,采用該特征有效地提高了識(shí)別精度和速度,更加適用于實(shí)時(shí)說(shuō)話人識(shí)別系統(tǒng)。
中圖分類號(hào): TN912.3
文獻(xiàn)標(biāo)識(shí)碼: A
文章編號(hào): 0258-7998(2011)05-0110-04
A PCA-based utterance level feature
Zhang Xingming, Wang Keren, Huang Shanqi
National Digital Switch System Engineering & Technological R & D Center, Zhengzhou 450002, China
Abstract: A PCA based utterance level feature (PCAULF) is proposed for speaker recognition. Based on existing frame level speech feature, this feature takes long-time characteristics of speech into account by calculating the utterance level feature. In this feature extraction algorithm, PCA method is used for dimension reduction of utterance level feature. On the one hand, PCA removes redundancy caused by utterance level feature, which realizes dimension reduction and improves recognition speed; on the other hand, it suppresses the effect of noise to recognition, which improves robustness. In the training phase, utterance level features of all the speech are calculated, and transformation matrix is received through PCA method; in the testing phase, utterance level feature is dimension-reduced before being discriminated. Experimental results show that this feature can effectively improve the accuracy and speed of recognition, and it’s more suitable for real-time speaker recognition systems.
Key words : PCAULF; utterance level feature; speaker recognition; PCA; robustness


 一個(gè)典型的說(shuō)話人識(shí)別系統(tǒng)提取的說(shuō)話人特征通常為時(shí)變特性參數(shù)如梅爾倒譜系數(shù)MFCC(Mel-Frequency Cepstrum Coefficients)[1]、感知線性預(yù)測(cè)系數(shù)PLP(Perceptual Linear Prediction)[2]或韻律特征[3]。然而,實(shí)際使用時(shí)由于受到噪音干擾,或者訓(xùn)練與識(shí)別傳輸通道不匹配,識(shí)別系統(tǒng)通常不能表現(xiàn)良好[4]。目前解決這一問(wèn)題的手段主要集中在特征域、模型域和得分域?,F(xiàn)有特征域魯棒性處理方法主要有:RASTA濾波[5]、倒譜均值歸一化(CMN)[6]、直方圖均衡[7]和倒譜規(guī)整[8-11]等。這些算法通常以在識(shí)別前增加額外的運(yùn)算來(lái)?yè)Q取魯棒性的提高,如統(tǒng)計(jì)概率密度分布及計(jì)算各階矩等。
    本文算法主要從特征域入手,旨在減少識(shí)別階段運(yùn)算時(shí)間的同時(shí)提高識(shí)別系統(tǒng)的魯棒性。參考文獻(xiàn)[12]采用了觀察值的各階矩和中心矩作為段級(jí)特征,并與模型結(jié)合,在不顯著影響識(shí)別率的情況下提高了識(shí)別速度。其缺點(diǎn)是,采用段級(jí)特征與采用幀級(jí)特征相比較識(shí)別率較低。參考文獻(xiàn)[13]提出了一種改進(jìn)的PCA方法用于掌紋識(shí)別,通過(guò)提取更有利于分類的基向量,提高了降維后特征的魯棒性。本文結(jié)合了兩者的優(yōu)點(diǎn),提出了一種基于PCA的段級(jí)特征PCAULF(PCA based Utterance Level Feature)提取算法。該算法特點(diǎn)如下:
 (1)以段級(jí)特征代替幀級(jí)特征,可減少識(shí)別過(guò)程中模板匹配的次數(shù),通過(guò)減少運(yùn)算量來(lái)提高識(shí)別速度;
 (2)在段級(jí)特征降維時(shí)引入改進(jìn)的PCA算法,一方面實(shí)現(xiàn)了數(shù)據(jù)的降維,既抑制了噪聲對(duì)識(shí)別系統(tǒng)的影響,又提高了識(shí)別的速度;另一方面,選擇更利于分類的特征向量組成變換矩陣,提高識(shí)別系統(tǒng)的魯棒性。
 實(shí)驗(yàn)結(jié)果表明,在三種不同噪聲背景下進(jìn)行測(cè)試比對(duì),段級(jí)特征獲得了較高的識(shí)別率和較快的識(shí)別速度。
1 段級(jí)特征提取算法
1.1 段級(jí)特征的定義

     由于語(yǔ)音的短時(shí)平穩(wěn)特性,可以考慮在一段語(yǔ)音中提取特征,這樣就使得同樣的語(yǔ)音長(zhǎng)度用更少的語(yǔ)音特征去描述,該特征被稱為段級(jí)特征。它是和傳統(tǒng)的按幀提取語(yǔ)音特征相對(duì)應(yīng)的一個(gè)概念。段級(jí)特征的一般表示形式是:

其中,ULFi、ULFi′代表第i個(gè)段級(jí)特征矢量,式(1)表示ULFi′從連續(xù)的G幀語(yǔ)音信號(hào)s中直接提取,式(2)表示ULFi從連續(xù)的G個(gè)幀級(jí)特征矢量a中提取。使用段級(jí)特征的關(guān)鍵在于段長(zhǎng)G的選取和函數(shù)fG(·)的選取。首先討論函數(shù)的選取,段級(jí)特征是觀察值的函數(shù)。本文中,fG(·)主要包括以下兩個(gè)步驟:
 (1)以G為段長(zhǎng)、Ginc為段移,將G個(gè)幀級(jí)特征矢量組合成超矢量。組成超矢量的操作類似于對(duì)數(shù)據(jù)的取幀操作,如圖1所示。

    (2)采用改進(jìn)的主成分分析方法對(duì)超矢量進(jìn)行降維,得到段級(jí)特征。

 


1.2 PCA方法
 主成分分析PCA(Principal Component Analysis)是一種掌握事物主要矛盾的統(tǒng)計(jì)分析方法,它可以從多元事物中解析出主要影響因素,簡(jiǎn)化復(fù)雜的問(wèn)題。PCA假定具有大變化的方向的數(shù)據(jù)比有很少變化的方向上的數(shù)據(jù)攜帶有更多的信息,因而它尋找具有最大方差的那些稱之為主軸的方向來(lái)表征原始數(shù)據(jù)。計(jì)算主成分的目的是在最小均方誤差意義下將高維數(shù)據(jù)投影到較低維空間。

的形式有效表示X。其中,通過(guò)K-L變換(Karhunen-Loeve Transform)計(jì)算相互正交的一組基向量,可以得到P。
 具體的PCA分析步驟如下:
 
2 實(shí)驗(yàn)配置及結(jié)果分析
 采用PCAULF作為特征參數(shù)的說(shuō)話人識(shí)別模型如圖2所示。語(yǔ)音數(shù)據(jù)經(jīng)過(guò)預(yù)處理和特征提取兩個(gè)步驟,得到幀級(jí)特征矢量集。訓(xùn)練時(shí),由PCA對(duì)所有語(yǔ)音的段級(jí)特征求取降維變換矩陣,之后通過(guò)訓(xùn)練得到模板參數(shù);識(shí)別時(shí),首先使用訓(xùn)練時(shí)得到的變換矩陣對(duì)待測(cè)語(yǔ)音的段級(jí)特征進(jìn)行降維,之后再通過(guò)模板匹配得到識(shí)別結(jié)果。

    語(yǔ)音數(shù)據(jù)采用TIMIT語(yǔ)音數(shù)據(jù)庫(kù),隨機(jī)選取50人,每人共10條語(yǔ)音,每條語(yǔ)音長(zhǎng)4~6 s,其中8條用于訓(xùn)練,2條用于識(shí)別,保證了訓(xùn)練與識(shí)別語(yǔ)音的不一致。噪聲庫(kù)采用NoiseX-92專業(yè)噪聲庫(kù)中的三種常見噪聲,分別為平穩(wěn)高斯白噪聲、粉噪聲和Babble噪聲?;€系統(tǒng)聲學(xué)特征采用能量和12階MFCC特征以及衍生的ΔMFCC,共26維,之后進(jìn)行了倒譜提升和RASTA濾波;模型采用訓(xùn)練和識(shí)別較為快速的矢量量化(VQ),碼本大小取32。語(yǔ)音采樣頻率為8 kHz,幀長(zhǎng)為32 ms,幀移為12.5 ms。
 本節(jié)主要開展了以下三個(gè)實(shí)驗(yàn):
 實(shí)驗(yàn)一:對(duì)純凈的語(yǔ)音進(jìn)行訓(xùn)練,以段長(zhǎng)分別為G=1,2,…,8,段移分別為Ginc=1,2,…,G求取段級(jí)特征,設(shè)累積貢獻(xiàn)率門限為1,得到變換矩陣(該變換矩陣并沒有實(shí)現(xiàn)降維);在識(shí)別階段,先對(duì)G幀語(yǔ)音特征組成的超矢量進(jìn)行變換,再測(cè)試其識(shí)別率。該實(shí)驗(yàn)主要用于分析合適的段長(zhǎng)和段移。
 實(shí)驗(yàn)二:在純凈語(yǔ)音基礎(chǔ)上,以信噪比SNR(Signal Noise Ratio)為20 dB、10 dB、5 dB分別混疊了NoiseX-92專業(yè)噪聲庫(kù)中的平穩(wěn)高斯白噪聲(White)、粉噪聲(Pink)和Babble噪聲(Babble),取實(shí)驗(yàn)一分析得出的段長(zhǎng)和段移,采用不同的PCA降維參數(shù),對(duì)幀級(jí)特征和段級(jí)特征進(jìn)行變換,測(cè)試識(shí)別率,并對(duì)各種噪聲和SNR條件下的識(shí)別率求平均,得到不同PCA參數(shù)所對(duì)應(yīng)的識(shí)別率。該實(shí)驗(yàn)主要用于分析降維參數(shù)對(duì)識(shí)別率的影響。
 實(shí)驗(yàn)三:根據(jù)實(shí)驗(yàn)一、二得到的段長(zhǎng)、段移和降維參數(shù),采用實(shí)驗(yàn)二的加噪方法對(duì)純凈語(yǔ)音進(jìn)行加噪,對(duì)段級(jí)特征、經(jīng)過(guò)PCA降維處理的幀級(jí)特征以及基線系統(tǒng)的幀級(jí)特征的識(shí)別性能進(jìn)行了測(cè)試。該實(shí)驗(yàn)主要用于對(duì)本文提出的算法的識(shí)別精度和速度進(jìn)行測(cè)試。
2.1 段長(zhǎng)與段移分析
 實(shí)驗(yàn)一結(jié)果如表1所示。

    由表1可見,當(dāng)以幀級(jí)特征作為訓(xùn)練和識(shí)別的特征時(shí),其識(shí)別率明顯低于經(jīng)PCA方法變換后的段級(jí)特征的識(shí)別率。總體來(lái)說(shuō),當(dāng)G固定時(shí),隨著Ginc的增加,識(shí)別率逐漸降低;當(dāng)Ginc固定時(shí),隨著G的增加,識(shí)別率也逐漸降低。當(dāng)G≥8時(shí),段級(jí)特征識(shí)別率不如幀級(jí)特征。當(dāng)G=1,Ginc=1時(shí),等效為直接用PCA方法對(duì)幀級(jí)特征進(jìn)行變換。由于幀級(jí)特征(能量+MFCC+ΔMFCC)中計(jì)算一階差分時(shí)引入了冗余,PCA方法正是為了去除各個(gè)主成分之間的冗余,故經(jīng)PCA變換后的幀級(jí)特征(G=1,Ginc=1)擁有更好的識(shí)別性能。但當(dāng)語(yǔ)音信號(hào)為帶噪數(shù)據(jù)時(shí),該特征識(shí)別性能不如段級(jí)特征(見2.3節(jié))。
 由于當(dāng)G和Ginc均較大時(shí),模板匹配次數(shù)減小,識(shí)別速度會(huì)得到明顯提高,因此,為了兼顧識(shí)別速度和精度,結(jié)合表1的結(jié)果,本文選取G=6,Ginc=4。
2.2 PCA降維參數(shù)分析
 實(shí)驗(yàn)二結(jié)果如圖3(a)、(b)所示。其中,PCA參數(shù)主要指的是設(shè)定的累積貢獻(xiàn)率門限,即選用累積貢獻(xiàn)率不小于累積貢獻(xiàn)率門限的多個(gè)特征矢量組成降維變換矩陣。

    由圖3(a)可見,對(duì)于幀級(jí)特征,當(dāng)訓(xùn)練語(yǔ)音和待測(cè)語(yǔ)音較純凈時(shí),累積貢獻(xiàn)率門限值越大,識(shí)別率越高。圖3(b)表明,對(duì)于段級(jí)特征,累積貢獻(xiàn)率門限值位于94%附近時(shí),識(shí)別效果較好。門限太大易造成噪聲參與識(shí)別,影響識(shí)別精度;門限太小,易造成降維后的特征包含語(yǔ)音信息不充分,雖然能提高識(shí)別速度,但卻降低了識(shí)別精度。因此,本文在進(jìn)行PCA降維時(shí),選用累積貢獻(xiàn)率不小于94%的特征向量組成降維變換矩陣。
2.3 帶噪環(huán)境下基于PCAULF的說(shuō)話人識(shí)別系統(tǒng)性能分析
 實(shí)驗(yàn)三結(jié)果如圖4~圖6所示。

 由圖4~6可以看出:(1)總體來(lái)說(shuō),在三種常見噪聲環(huán)境下,段級(jí)特征與經(jīng)PCA降維后的幀級(jí)特征識(shí)別率相近,均高于直接采用幀級(jí)特征時(shí)的識(shí)別率。(2)由于段級(jí)特征引入了長(zhǎng)時(shí)特征,且PCA降維在一定程度上抑制了噪聲對(duì)識(shí)別的影響,因此,在SNR較低時(shí)(SNR<20 dB時(shí))具有更好的魯棒性。
 以上實(shí)驗(yàn)的PC配置為:Intel Core(TM)2 Duo CPU E7500 @2.93 GHz,1.96 GB內(nèi)存。三種特征在所有語(yǔ)音的識(shí)別階段的平均運(yùn)算時(shí)延如表2所示。

    可見,由于識(shí)別時(shí),模板匹配的運(yùn)算時(shí)延遠(yuǎn)大于對(duì)數(shù)據(jù)進(jìn)行降維的運(yùn)算時(shí)延,而段級(jí)特征的引入帶來(lái)了模板匹配次數(shù)的減小,因此,段級(jí)特征在識(shí)別階段的運(yùn)算速度明顯大于幀級(jí)特征,約為幀級(jí)特征的2.8倍,更加適用于實(shí)時(shí)說(shuō)話人識(shí)別系統(tǒng)。
    本文以現(xiàn)有的幀級(jí)語(yǔ)音特征為基礎(chǔ),結(jié)合語(yǔ)音的長(zhǎng)時(shí)特性和改進(jìn)PCA方法,提出了一種適用于說(shuō)話人識(shí)別的段級(jí)語(yǔ)音特征,并分析了算法中的參數(shù)對(duì)識(shí)別性能的影響。實(shí)驗(yàn)結(jié)果表明,該算法在提高語(yǔ)音特征魯棒性的同時(shí),提高了識(shí)別速度,適用于實(shí)時(shí)說(shuō)話人識(shí)別系統(tǒng)。
參考文獻(xiàn)
[1] FURUI S. Digital speech processing, synthesis, and recognition[M]. New York: Marcel Dekker, 2001.
[2] GISH H, SCHMIDT M. Text independent speaker identification[J]. IEEE Signal Proc, 1994,11(4):18-32.
[3] REYNOLDS D A. The super SID project: Exploiting high level information for high accuracy speaker recognition[A]. In IEEE International Conference on Acoustics, Speech and Signal Processing[C]. Hong Kong, China, 2003:784-787.
[4] DRYGAJLO A,MALIKI M E. Speaker verification in noisy environments with combined spectral subtraction and missing feature theory[A]. In IEEE International Conference on  Acoustics, Speech and Signal Processing[C]. Seattle, USA, 1998,1:121-124.
[5] HERMANSKY H, MORGAN N. Rasta processing of speech[J]. IEEE Trans on Speech and Audio Processing. 1994,2(4):578-589.
[6] WANG L ,KITAOKA N,NAKAGAWA S. Analysis of effect of compensation parameter estimation for CMN on speech/speaker recognition[A]. In 9th International Symposium on Signal Processing and Its Applications(ICASSP&rsquo;07)[C]. Sharjah, 2007:1-4.
[7] TORRE A, SEGURA J C,BENITEZ C. Non-linear transformations of the feature space for robust speech recognition[A]. In IEEE Proc. Of ICASSP[C]. Orlando, USA, 2002:401-404.
[8] VIIKKI O, LAURILA K. Cepstral domain segmental feature vector normalization for noise robust speech recognition[J].  Speech Communication, 1998, 25(1):133-147.
[9] HSU C W, LEE L S. High order cestral moment normalization(HOCMN) for robust speech recognition[A]. In IEEE Proc of ICASSP[C]. Montreal, Canada, 2004:197-200.
[10] LIU B, DAI L R,LI J Y. Double gaussian based feature normalization for robust speech recognition[A]. In Proc of ISCSLP[C]. Hong Kong, 2004:253-256.
[11] DU J, Wang Renhua. Cepstral shape normalization(CSN) for robust speech recognition[A]. In Proc of ICASSP[C]. Las Vegas, USA, 2008: 4389-4392.
[12] 王波, 徐毅瓊, 李弼程. 基于段級(jí)特征的對(duì)話環(huán)境下說(shuō)話人分段算法[J]. 計(jì)算機(jī)工程與應(yīng)用, 2007, 28(10):2401-2416.
[13] 任蘇亞, 基于改進(jìn)的PCA和ICA算法的掌紋識(shí)別研究[D]. 北京: 北京交通大學(xué), 2007:35-39.
[14] NALIN P S, MAYUR D J, PRAKASH C,et al. Palm  print recognition: two level structure matching[A]. In Proc.  of IJCNN [C]. Vancouver, Canada, 2006: 664-669.

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。