《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 嵌入式技術(shù) > 設(shè)計(jì)應(yīng)用 > 基于PLDA的說話人識(shí)別時(shí)變魯棒性問題研究
基于PLDA的說話人識(shí)別時(shí)變魯棒性問題研究
2016年微型機(jī)與應(yīng)用第05期
陳霄鵬,彭亞雄,賀松
(貴州大學(xué) 大數(shù)據(jù)與信息工程學(xué)院, 貴州 貴陽 550025)
摘要: 隨著時(shí)間的變化,人的聲音也會(huì)發(fā)生變化。這對(duì)說話人的識(shí)別帶來了一定的影響。通過研究發(fā)現(xiàn),說話人識(shí)別的性能與時(shí)間有著線性變化的規(guī)律。傳統(tǒng)的說話人識(shí)別系統(tǒng)使用GMMUBM模型并不能很好地學(xué)習(xí)出線性變化規(guī)律。由于概率線性判別分析(PLDA)對(duì)于類內(nèi)與類間有著很好的線性區(qū)分度,所以為了解決線性變化的問題,選擇概率線性判別分析的方法學(xué)習(xí)說話人識(shí)別中時(shí)變的線性變化規(guī)律。從實(shí)驗(yàn)結(jié)果看出,PLDA對(duì)于說話人識(shí)別的識(shí)別魯棒性具有很好的提升。
Abstract:
Key words :

  陳霄鵬,彭亞雄,賀松

  (貴州大學(xué) 大數(shù)據(jù)與信息工程學(xué)院, 貴州 貴陽 550025)

  摘要:隨著時(shí)間的變化,人的聲音也會(huì)發(fā)生變化。這對(duì)說話人的識(shí)別帶來了一定的影響。通過研究發(fā)現(xiàn),說話人識(shí)別的性能與時(shí)間有著線性變化的規(guī)律。傳統(tǒng)的說話人識(shí)別系統(tǒng)使用GMMUBM模型并不能很好地學(xué)習(xí)出線性變化規(guī)律。由于概率線性判別分析(PLDA)對(duì)于類內(nèi)與類間有著很好的線性區(qū)分度,所以為了解決線性變化的問題,選擇概率線性判別分析的方法學(xué)習(xí)說話人識(shí)別中時(shí)變的線性變化規(guī)律。從實(shí)驗(yàn)結(jié)果看出,PLDA對(duì)于說話人識(shí)別的識(shí)別魯棒性具有很好的提升。

  關(guān)鍵詞:說話人識(shí)別;時(shí)變魯棒性;GMM-UBM;PLDA

0引言

  說話人識(shí)別即聲紋識(shí)別,為生物特征識(shí)別的一種。而聲紋這一概念從誕生之初就一直伴隨著其是否隨時(shí)間變化的質(zhì)疑。經(jīng)過多年的研究發(fā)現(xiàn),聲紋識(shí)別確確實(shí)實(shí)隨著時(shí)間發(fā)生變化。早在2003年,Bonastre教授已發(fā)表論文指出說話人識(shí)別的時(shí)變問題。在實(shí)際的說話人識(shí)別系統(tǒng)中,聲紋預(yù)留與聲紋驗(yàn)證之間的時(shí)間間隔也帶來了系統(tǒng)性能的下降。

  在已有的研究中,浙江大學(xué)CNNT實(shí)驗(yàn)室設(shè)計(jì)了一個(gè)聲紋打卡系統(tǒng),記錄了實(shí)驗(yàn)室成員每天打卡情況,其中在開始的50天里識(shí)別率為69.02%,在稍近的幾天里識(shí)別率提高到了74.19%。同時(shí)提出了平滑化梅爾倒譜系數(shù)(Smoothing Mel Cepstrum Coefficient, SMFCC )這種更穩(wěn)定的特征提高時(shí)變魯棒性。

  清華大學(xué)語音和語言技術(shù)中心王琳琳博士以Fratio作為中間準(zhǔn)則計(jì)算頻帶區(qū)分度從而提高其魯棒性。同時(shí)還提出了性能驅(qū)動(dòng)的頻率彎折方法的特征提取算法。

  以上研究都基于特征層面,并未涉及到模型層面,本文研究著重于模型層面。

1說話人識(shí)別的線性變化規(guī)律

  隨著時(shí)間的變化,人的聲音也會(huì)發(fā)生變化,從而影響說話人識(shí)別的識(shí)別率。其識(shí)別率會(huì)降低,而這種降低類似線性變化。所以,假設(shè)說話人識(shí)別中不同時(shí)間的特征之間的線性相關(guān),通過特征之間的相關(guān)系數(shù)可以判別兩個(gè)特征之間的線性相關(guān)性。根據(jù)實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),相關(guān)系數(shù)都在0.7~1之間,也就說明特征與特征之間有著極大的線性相關(guān)性。而且相關(guān)系數(shù)隨著時(shí)間的變化也有著相對(duì)的線性變化。實(shí)驗(yàn)結(jié)果如圖1。

  

001.jpg

  為了更加準(zhǔn)確地描述時(shí)間變化的規(guī)律,最大可能排除音素沒有對(duì)齊的影響,故而選擇動(dòng)態(tài)時(shí)間規(guī)整(Dynamic Time Warping, DTW)對(duì)特征進(jìn)行分析。將動(dòng)態(tài)時(shí)間規(guī)整后的兩段語音求cosine距離,根據(jù)cosine距離觀察兩段語音的相似程度。實(shí)驗(yàn)結(jié)果表明,cosine距離隨著時(shí)間的變化也呈現(xiàn)出相應(yīng)的線性變化。實(shí)驗(yàn)結(jié)果如圖2。

  

002.jpg

  由以上兩個(gè)實(shí)驗(yàn)結(jié)果可以得出,隨著時(shí)間的變化,說話人識(shí)別的魯棒性呈線性變化規(guī)律。

2概率線性判別分析

  說話人識(shí)別是模式識(shí)別的一種,分為訓(xùn)練和識(shí)別兩個(gè)階段。訓(xùn)練可以認(rèn)為就是將語音按照不同的人進(jìn)行分類,每一類代表了一個(gè)人,識(shí)別就是將測(cè)試的語音與已經(jīng)分好類的模型進(jìn)行比對(duì)。在說話人識(shí)別中加入時(shí)間的變化,就要同時(shí)考慮同一類的變化,即類內(nèi)的變化,以及類與類之間的變化,也即類間的變化。

  線性概率判別分析[13](Linear Discriminant Analysis,LDA)是一種將類內(nèi)和類間的方差作為多維高斯分布的一種技術(shù),它尋求方向空間最大的辨別力,因此非常適合支持類的識(shí)別任務(wù)。

  假設(shè)訓(xùn)練數(shù)據(jù)為不同的I個(gè)人,且每個(gè)人有J個(gè)語音,xij表示第i 個(gè)人的第j個(gè)語音,則LDA模型可表示為:

  xij=μ+Fhi+Gwij+ij(1)

  此模型分為兩個(gè)部分:第一個(gè)部分μ+Fhi只與每個(gè)個(gè)體的特征有關(guān),而與每條語音的特征無關(guān);第二個(gè)部分Gwij+ij指每個(gè)個(gè)體語音的不同以及代表個(gè)體內(nèi)部的噪聲。其中μ為訓(xùn)練數(shù)據(jù)集的總體平均數(shù);矩陣F的列包含了個(gè)人之間子空間的主要成分;hi代表這個(gè)子空間的位置;矩陣G包含了個(gè)體內(nèi)部子空間的主要成分;wij代表這個(gè)子空間的位置;ij定義為高斯對(duì)角線協(xié)方差Σ(殘差)。從條件概率方面來描述式(1)的模型:

  Pr(xij|hi,wij,θ)=x[μ+Fhi+Gwij,Σ](2)

  Pr(hi)=h[0,I] (3)

  Pr(wij)=w[0,I](4)

  式a[b,C]中,a為變量,b為期望,C為方差的高斯分布。式(2)~式(4)都是同樣的高斯分布。

  2.1訓(xùn)練階段

  訓(xùn)練階段的主要目標(biāo)是得到一組數(shù)據(jù)點(diǎn)xij,并且得到相應(yīng)的參數(shù)θ={μ,F,G,Σ}。如果知道隱藏變量hi和wij的值,這個(gè)問題將變得十分簡(jiǎn)單。同樣地在給定θ的情況下也很容易估計(jì)hi和wij。但是式(1)中的很多參量都是未知的。

  使用EM算法[45]可以解決這個(gè)問題。EM算法通過迭代輪流估計(jì)兩個(gè)參數(shù)。在Estep,計(jì)算出整個(gè)后驗(yàn)分布中的隱藏變量hi和wij,從而修正參數(shù)的值。在Mstep,使參數(shù)θ={μ,F,G,Σ}的點(diǎn)估計(jì)最優(yōu)化。

  2.2識(shí)別階段

  在識(shí)別階段,需要比較數(shù)據(jù)在R個(gè)模型M1…R下的似然分。定義模型M代表了隱藏身份變量hi和數(shù)據(jù)的一種關(guān)系。如果測(cè)試集中的多條語音屬于同一個(gè)人,那么這些語音就需要一個(gè)相同的身份變量hi。反之如果多條語音對(duì)應(yīng)了多個(gè)人,那么就需要不同的身份變量。因此需要得到第q個(gè)模型的似然分Pr(X|Mq),其中X是所有的觀察數(shù)據(jù)。為了計(jì)算每個(gè)模型的后驗(yàn)概率,需要使用貝葉斯準(zhǔn)則[68]:

  4T@M6OG8CGLUO8H~@G@BU0A.png

003.jpg

  為了更真實(shí)地描述這個(gè)公式,假設(shè)訓(xùn)練語音為x1、x2,測(cè)試語音為xp。如圖3所示,圖中有兩個(gè)模型,模型M1的測(cè)試語音xp與訓(xùn)練語音x1相匹配,則它們有著相同的身份變量h1[910]。同樣地,模型M2的測(cè)試語音xp與訓(xùn)練語音x2相匹配,則它們就有著相同的身份變量h2。用下式計(jì)算數(shù)據(jù)在模型M1下的似然分:

  Pr(x1,2,p|M1)=Pr(x1,p|M1)Pr(x2|M2) (6)

  其中隨機(jī)變量x1,p和x2是相互獨(dú)立的。此處目標(biāo)是求出觀測(cè)數(shù)據(jù)的似然分,然而隱藏變量h和w都是未知的[1011]。提取出所有關(guān)鍵的觀測(cè)似然分和已知的隱藏變量,忽略未知的隱藏變量,從而可以得到:

  Pr(x1,p|M1)=Pr(x1,xp,h1,w1,wp)dh1dw1dwp(7)

  進(jìn)一步可以得到:

  Pr(x1,p|M1)=∫[∫Pr(x1|h1,w1)Pr(w1)dw1

  ∫Pr(xp|h1,wp)Pr(wp)dwp]Pr(h1)dh1(8)

  同樣地,可以得出關(guān)于x2的條件概率:

  Pr(x2|M1)=Pr(x2|h2,w2)Pr(w2)dw2Pr(h2)dh2(9)

  以上條件概率所描述的都是最開始所定義的高斯分布,即式(1)~式(4)。同樣地,模型M2可以用相同的方法做分解。

  在計(jì)算式(8)、式(9)的積分時(shí),算出N條語音匹配相同參數(shù)h的似然分,同時(shí)忽略了噪音參數(shù)w1...wN,加之PLDA是一種線性的高斯分布,所以可以將N條語音識(shí)別的系統(tǒng)按照式(1)寫成下面的等式:

  5.png

  將上式重新命名為:

  x′=μ′+Ay+′(11)

  Pr(x′|y)=x′[Ay,∑′](12)

  Pr(y)=y[0,I](13)

  其中:

  14.png

  式(12)、式(13)即為標(biāo)準(zhǔn)的因素分析形式,而這種方法是已知的:

  15.png

  實(shí)際中,在已知矩陣A結(jié)構(gòu)的前提下,可以提高計(jì)算效率。

3實(shí)驗(yàn)

  實(shí)驗(yàn)采用GMM-UBM與PLDA進(jìn)行比較。兩種算法均采用采樣率為16 kHz的語音和39維的MFCC特征,MFCC特征由基本的13維MFCC特征加上其一階導(dǎo)數(shù)和二階導(dǎo)數(shù)組成。其中MFCC的幀寬為24 ms,幀移為12 ms,預(yù)加重系數(shù)為0.97,MFCC濾波器組數(shù)目為30,低頻截止頻率為60 Hz,高頻截止頻率為3 600 Hz,DCT數(shù)目為16。同時(shí)增加有效語音檢測(cè)(Voice Activity Detection, VAD),取得有效音。對(duì)連續(xù)四周的語音進(jìn)行測(cè)試,以等錯(cuò)誤率(Equal Error Rate, EER)為判別標(biāo)準(zhǔn)。EER為錯(cuò)誤拒絕率(False Rejection Rate,F(xiàn)RR)和錯(cuò)誤接受率(False Acceptance Rate,F(xiàn)AR)相等的點(diǎn)。實(shí)驗(yàn)結(jié)果如表1。 

004.jpg

  其中本周測(cè)試表示以當(dāng)前周的訓(xùn)練語音建立模型,用當(dāng)前周的測(cè)試語音進(jìn)行測(cè)試。第一周的結(jié)果表示的是以當(dāng)前周的語音為訓(xùn)練語音,以當(dāng)前周的下一周的測(cè)試語音進(jìn)行測(cè)試。后三周的測(cè)試方法與第一周的測(cè)試方法相同。

  由表1實(shí)驗(yàn)結(jié)果可以看出,說話人識(shí)別的時(shí)變魯棒性具有線性變化規(guī)律,隨著時(shí)間的推移,不論是GMMUBM[12]還是PLDA[13],在不同周的測(cè)試效果均在逐步降低,但是PLDA的整體效果均優(yōu)于GMMUBM。從時(shí)變的魯棒性來看,PLDA的EER從第一周到第四周表現(xiàn)比較平穩(wěn),均保持在9%左右,而GMM_UBM在第三周開始有了明顯的增加,也就是說GMMUBM的魯棒性有所降低。

4結(jié)束語

  本文通過使用PLDA模型對(duì)說話人識(shí)別進(jìn)行了測(cè)試,目的在于解決時(shí)變的魯棒性問題,從實(shí)驗(yàn)結(jié)果來看,PLDA對(duì)時(shí)變的魯棒性有很大的提高。本文中使用PLDA和GMMUBM對(duì)語音進(jìn)行了測(cè)試,以GMMUBM為基線,從測(cè)試結(jié)果來看,PLDA的整體效果均優(yōu)于GMMUBM。以后可以使用PLDA為基線,通過對(duì)PLDA的改進(jìn)來進(jìn)一步提高時(shí)變的魯棒性。

參考文獻(xiàn)

 ?。?] YOUNG S. A review of largevocabulary continuousspeech recognition[J]. Signal Processing Magazine, IEEE, 1996, 13(5): 45.

  [2] LIANG L, RENALS S. Probabilistic linear discriminant analysis for acoustic modelling[J]. IEEE Signal Processing Letters, 2014,21(6):702706.

 ?。?] CHEN L F, LIAO H Y M, LIN J C, et al. A new LDA-based face recognition system which can solve the sample size problem[J]. Pattern Recognition, 2000, 33(10): 17131726.

 ?。?] RUBIN R, THAYER D. EM algorithms for ML factor analysis[J]. Psychometrika, 1982,47(1):6976.

  [5] GHARAMANI Z, HINTON G E. The EM algorithm for mixtures of factor analyzers[R]. University of Toronto Technical Report, 1997.

 ?。?] DEHAK N, KENNY P J, DEHAK R, et al. Frontend factor analysis for speaker verification[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2011, 9(4): 788798.

 ?。?] KIM T, KITTLER J. Locally linear discriminant analysis for multimodally distributed classes for face recognition with a single model image[J]. PAMI, 2005, 27(3): 318327.

 ?。?] MATEJKA P, GLEMBEK O, CASTALDO F, et al. Fullcovariance UBM and heavytailed PLDA in i-vector speaker verification[C]. In Proc. ICASSP. IEEE, 2011: 48284831.

  [9] HASAN T, HANSEN J H L. Acoustic factor analysis for robust speaker verification[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2013, 21(4): 842853.

 ?。?0] KENNY P. Bayesian speaker verification with heavy tailed priors[C]. In Speaker and Language Recognition Workshop (IEEE Odyssey), 2010:141.

  [11] GODFREY J J, HOLLIMAN E C, MCDANIEL J. SWITCHBOARD: telephone speech corpus for research and development[C]. In Proc. ICASSP. IEEE, 1992: 517520.

 ?。?2] REYNOLDS D A, QUATERI T F, DUNN R B. Speaker verification using adapted Gaussian mixture models[J]. Digital Signal Processing, 2000, 10(1/3): 1941.


此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。