胡群威,吳明輝,李輝
?。ㄖ袊茖W(xué)技術(shù)大學(xué) 電子科學(xué)與技術(shù)系,安徽 合肥 230027)
摘要:在文本無關(guān)說話人確認(rèn)領(lǐng)域,基于總差異空間的說話人確認(rèn)方法已成為主流方法,其中概率線性判別分析(Probabilistic Linear Discriminant Analysis, PLDA)因其優(yōu)異的性能受到廣泛關(guān)注。然而傳統(tǒng)PLDA模型沒有考慮注冊語音與測試語音時長失配情況下的差異信息,不能很好地解決因時長失配帶來的說話人確認(rèn)系統(tǒng)性能下降的問題。該文提出一種估計時長差異信息方法,并將此差異信息融入PLDA模型,從而提高PLDA模型對時長差異的魯棒性。在NIST數(shù)據(jù)庫上的實驗表明,所提出的方法可以較好地補償時長差異,性能上也優(yōu)于PLDA方法。
關(guān)鍵詞:說話人確認(rèn);I-Vector系統(tǒng);概率線性判別分析;時長失配;時長差異信息
0引言
說話人確認(rèn)技術(shù)作為生物特征識別領(lǐng)域重要的研究熱點,在身份識別、人機交互和移動支付等領(lǐng)域具有廣闊的應(yīng)用前景。近年來,在高斯混合模型通用背景模型(Gaussian Mixture ModelUniversal Background Model,GMMUBM)[1]基礎(chǔ)上,基于因子分析的方法因其優(yōu)異的性能得到研究者的廣泛關(guān)注。
在GMM-UBM框架下,說話人信息主要包含在GMM的均值超矢量[2]中。由于均值超矢量也包含信道等擾動信息,KENNY P等人提出聯(lián)合因子分析(Joint Factor Analysis,JFA)[3]方法,將均值超矢量分解為說話人與信道兩部分之和,進(jìn)而可以削弱信道的干擾。然而,均值超矢量維度過高,計算代價較高,不僅如此,JFA在進(jìn)行信道補償時也損失了一部分說話人信息[4]。鑒于JFA的缺點,DEHAK N等人提出基于總差異空間的IVector[5]系統(tǒng),此系統(tǒng)直接將均值超矢量壓縮成一個更加緊致的低維的矢量,同時盡可能地保留說話人信息。由于IVector中依然存在信道等擾動信息,參考文獻(xiàn)[6]提出概率線性判別分析(PLDA)應(yīng)用于總差異空間,可以較好地削弱信道擾動的影響,取得優(yōu)異的性能。
目前基于I-Vector的說話人確認(rèn)多集中在長時語音(一般為幾分鐘),即使用長時語音注冊,長時語音測試。但實際應(yīng)用中考慮到使用的便捷性,注冊語音往往使用長時語音,當(dāng)進(jìn)行測試時,測試語音只有幾十秒或者幾秒鐘。然而IVector作為極大后驗(MAP)的點估計[7],其提取依賴于充足的統(tǒng)計量,時長越短,統(tǒng)計樣本相對越少,估計得越不準(zhǔn)確。參考文獻(xiàn)[8]指出,當(dāng)語音時長足夠長(通常大于2 min),IVector的區(qū)分性已接近飽和,此時估計的I-Vector可認(rèn)為是準(zhǔn)確的。但是當(dāng)語音時長較短(幾秒鐘),估計得相對不可靠,其區(qū)分性能會嚴(yán)重下降。IVector估計不準(zhǔn)確將直接導(dǎo)致基于IVector的PLDA系統(tǒng)的性能下降。針對時長帶來的性能問題,國內(nèi)外學(xué)者展開了一系列的研究。參考文獻(xiàn)[9]研究了時長失配情況下時長對系統(tǒng)性能的影響。參考文獻(xiàn)[10]研究了不同語音時長的IVector的分布,指出時長帶來的I-Vector的估計偏差,等價于加性噪聲。參考文獻(xiàn)[11]提出短時差異規(guī)整算法(Short Utterance Variance Normalization,SUVN),對短時語音的I-Vector進(jìn)行補償,取得了一定的性能提升。
受到上述文獻(xiàn)啟發(fā),本文針對實際應(yīng)用中訓(xùn)練測試時長失配的情況,同時考慮傳統(tǒng)的PLDA系統(tǒng)沒有考慮注冊語音與測試語音時長失配情況下的差異信息,提出估計短時語音I-Vector的時長差異信息的方法,并將此信息融入到PLDA系統(tǒng)進(jìn)行補償。本文方法較好地利用時長信息,增加系統(tǒng)對時長差異的魯棒性,進(jìn)而提高系統(tǒng)的整體性能。
1基于I-Vector的說話人確認(rèn)系統(tǒng)
1.1I-Vector基線系統(tǒng)
在傳統(tǒng)GMMUBM中,說話人的區(qū)分信息主要集中在目標(biāo)說話人GMM模型的均值超矢量中。GMM均值超矢量中既包含了說話人的信息,同時也包含了信道等干擾信息。JFA技術(shù)被用于對說話人與信道建模,然而研究表明[4],JFA中的信道因子中也包含了說話人信息。鑒于上述存在的缺點,參考文獻(xiàn)[5]提出總差異空間,將說話人與信道作為整體建模。給定目標(biāo)說話人的一段語音,則基于總差異空間的目標(biāo)說話人的GMM均值超矢量可以用式(1)表示:
M=m+Tω(1)
其中,M為說話人的GMM均值超矢量;m為UBM均值超矢量;T為總差異空間矩陣,低秩的、矩陣的列組成總差異空間的基底;ω為總差異因子,先驗服從標(biāo)準(zhǔn)正態(tài)分布,對于每個說話人的語音段,對應(yīng)的IVector的提取過程即為計算總差異因子ω的極大后驗點估計??偛町惪臻g矩陣的訓(xùn)練以及IVector計算參見參考文獻(xiàn)[12]。
通常,提取完IVector后,采用余弦評分,也就是將測試語音的IVector與事先注冊的說話人模型IVector進(jìn)行余弦值計算,如式(2)所示。
s=〈ωtar,ωtest〉ωtarωtest(2)
其中,ωtar表示為說話人模型的IVector,ωtest表示測試語音的IVector。
1.2高斯概率線性判別分析
忽略IVector的提取機制,PLDA可看作是由生成型模型產(chǎn)生的聲學(xué)特征,其生成過程可以用說話人因子與信道因子描述,不同的因子先驗假設(shè)構(gòu)成了不同的PLDA模型[6],若假設(shè)說話人因子以及信道因子均服從高斯分布,相應(yīng)的模型稱為高斯線性判別分析(Gaussian PLDA, GPLDA)[6,12]。
假定第i個說話人的第j個IVector表示為wij,標(biāo)準(zhǔn)的GPLDA模型假設(shè)如式(3)所示:
wij=μ+Φyi+Uxij+εij(3)
yi~N(0,I)(4)
xij~N(0,I)(5)
εij~N(0,Σ)(6)
其中,μ為所有說話人的IVector均值,矩陣Φ表示說話人子空間,矩陣U表示信道子空間,矢量yi和xij為對應(yīng)的子空間因子,兩者統(tǒng)計獨立,并且均服從標(biāo)準(zhǔn)高斯分布,εij表示殘差,服從均值為零、協(xié)方差為對角陣Σ的高斯分布。
GPLDA模型最初用于人臉識別[12],由于其輸入特征維度較高,需要大數(shù)據(jù)樣本才能有效地估計出相應(yīng)的參數(shù),否則容易陷入過擬合。在說話人確認(rèn)中,輸入特征為IVector矢量,維度一般為100~600,維度相對較小,考慮模型的復(fù)雜度,簡化GPLDA模型如下:
wij=μ+Φyi+εij(7)
這里,只是將信道部分合并到殘差中,此時εij服從均值為零、協(xié)方差為全角矩陣的高斯分布,這樣,殘差便可以包含更多的擾動信息,以此彌補合并信道因子所帶來的損失。
由于GPLDA為線性高斯模型[13],因此邊緣分布、條件分布均為高斯分布,其中邊緣分布為:
wij~N(μ,ΦΦT+Σ)(8)
相應(yīng)的條件分布為:
wij|yi~N(μ+Φyi,Σ)(9)
GPLDA模型參數(shù){μ,Φ,Σ}可由EM算法訓(xùn)練得到,詳細(xì)訓(xùn)練過程參見參考文獻(xiàn)[12]。
使用GPLDA建模的前提是假設(shè)IVector先驗服從高斯分布。然而,由于IVector的行為并不是服從高斯分布,而是服從長尾分布(heavy tail)[6],考慮到高斯分布經(jīng)過線性變化依然為高斯分布,所以必須對IVector進(jìn)行非線性變化,以削弱IVector的非高斯的影響。參考文獻(xiàn)[14]指出對IVector進(jìn)行長度規(guī)整與Whitening規(guī)整可以有效削弱其非高斯行為,從而提高GPLDA對IVector分布建模能力。
1.3GPLDA確認(rèn)得分計算
說話人確認(rèn)的問題可以看成一個二元假設(shè)檢驗問題,即給定兩個IVector:w1、w2,存在以下兩個假設(shè):
Hs:假設(shè)w1、w2是由同一個說話人生成的,則它們共享同一個說話人因子y,即:
Hd:假設(shè)w1、w2是由不同的說話人產(chǎn)生的,則它們具有不同的說話人因子y1、y2,即:
對于上述二元假設(shè)檢驗可以使用兩個高斯函數(shù)的對數(shù)似然比作為最后的得分:
2改進(jìn)系統(tǒng)
使用GPLDA對說話人以及其他擾動進(jìn)行建模,其中殘差項刻畫了擾動因子的行為。由式(16)可以看出,得分函數(shù)是對稱的,即注冊語音與測試語音是可以交換位置的,不會影響得分,主要原因為注冊語音與測試語音是在相同的擾動假設(shè)下而得出的[15]。然而,對于注冊語音為長時語音,測試為短時語音的時長失配的情況,顯然直接使用GPLDA評分是不夠精確的??紤]到IVector只是總差異因子的極大后驗點估計,估計的準(zhǔn)確度取決于后驗分布的協(xié)方差。對于同一個說話人,其長時語音段的IVector估計得相對準(zhǔn)確,也就是說,由時長引起的擾動較小,而短時語音段的IVector估計得相對不可靠,由時長引起的擾動較大,總之,對于同一個說話人,語音時長越短,對應(yīng)IVector的GPLDA模型將趨向于產(chǎn)生越大的殘差協(xié)方差。
2.1融入時長差異信息的GPLDA
由于注冊語音為長時語音,其對應(yīng)的IVector估計相對準(zhǔn)確,而當(dāng)測試語音為短時語音時,其估計的IVector存在相對較大的不確定度,假設(shè)服從如下分布:
~N(w,Σ′)(17)
其中,為短時語音對應(yīng)的IVector,w表示說話人的IVector真實值,Σ′表示短時語音對應(yīng)的IVector估計的時長差異信息。所以條件分布為:
P(|y)=∫P(|w)P(w|y)dw
=∫N(w,Σ′)N(w;μ+Φy,Σ)dw
=N(w;μ+Φy,Σ+Σ′)(18)
假設(shè)長時注冊語音與短時測試語音對應(yīng)的IVector分別為w1、w2,當(dāng)它們是由同一個說話人生成的,則由式(11)和式(18)可得此時的協(xié)方差為:
當(dāng)它們是由不同說話人生成的,則由式(13)和式(18)可得此時的協(xié)方差:
由式(19)和式(20)重寫對數(shù)似然比得分公式:
此時的得分公式(21)針對短時語音的IVector融入了時長差異信息,更加精確地刻畫了短時語音的行為,而且從式(21)可以看出,注冊語音與測試語音的IVector是不可交換的,這是因為刻畫兩者擾動行為的殘差項不再是同一假設(shè)。
2.2時長差異信息的估計
為了捕捉短時語音的時長差異信息,本文使用了大量開發(fā)集數(shù)據(jù)以及從中截短得到短時語音,將長時語音對應(yīng)的IVector與短時語音對應(yīng)的IVector的差異作為時長差異信息的度量,即式(22)所示:
其中,wfull為長時語音的IVector,wshort為從長時語音截短的短時語音的IVector,使用式(22)可以近似估計短時語音的時長差異信息,并將此信息融入GPLDA模型。
3實驗結(jié)果與分析
本文分別構(gòu)建了IVector余弦評分的基線系統(tǒng)、GPLDA系統(tǒng)以及改進(jìn)的GPLDA系統(tǒng)。實驗所用到的語料均來自NIST[16]數(shù)據(jù)庫的電話信道語音。
3.1訓(xùn)練數(shù)據(jù)及參數(shù)配置
實驗采用39維美爾倒譜系數(shù)(MFCC)作為特征參數(shù)。訓(xùn)練UBM的數(shù)據(jù)取自NIST05和NIST06男性電話信道數(shù)據(jù)集,共5 200條5 min時長的訓(xùn)練語音,切過靜音后大約2 min,UBM采用512個高斯混合,每個高斯的協(xié)方差矩陣為對角陣。使用相同的數(shù)據(jù)訓(xùn)練總差異矩陣T,采用隨機初始化矩陣,迭代8次,最終得到19 968×200維的矩陣T。訓(xùn)練PLDA的數(shù)據(jù)取自NIST08中共300個說話人,每人10段語音,訓(xùn)練PLDA前,要對IVector進(jìn)行Whiten規(guī)整以及長度規(guī)整,說話人因子數(shù)為100。使用NIST08中的300個說話人,并從中截短至30 s、10 s和5 s三種情況以及全時長(full),用于估計對應(yīng)的時長差異信息。
3.2系統(tǒng)性能評估標(biāo)準(zhǔn)
實驗的評測標(biāo)準(zhǔn)采用等誤識率(Equal Error Rate,EER)和NIST評測中檢測代價函數(shù)(Detection Cost Function, DCF)。EER是錯誤拒絕率(False Rejection rate, FR)和錯誤接受率(False Acceptance rate, FA)相等的值。檢測代價函數(shù)定義為FA和FR的加權(quán)和:
DCF=Cfr×FR×Ptar+Cfa×FA×(1-Ptar)(23)
其中Cfr和Cfa分別是錯誤拒絕和錯誤接受的代價,Ptar為真實說話人出現(xiàn)的先驗概率,在NIST的評測任務(wù)中的定義為Cfa=1,Cfr=10,Ptar=0.01,以最小檢測代價函數(shù)(minDCF)作為系統(tǒng)性能的評測標(biāo)準(zhǔn)。
3.3實驗結(jié)果
表1給出了基線系統(tǒng)在不同測試時長下的EER和MinDCF。從表1的數(shù)據(jù)可以發(fā)現(xiàn),基線系統(tǒng)在測試時長為全時長時,性能最佳,隨著測試時長變短,性能會大幅下降。
表2給出了GPLDA在不同測試時長的EER和MinDCF。從表2的數(shù)據(jù)同樣可以看出,GPLDA系統(tǒng)性能隨著時長變短而下降,與表1的數(shù)據(jù)作對比,當(dāng)測試時長為全時長時,GPLDA系統(tǒng)性能相對提高了57%,當(dāng)測試時長變短,GPLDA系統(tǒng)的性能平均相對提升了40%,特別是當(dāng)測試時長為5 s時,性能相對提升只有32%,遠(yuǎn)小于全時長的性能提升。這表明GPLDA并不能很好地對時長信息進(jìn)行建模。
表3給出了本文改進(jìn)系統(tǒng)在不同測試時長下的EER和MinDCF。表3與表2作對比可以發(fā)現(xiàn),當(dāng)測試時長為全時長時,改進(jìn)系統(tǒng)與傳統(tǒng)GPLDA系統(tǒng)的性能幾乎沒有發(fā)生變化,當(dāng)測試語音時長變短,改進(jìn)系統(tǒng)相對于傳統(tǒng)GPLDA系統(tǒng),性能平均提升7.2%,這表明改進(jìn)系統(tǒng)利用時長信息可以有效地對時長失配進(jìn)行補償。
4結(jié)論
本文考慮到注冊語音與測試語音時長失配情況下的差異信息,提出估計時長差異信息的方法,并將此差異信息融入PLDA模型,從而提高PLDA模型對時長差異的魯棒性。在NIST數(shù)據(jù)集上的實驗證實,本文的方法相對于基線系統(tǒng)性能平均提升47.5%,相對于PLDA模型系統(tǒng)也有平均7.2%的提升。
參考文獻(xiàn)
?。?] REYNOLDS D A, QUATIERI T F, DUNN R B. Speaker verification using adapted Gaussian mixture models [J]. Digital Signal Processing, 2000, 10(1): 1941.
?。?] CAMPBELL W M, STURIM D E, REYNOLDS D A. Sup port vector machines using GMM supervectors for speaker verification[J]. Signal Processing Letters, IEEE, 2006, 13(5): 308311.
?。?] KENNY P, BOULIANNE G, OUELLET P, et al. Joint factor analysis versus eigenchannels in speaker recognition[J]. Audio, Speech, and Language Processing, IEEE Transactions on, 2007, 15(4): 14351447.
?。?] DEHAK N. Discriminative and generative ap proaches for longand shortterm speaker characteristics modeling: application to speaker verification[D]. Canada: Ecole de Technologie Superieure, 2009.
?。?] DEHAK N, KENNY P, DEHAK R, et al. Frontend factor analysis for speaker verification[J]. Audio, Speech, and Language Processing, IEEE Transactions on, 2011, 19(4): 788798.
?。?] KENNY P. Bayesian speaker verification with heavytailed priors[C].Odyssey Speaker and Language Recogntion Workshop, 2010: 14.
[7] CUMANI S, PLCHOT O, LAFACE P. On the use of i–vector posterior distributions in Probabilistic Linear Discriminant Analysis[J]. Audio, Speech, and Language Processing, IEEE/ACM Transactions on, 2014, 22(4): 846857.
?。?] RAO W, MAK M W. Boosting the performance of ivector based speaker verification via utterance partitioning [J]. Audio, Speech, and Language Processing, IEEE Transactions on, 2013, 21(5): 10121022.
[9] SARKAR A K, MATROUF D, BOUSQUET P M, et al. Study of the effect of ivector modeling on short and mismatch utterance duration for speaker verification[C].Interspeech, 2012: 26622665.
?。?0] HASAN T, SAEIDI R, HANSEN J H L, et al. Duration mismatch compensation for ivector based speaker recognition systems[C].Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on. IEEE, 2013: 76637667.
?。?1] KANAGASUNDARAM A, DEAN D, SRIDHARAN S, et al. Improving short utterance ivector speaker verification using utterance variance modelling and compensation techniques[J]. Speech Communication, 2014, 59: 6982.
[12] PRINCE S J D, ELDER J H. Probabilistic linear dis criminant analysis for inferences about identity[C].Computer Vision, 2007. ICCV 2007. IEEE 11th International Conference on. IEEE, 2007: 18.
?。?3] BISHOP C M. Pattern recognition and machine learning [M]. springer, 2006.
?。?4] GARCIAROMERO D, ESPYWILSON C Y. Analysis of ivector length normalization in speaker recognition systems[C].Interspeech, 2011: 249252.
?。?5] CHEN L, LEE K A, MA B, et al. Channel adaptation of plda for textindependent speaker verification[C].Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on. IEEE, 2015: 52515255.
[16] NIST. The NIST 2006 speaker recognition evaluation [EB/OL].(2006xxxx)[20160104]http://www.itl.nist.gov/iad/mig/test/sre/2006/index.html,2006.