《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 嵌入式技術(shù) > 設(shè)計(jì)應(yīng)用 > 利用時(shí)長(zhǎng)信息提高說話人確認(rèn)系統(tǒng)的魯棒性
利用時(shí)長(zhǎng)信息提高說話人確認(rèn)系統(tǒng)的魯棒性
2016年微型機(jī)與應(yīng)用第11期
胡群威,吳明輝,李輝
(中國(guó)科學(xué)技術(shù)大學(xué) 電子科學(xué)與技術(shù)系,安徽 合肥 230027)
摘要: 在文本無關(guān)說話人確認(rèn)領(lǐng)域,基于總差異空間的說話人確認(rèn)方法已成為主流方法,其中概率線性判別分析(Probabilistic Linear Discriminant Analysis, PLDA)因其優(yōu)異的性能受到廣泛關(guān)注。然而傳統(tǒng)PLDA模型沒有考慮注冊(cè)語音與測(cè)試語音時(shí)長(zhǎng)失配情況下的差異信息,不能很好地解決因時(shí)長(zhǎng)失配帶來的說話人確認(rèn)系統(tǒng)性能下降的問題。該文提出一種估計(jì)時(shí)長(zhǎng)差異信息方法,并將此差異信息融入PLDA模型,從而提高PLDA模型對(duì)時(shí)長(zhǎng)差異的魯棒性。在NIST數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)表明,所提出的方法可以較好地補(bǔ)償時(shí)長(zhǎng)差異,性能上也優(yōu)于PLDA方法。
Abstract:
Key words :

  胡群威,吳明輝,李輝

  (中國(guó)科學(xué)技術(shù)大學(xué) 電子科學(xué)與技術(shù)系,安徽 合肥 230027)

  摘要:在文本無關(guān)說話人確認(rèn)領(lǐng)域,基于總差異空間的說話人確認(rèn)方法已成為主流方法,其中概率線性判別分析(Probabilistic Linear Discriminant Analysis, PLDA)因其優(yōu)異的性能受到廣泛關(guān)注。然而傳統(tǒng)PLDA模型沒有考慮注冊(cè)語音與測(cè)試語音時(shí)長(zhǎng)失配情況下的差異信息,不能很好地解決因時(shí)長(zhǎng)失配帶來的說話人確認(rèn)系統(tǒng)性能下降的問題。該文提出一種估計(jì)時(shí)長(zhǎng)差異信息方法,并將此差異信息融入PLDA模型,從而提高PLDA模型對(duì)時(shí)長(zhǎng)差異的魯棒性。在NIST數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)表明,所提出的方法可以較好地補(bǔ)償時(shí)長(zhǎng)差異,性能上也優(yōu)于PLDA方法。

  關(guān)鍵詞:說話人確認(rèn);I-Vector系統(tǒng);概率線性判別分析;時(shí)長(zhǎng)失配;時(shí)長(zhǎng)差異信息

0引言

  說話人確認(rèn)技術(shù)作為生物特征識(shí)別領(lǐng)域重要的研究熱點(diǎn),在身份識(shí)別、人機(jī)交互和移動(dòng)支付等領(lǐng)域具有廣闊的應(yīng)用前景。近年來,在高斯混合模型通用背景模型(Gaussian Mixture ModelUniversal Background Model,GMMUBM)[1]基礎(chǔ)上,基于因子分析的方法因其優(yōu)異的性能得到研究者的廣泛關(guān)注。

  在GMM-UBM框架下,說話人信息主要包含在GMM的均值超矢量[2]中。由于均值超矢量也包含信道等擾動(dòng)信息,KENNY P等人提出聯(lián)合因子分析(Joint Factor Analysis,JFA)[3]方法,將均值超矢量分解為說話人與信道兩部分之和,進(jìn)而可以削弱信道的干擾。然而,均值超矢量維度過高,計(jì)算代價(jià)較高,不僅如此,JFA在進(jìn)行信道補(bǔ)償時(shí)也損失了一部分說話人信息[4]。鑒于JFA的缺點(diǎn),DEHAK N等人提出基于總差異空間的IVector[5]系統(tǒng),此系統(tǒng)直接將均值超矢量壓縮成一個(gè)更加緊致的低維的矢量,同時(shí)盡可能地保留說話人信息。由于IVector中依然存在信道等擾動(dòng)信息,參考文獻(xiàn)[6]提出概率線性判別分析(PLDA)應(yīng)用于總差異空間,可以較好地削弱信道擾動(dòng)的影響,取得優(yōu)異的性能。

  目前基于I-Vector的說話人確認(rèn)多集中在長(zhǎng)時(shí)語音(一般為幾分鐘),即使用長(zhǎng)時(shí)語音注冊(cè),長(zhǎng)時(shí)語音測(cè)試。但實(shí)際應(yīng)用中考慮到使用的便捷性,注冊(cè)語音往往使用長(zhǎng)時(shí)語音,當(dāng)進(jìn)行測(cè)試時(shí),測(cè)試語音只有幾十秒或者幾秒鐘。然而IVector作為極大后驗(yàn)(MAP)的點(diǎn)估計(jì)[7],其提取依賴于充足的統(tǒng)計(jì)量,時(shí)長(zhǎng)越短,統(tǒng)計(jì)樣本相對(duì)越少,估計(jì)得越不準(zhǔn)確。參考文獻(xiàn)[8]指出,當(dāng)語音時(shí)長(zhǎng)足夠長(zhǎng)(通常大于2 min),IVector的區(qū)分性已接近飽和,此時(shí)估計(jì)的I-Vector可認(rèn)為是準(zhǔn)確的。但是當(dāng)語音時(shí)長(zhǎng)較短(幾秒鐘),估計(jì)得相對(duì)不可靠,其區(qū)分性能會(huì)嚴(yán)重下降。IVector估計(jì)不準(zhǔn)確將直接導(dǎo)致基于IVector的PLDA系統(tǒng)的性能下降。針對(duì)時(shí)長(zhǎng)帶來的性能問題,國(guó)內(nèi)外學(xué)者展開了一系列的研究。參考文獻(xiàn)[9]研究了時(shí)長(zhǎng)失配情況下時(shí)長(zhǎng)對(duì)系統(tǒng)性能的影響。參考文獻(xiàn)[10]研究了不同語音時(shí)長(zhǎng)的IVector的分布,指出時(shí)長(zhǎng)帶來的I-Vector的估計(jì)偏差,等價(jià)于加性噪聲。參考文獻(xiàn)[11]提出短時(shí)差異規(guī)整算法(Short Utterance Variance Normalization,SUVN),對(duì)短時(shí)語音的I-Vector進(jìn)行補(bǔ)償,取得了一定的性能提升。

  受到上述文獻(xiàn)啟發(fā),本文針對(duì)實(shí)際應(yīng)用中訓(xùn)練測(cè)試時(shí)長(zhǎng)失配的情況,同時(shí)考慮傳統(tǒng)的PLDA系統(tǒng)沒有考慮注冊(cè)語音與測(cè)試語音時(shí)長(zhǎng)失配情況下的差異信息,提出估計(jì)短時(shí)語音I-Vector的時(shí)長(zhǎng)差異信息的方法,并將此信息融入到PLDA系統(tǒng)進(jìn)行補(bǔ)償。本文方法較好地利用時(shí)長(zhǎng)信息,增加系統(tǒng)對(duì)時(shí)長(zhǎng)差異的魯棒性,進(jìn)而提高系統(tǒng)的整體性能。

1基于I-Vector的說話人確認(rèn)系統(tǒng)

  1.1I-Vector基線系統(tǒng)

  在傳統(tǒng)GMMUBM中,說話人的區(qū)分信息主要集中在目標(biāo)說話人GMM模型的均值超矢量中。GMM均值超矢量中既包含了說話人的信息,同時(shí)也包含了信道等干擾信息。JFA技術(shù)被用于對(duì)說話人與信道建模,然而研究表明[4],JFA中的信道因子中也包含了說話人信息。鑒于上述存在的缺點(diǎn),參考文獻(xiàn)[5]提出總差異空間,將說話人與信道作為整體建模。給定目標(biāo)說話人的一段語音,則基于總差異空間的目標(biāo)說話人的GMM均值超矢量可以用式(1)表示:

  M=m+Tω(1)

  其中,M為說話人的GMM均值超矢量;m為UBM均值超矢量;T為總差異空間矩陣,低秩的、矩陣的列組成總差異空間的基底;ω為總差異因子,先驗(yàn)服從標(biāo)準(zhǔn)正態(tài)分布,對(duì)于每個(gè)說話人的語音段,對(duì)應(yīng)的IVector的提取過程即為計(jì)算總差異因子ω的極大后驗(yàn)點(diǎn)估計(jì)??偛町惪臻g矩陣的訓(xùn)練以及IVector計(jì)算參見參考文獻(xiàn)[12]。

  通常,提取完IVector后,采用余弦評(píng)分,也就是將測(cè)試語音的IVector與事先注冊(cè)的說話人模型IVector進(jìn)行余弦值計(jì)算,如式(2)所示。

  s=〈ωtar,ωtest〉ωtarωtest(2)

  其中,ωtar表示為說話人模型的IVector,ωtest表示測(cè)試語音的IVector。

  1.2高斯概率線性判別分析

  忽略IVector的提取機(jī)制,PLDA可看作是由生成型模型產(chǎn)生的聲學(xué)特征,其生成過程可以用說話人因子與信道因子描述,不同的因子先驗(yàn)假設(shè)構(gòu)成了不同的PLDA模型[6],若假設(shè)說話人因子以及信道因子均服從高斯分布,相應(yīng)的模型稱為高斯線性判別分析(Gaussian PLDA, GPLDA)[6,12]。

  假定第i個(gè)說話人的第j個(gè)IVector表示為wij,標(biāo)準(zhǔn)的GPLDA模型假設(shè)如式(3)所示:

  wij=μ+Φyi+Uxij+εij(3)

  yi~N(0,I)(4)

  xij~N(0,I)(5)

  εij~N(0,Σ)(6)

  其中,μ為所有說話人的IVector均值,矩陣Φ表示說話人子空間,矩陣U表示信道子空間,矢量yi和xij為對(duì)應(yīng)的子空間因子,兩者統(tǒng)計(jì)獨(dú)立,并且均服從標(biāo)準(zhǔn)高斯分布,εij表示殘差,服從均值為零、協(xié)方差為對(duì)角陣Σ的高斯分布。

  GPLDA模型最初用于人臉識(shí)別[12],由于其輸入特征維度較高,需要大數(shù)據(jù)樣本才能有效地估計(jì)出相應(yīng)的參數(shù),否則容易陷入過擬合。在說話人確認(rèn)中,輸入特征為IVector矢量,維度一般為100~600,維度相對(duì)較小,考慮模型的復(fù)雜度,簡(jiǎn)化GPLDA模型如下:

  wij=μ+Φyi+εij(7)

  這里,只是將信道部分合并到殘差中,此時(shí)εij服從均值為零、協(xié)方差為全角矩陣的高斯分布,這樣,殘差便可以包含更多的擾動(dòng)信息,以此彌補(bǔ)合并信道因子所帶來的損失。

  由于GPLDA為線性高斯模型[13],因此邊緣分布、條件分布均為高斯分布,其中邊緣分布為:

  wij~N(μ,ΦΦT+Σ)(8)

  相應(yīng)的條件分布為:

  wij|yi~N(μ+Φyi,Σ)(9)

  GPLDA模型參數(shù){μ,Φ,Σ}可由EM算法訓(xùn)練得到,詳細(xì)訓(xùn)練過程參見參考文獻(xiàn)[12]。

  使用GPLDA建模的前提是假設(shè)IVector先驗(yàn)服從高斯分布。然而,由于IVector的行為并不是服從高斯分布,而是服從長(zhǎng)尾分布(heavy tail)[6],考慮到高斯分布經(jīng)過線性變化依然為高斯分布,所以必須對(duì)IVector進(jìn)行非線性變化,以削弱IVector的非高斯的影響。參考文獻(xiàn)[14]指出對(duì)IVector進(jìn)行長(zhǎng)度規(guī)整與Whitening規(guī)整可以有效削弱其非高斯行為,從而提高GPLDA對(duì)IVector分布建模能力。

  1.3GPLDA確認(rèn)得分計(jì)算

  說話人確認(rèn)的問題可以看成一個(gè)二元假設(shè)檢驗(yàn)問題,即給定兩個(gè)IVector:w1、w2,存在以下兩個(gè)假設(shè):

  Hs:假設(shè)w1、w2是由同一個(gè)說話人生成的,則它們共享同一個(gè)說話人因子y,即:

  1012.png1012.png

  Hd:假設(shè)w1、w2是由不同的說話人產(chǎn)生的,則它們具有不同的說話人因子y1、y2,即:

 1315.png

  對(duì)于上述二元假設(shè)檢驗(yàn)可以使用兩個(gè)高斯函數(shù)的對(duì)數(shù)似然比作為最后的得分:

  m16.png

  2改進(jìn)系統(tǒng)

  使用GPLDA對(duì)說話人以及其他擾動(dòng)進(jìn)行建模,其中殘差項(xiàng)刻畫了擾動(dòng)因子的行為。由式(16)可以看出,得分函數(shù)是對(duì)稱的,即注冊(cè)語音與測(cè)試語音是可以交換位置的,不會(huì)影響得分,主要原因?yàn)樽?cè)語音與測(cè)試語音是在相同的擾動(dòng)假設(shè)下而得出的[15]。然而,對(duì)于注冊(cè)語音為長(zhǎng)時(shí)語音,測(cè)試為短時(shí)語音的時(shí)長(zhǎng)失配的情況,顯然直接使用GPLDA評(píng)分是不夠精確的??紤]到IVector只是總差異因子的極大后驗(yàn)點(diǎn)估計(jì),估計(jì)的準(zhǔn)確度取決于后驗(yàn)分布的協(xié)方差。對(duì)于同一個(gè)說話人,其長(zhǎng)時(shí)語音段的IVector估計(jì)得相對(duì)準(zhǔn)確,也就是說,由時(shí)長(zhǎng)引起的擾動(dòng)較小,而短時(shí)語音段的IVector估計(jì)得相對(duì)不可靠,由時(shí)長(zhǎng)引起的擾動(dòng)較大,總之,對(duì)于同一個(gè)說話人,語音時(shí)長(zhǎng)越短,對(duì)應(yīng)IVector的GPLDA模型將趨向于產(chǎn)生越大的殘差協(xié)方差。

  2.1融入時(shí)長(zhǎng)差異信息的GPLDA

  由于注冊(cè)語音為長(zhǎng)時(shí)語音,其對(duì)應(yīng)的IVector估計(jì)相對(duì)準(zhǔn)確,而當(dāng)測(cè)試語音為短時(shí)語音時(shí),其估計(jì)的IVector存在相對(duì)較大的不確定度,假設(shè)服從如下分布:

  ~N(w,Σ′)(17)

  其中,為短時(shí)語音對(duì)應(yīng)的IVector,w表示說話人的IVector真實(shí)值,Σ′表示短時(shí)語音對(duì)應(yīng)的IVector估計(jì)的時(shí)長(zhǎng)差異信息。所以條件分布為:

  P(|y)=∫P(|w)P(w|y)dw

  =∫N(w,Σ′)N(w;μ+Φy,Σ)dw

  =N(w;μ+Φy,Σ+Σ′)(18)

  假設(shè)長(zhǎng)時(shí)注冊(cè)語音與短時(shí)測(cè)試語音對(duì)應(yīng)的IVector分別為w1、w2,當(dāng)它們是由同一個(gè)說話人生成的,則由式(11)和式(18)可得此時(shí)的協(xié)方差為:

  19.png

  當(dāng)它們是由不同說話人生成的,則由式(13)和式(18)可得此時(shí)的協(xié)方差:

  20.png

  由式(19)和式(20)重寫對(duì)數(shù)似然比得分公式:

  21.png

  此時(shí)的得分公式(21)針對(duì)短時(shí)語音的IVector融入了時(shí)長(zhǎng)差異信息,更加精確地刻畫了短時(shí)語音的行為,而且從式(21)可以看出,注冊(cè)語音與測(cè)試語音的IVector是不可交換的,這是因?yàn)榭坍媰烧邤_動(dòng)行為的殘差項(xiàng)不再是同一假設(shè)。

  2.2時(shí)長(zhǎng)差異信息的估計(jì)

  為了捕捉短時(shí)語音的時(shí)長(zhǎng)差異信息,本文使用了大量開發(fā)集數(shù)據(jù)以及從中截短得到短時(shí)語音,將長(zhǎng)時(shí)語音對(duì)應(yīng)的IVector與短時(shí)語音對(duì)應(yīng)的IVector的差異作為時(shí)長(zhǎng)差異信息的度量,即式(22)所示:

  22.png

  其中,wfull為長(zhǎng)時(shí)語音的IVector,wshort為從長(zhǎng)時(shí)語音截短的短時(shí)語音的IVector,使用式(22)可以近似估計(jì)短時(shí)語音的時(shí)長(zhǎng)差異信息,并將此信息融入GPLDA模型。

3實(shí)驗(yàn)結(jié)果與分析

  本文分別構(gòu)建了IVector余弦評(píng)分的基線系統(tǒng)、GPLDA系統(tǒng)以及改進(jìn)的GPLDA系統(tǒng)。實(shí)驗(yàn)所用到的語料均來自NIST[16]數(shù)據(jù)庫(kù)的電話信道語音。

  3.1訓(xùn)練數(shù)據(jù)及參數(shù)配置

  實(shí)驗(yàn)采用39維美爾倒譜系數(shù)(MFCC)作為特征參數(shù)。訓(xùn)練UBM的數(shù)據(jù)取自NIST05和NIST06男性電話信道數(shù)據(jù)集,共5 200條5 min時(shí)長(zhǎng)的訓(xùn)練語音,切過靜音后大約2 min,UBM采用512個(gè)高斯混合,每個(gè)高斯的協(xié)方差矩陣為對(duì)角陣。使用相同的數(shù)據(jù)訓(xùn)練總差異矩陣T,采用隨機(jī)初始化矩陣,迭代8次,最終得到19 968×200維的矩陣T。訓(xùn)練PLDA的數(shù)據(jù)取自NIST08中共300個(gè)說話人,每人10段語音,訓(xùn)練PLDA前,要對(duì)IVector進(jìn)行Whiten規(guī)整以及長(zhǎng)度規(guī)整,說話人因子數(shù)為100。使用NIST08中的300個(gè)說話人,并從中截短至30 s、10 s和5 s三種情況以及全時(shí)長(zhǎng)(full),用于估計(jì)對(duì)應(yīng)的時(shí)長(zhǎng)差異信息。

  3.2系統(tǒng)性能評(píng)估標(biāo)準(zhǔn)

  實(shí)驗(yàn)的評(píng)測(cè)標(biāo)準(zhǔn)采用等誤識(shí)率(Equal Error Rate,EER)和NIST評(píng)測(cè)中檢測(cè)代價(jià)函數(shù)(Detection Cost Function, DCF)。EER是錯(cuò)誤拒絕率(False Rejection rate, FR)和錯(cuò)誤接受率(False Acceptance rate, FA)相等的值。檢測(cè)代價(jià)函數(shù)定義為FA和FR的加權(quán)和:

  DCF=Cfr×FR×Ptar+Cfa×FA×(1-Ptar)(23)

  其中Cfr和Cfa分別是錯(cuò)誤拒絕和錯(cuò)誤接受的代價(jià),Ptar為真實(shí)說話人出現(xiàn)的先驗(yàn)概率,在NIST的評(píng)測(cè)任務(wù)中的定義為Cfa=1,Cfr=10,Ptar=0.01,以最小檢測(cè)代價(jià)函數(shù)(minDCF)作為系統(tǒng)性能的評(píng)測(cè)標(biāo)準(zhǔn)。

  3.3實(shí)驗(yàn)結(jié)果

  表1給出了基線系統(tǒng)在不同測(cè)試時(shí)長(zhǎng)下的EER和MinDCF。從表1的數(shù)據(jù)可以發(fā)現(xiàn),基線系統(tǒng)在測(cè)試時(shí)長(zhǎng)為全時(shí)長(zhǎng)時(shí),性能最佳,隨著測(cè)試時(shí)長(zhǎng)變短,性能會(huì)大幅下降。

  表2給出了GPLDA在不同測(cè)試時(shí)長(zhǎng)的EER和MinDCF。從表2的數(shù)據(jù)同樣可以看出,GPLDA系統(tǒng)性能隨著時(shí)長(zhǎng)變短而下降,與表1的數(shù)據(jù)作對(duì)比,當(dāng)測(cè)試時(shí)長(zhǎng)為全時(shí)長(zhǎng)時(shí),GPLDA系統(tǒng)性能相對(duì)提高了57%,當(dāng)測(cè)試時(shí)長(zhǎng)變短,GPLDA系統(tǒng)的性能平均相對(duì)提升了40%,特別是當(dāng)測(cè)試時(shí)長(zhǎng)為5 s時(shí),性能相對(duì)提升只有32%,遠(yuǎn)小于全時(shí)長(zhǎng)的性能提升。這表明GPLDA并不能很好地對(duì)時(shí)長(zhǎng)信息進(jìn)行建模。

001.jpg

002.jpg

  表3給出了本文改進(jìn)系統(tǒng)在不同測(cè)試時(shí)長(zhǎng)下的EER和MinDCF。表3與表2作對(duì)比可以發(fā)現(xiàn),當(dāng)測(cè)試時(shí)長(zhǎng)為全時(shí)長(zhǎng)時(shí),改進(jìn)系統(tǒng)與傳統(tǒng)GPLDA系統(tǒng)的性能幾乎沒有發(fā)生變化,當(dāng)測(cè)試語音時(shí)長(zhǎng)變短,改進(jìn)系統(tǒng)相對(duì)于傳統(tǒng)GPLDA系統(tǒng),性能平均提升7.2%,這表明改進(jìn)系統(tǒng)利用時(shí)長(zhǎng)信息可以有效地對(duì)時(shí)長(zhǎng)失配進(jìn)行補(bǔ)償。

4結(jié)論

  本文考慮到注冊(cè)語音與測(cè)試語音時(shí)長(zhǎng)失配情況下的差異信息,提出估計(jì)時(shí)長(zhǎng)差異信息的方法,并將此差異信息融入PLDA模型,從而提高PLDA模型對(duì)時(shí)長(zhǎng)差異的魯棒性。在NIST數(shù)據(jù)集上的實(shí)驗(yàn)證實(shí),本文的方法相對(duì)于基線系統(tǒng)性能平均提升47.5%,相對(duì)于PLDA模型系統(tǒng)也有平均7.2%的提升。

  參考文獻(xiàn)

 ?。?] REYNOLDS D A, QUATIERI T F, DUNN R B. Speaker verification using adapted Gaussian mixture models [J]. Digital Signal Processing, 2000, 10(1): 1941.

  [2] CAMPBELL W M, STURIM D E, REYNOLDS D A. Sup port vector machines using GMM supervectors for speaker verification[J]. Signal Processing Letters, IEEE, 2006, 13(5): 308311.

 ?。?] KENNY P, BOULIANNE G, OUELLET P, et al. Joint factor analysis versus eigenchannels in speaker recognition[J]. Audio, Speech, and Language Processing, IEEE Transactions on, 2007, 15(4): 14351447.

 ?。?] DEHAK N. Discriminative and generative ap proaches for longand shortterm speaker characteristics modeling: application to speaker verification[D]. Canada: Ecole de Technologie Superieure, 2009.

  [5] DEHAK N, KENNY P, DEHAK R, et al. Frontend factor analysis for speaker verification[J]. Audio, Speech, and Language Processing, IEEE Transactions on, 2011, 19(4): 788798.

 ?。?] KENNY P. Bayesian speaker verification with heavytailed priors[C].Odyssey Speaker and Language Recogntion Workshop, 2010: 14.

  [7] CUMANI S, PLCHOT O, LAFACE P. On the use of i–vector posterior distributions in Probabilistic Linear Discriminant Analysis[J]. Audio, Speech, and Language Processing, IEEE/ACM Transactions on, 2014, 22(4): 846857.

  [8] RAO W, MAK M W. Boosting the performance of ivector based speaker verification via utterance partitioning [J]. Audio, Speech, and Language Processing, IEEE Transactions on, 2013, 21(5): 10121022.

 ?。?] SARKAR A K, MATROUF D, BOUSQUET P M, et al. Study of the effect of ivector modeling on short and mismatch utterance duration for speaker verification[C].Interspeech, 2012: 26622665.

 ?。?0] HASAN T, SAEIDI R, HANSEN J H L, et al. Duration mismatch compensation for ivector based speaker recognition systems[C].Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on. IEEE, 2013: 76637667.

 ?。?1] KANAGASUNDARAM A, DEAN D, SRIDHARAN S, et al. Improving short utterance ivector speaker verification using utterance variance modelling and compensation techniques[J]. Speech Communication, 2014, 59: 6982.

 ?。?2] PRINCE S J D, ELDER J H. Probabilistic linear dis criminant analysis for inferences about identity[C].Computer Vision, 2007. ICCV 2007. IEEE 11th International Conference on. IEEE, 2007: 18.

 ?。?3] BISHOP C M. Pattern recognition and machine learning [M]. springer, 2006.

 ?。?4] GARCIAROMERO D, ESPYWILSON C Y. Analysis of ivector length normalization in speaker recognition systems[C].Interspeech, 2011: 249252.

  [15] CHEN L, LEE K A, MA B, et al. Channel adaptation of plda for textindependent speaker verification[C].Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on. IEEE, 2015: 52515255.

 ?。?6] NIST. The NIST 2006 speaker recognition evaluation [EB/OL].(2006xxxx)[20160104]http://www.itl.nist.gov/iad/mig/test/sre/2006/index.html,2006.


此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。