《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 測(cè)試測(cè)量 > 設(shè)計(jì)應(yīng)用 > 基于VQ-MAP與LS-SVM融合的說話人識(shí)別系統(tǒng)
基于VQ-MAP與LS-SVM融合的說話人識(shí)別系統(tǒng)
來源:電子技術(shù)應(yīng)用2010年第6期
展 領(lǐng), 景新幸
桂林電子科技大學(xué) 信息與通信學(xué)院, 廣西 桂林 541004
摘要: 傳統(tǒng)的最小二乘支持向量機(jī)(LS-SVM)使用特征向量作為訓(xùn)練樣本,在說話人識(shí)別系統(tǒng)中應(yīng)用時(shí)區(qū)分性不夠明顯。對(duì)此,提出VQ-MAP與LS-SVM融合的方法,使用通用背景模型(UBM)經(jīng)過VQ-MAP過程得到說話人自適應(yīng)參數(shù)集,把此參數(shù)集作為最小二乘支持向量機(jī)的訓(xùn)練樣本應(yīng)用于說話人識(shí)別系統(tǒng)中。用Matlab進(jìn)行仿真實(shí)驗(yàn),結(jié)果表明,該識(shí)別系統(tǒng)SVM訓(xùn)練時(shí)間短,且具有較高的識(shí)別率。
中圖分類號(hào): TP391.4
文獻(xiàn)標(biāo)識(shí)碼: A
Speaker recognition system based on VQ-MAP and LS-SVM
ZHAN Ling, JING Xin Xing
Information & Communication College, Guilin University of Electronic Technology, Guilin 541004,China
Abstract: Feature vectors used as the training samples of the traditional least square support vector machines does not give enough information to discriminate the voice in speaker recognition system. To solve this problem,this paper proposes the method based on VQ-MAP and LS-SVM. Adaptive parameter sets are got through VQ-MAP procedure using universal background model and are used as the training samples of LS-SVM in speaker recognition system. According to the results of simulation using Matlab, speaker recognition system based on VQ-MAP and LS-SVM uses less the training time of SVMs and it also has high recognition rate.
Key words : MAP; VQ; LS-SVM; speaker recognition

    說話人識(shí)別是從說話人的一段語音中提取出說話人的個(gè)性特征,通過對(duì)這些個(gè)性特征的分析和識(shí)別,從而達(dá)到對(duì)說話人進(jìn)行辨認(rèn)或者確認(rèn)的目的。它可以分為兩個(gè)范疇:說話人辨認(rèn)和說話人確認(rèn)。說話人辨認(rèn)是辨認(rèn)出待識(shí)別的語音是來自待考察的個(gè)人中的哪一個(gè);而說話人確認(rèn)則是特定的參考模型和待識(shí)別模式之間的比較,系統(tǒng)只做出“是”或“不是”的二元判決[1]。
 Ville Hautamaki[2]等人提出了最大后驗(yàn)概率矢量量化(VQ-MAP)過程,它可以看作是GMM-MAP的一種特殊形式;Suykens等人[3]提出了最小二乘支持向量機(jī)LS-SVM的概念,而志平等人[4]將最小二乘向量機(jī)應(yīng)用在說話人識(shí)別系統(tǒng)中,并取得了較好的效果。
 VQ-MAP過程首先只依照均值對(duì)通用背景模型UBM(Universal Bakground Model)進(jìn)行聚類,然后應(yīng)用VQ-MAP過程來更新自適應(yīng)參數(shù),由此訓(xùn)練語音未覆蓋到的部分就可以用UBM中說話人無關(guān)的特征分布近似,以減小訓(xùn)練語音太短帶來的影響。將得到的自適應(yīng)參數(shù)集作為最小二乘向量機(jī)的訓(xùn)練樣本,在說話人識(shí)別中進(jìn)行應(yīng)用,取得了較好的效果。本文介紹了VQ-MAP和LS-SVM融合的說話人識(shí)別系統(tǒng),并在說話人識(shí)別中進(jìn)行了應(yīng)用。
1 VQ-MAP過程
 在說話人識(shí)別中,可以使用訓(xùn)練集中的發(fā)音數(shù)據(jù)對(duì)UBM進(jìn)行參數(shù)自適應(yīng)來得到發(fā)音人的模型。高斯混合模型在最大后驗(yàn)概率自適應(yīng)(GMM-MAP)過程中需要更新3種參數(shù):權(quán)值、均值向量和協(xié)方差矩陣。VQ-MAP過程是GMM-MAP的一種特殊形式,它只依照均值向量來得到新的自適應(yīng)說話人模型。依照均值向量為參數(shù)用K均值聚類算法對(duì)UBM進(jìn)行聚類,從而得到一組均值核心矢量:

2 最小二乘支持向量機(jī)[3-4]
    Suykens等人[3]在SVM的優(yōu)化函數(shù)中引入方差項(xiàng),并將SVM中的不等式約束條件改為等式約束,提出了一種以二次等式約束條件為基礎(chǔ)的改進(jìn)型向量機(jī)即最小二乘向量機(jī)(LS-SVM)。這樣LS-SVM的求解問題從標(biāo)準(zhǔn)SVM的二次函數(shù)尋優(yōu)問題轉(zhuǎn)換為線性方程求解問題, 解決了二次尋優(yōu)算法費(fèi)時(shí)且不易用于實(shí)時(shí)數(shù)據(jù)處理的問題,從而大大地簡(jiǎn)化了問題的復(fù)雜性[4]。
      
    方程的最優(yōu)性條件如下:

3 融合算法
3.1選擇樣本


設(shè)計(jì)1個(gè)SVM,分別標(biāo)記這2個(gè)說話人自適應(yīng)參數(shù)集為{+ 1,- 1}類,將每幀測(cè)試語音特征矢量輸入到1個(gè)訓(xùn)練支持向量機(jī)中,對(duì)每幀矢量判別是哪一類,當(dāng)所有的測(cè)試語音特征矢量判別完畢后, 采用投票方法判決,得票最多者就為目標(biāo)說話人。
 實(shí)驗(yàn)1:同一語音庫下,隨著說話人人數(shù)的變化,VQ-MAP和LS-SVM融合的說話人識(shí)別系統(tǒng)與基于LS-SVM的說話人識(shí)別系統(tǒng)中SVM訓(xùn)練時(shí)間進(jìn)行對(duì)比,兩個(gè)系統(tǒng)中LS-SVM均采用徑向基核函數(shù),取γ=0.125,結(jié)果如圖1所示。

 由圖1可以看出,隨著說話人數(shù)越多,所需SVM訓(xùn)練時(shí)間越長(zhǎng)。當(dāng)說話人數(shù)為50時(shí),應(yīng)用VQ-MAP和SVM融合的系統(tǒng)SVM訓(xùn)練時(shí)間僅僅是直接用LS-SVM訓(xùn)練時(shí)間的36.6%。這是因?yàn)橹苯佑肔S-SVM時(shí),把每個(gè)說話人所有幀的特征向量都作為輸入矢量來訓(xùn)練SVM,而在VQ-MAP和LS-SVM融合方法中,只把VQ-MAP自適應(yīng)更新模型中的K個(gè)向量作為輸入矢量訓(xùn)練SVM,大大減少了運(yùn)算量,因而提高了識(shí)別速度。
    實(shí)驗(yàn)2:同一語音庫下,VQ-MAP和LS-SVM融合的說話人識(shí)別系統(tǒng)與基于LS-SVM的說話人識(shí)別系統(tǒng)識(shí)別率進(jìn)行對(duì)比,比較結(jié)果如表1所示。

    從表1可以看出,隨著測(cè)試時(shí)長(zhǎng)的增加, VQ-MAP和LS-SVM融合方法識(shí)別率不斷提高,且明顯高于LS-SVM方法。這是因?yàn)樵赩Q-MAP算法中,采用了均值矢量通過UBM進(jìn)行自適應(yīng)來得到說話人模型,在訓(xùn)練語音未覆蓋到的部分就可以用UBM中說話人無關(guān)的特征分布近似,減小訓(xùn)練語音太短帶來的影響,從而為提高識(shí)別率打下良好的基礎(chǔ)。
    本文介紹的VQ MAP和LS-SVM融合說話人識(shí)別系統(tǒng),比直接應(yīng)用LS-SVM訓(xùn)練效率提高了36.6%,且識(shí)別率也高于LS-SVM方法,尤其是在測(cè)試時(shí)長(zhǎng)為8 s時(shí),比傳統(tǒng)的LS-SVM方法識(shí)別率提高了4.2%,為在說話人識(shí)別系統(tǒng)中使用多系統(tǒng)融合提供了新的途徑,是一種行之有效的方法。
參考文獻(xiàn)
[1] 趙力.語音信號(hào)處理[M]. 北京:機(jī)械工業(yè)出版社,2003.
[2] HAUTAMAKI V, KINNUNEN T, KARKKAINEN I. Maximum a posteriori adaptation of the centroid Model for  Speaker Verification[J]. IEEE Signal Process. Lett.2008,15:162-165.
[3] SUYKENS J K, VANDEWALLE J. Least squares support vector machine classifiers[J].Neural Processing Letter,1999,9(3):293-300.
[4] 但志平,鄭勝. 基于最小二乘向量機(jī)的說話人識(shí)別研 究[J]. 計(jì)算機(jī)工程與應(yīng)用,2007(7):49-51.
[5] 趙虹,韋麗華.基于支持向量機(jī)的說話人識(shí)別研究[J].現(xiàn)代電子技術(shù),2008(6):123-127.

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。