唐宗渤1, 周萍 2,王茂蓉 2,劉繼錦 2
?。?.桂林電子科技大學(xué) 信息科技學(xué)院,廣西 桂林 541004; 2.桂林電子科技大學(xué) 電子工程與自動(dòng)化學(xué)院,廣西 桂林 541004)
摘要:當(dāng)模仿者蓄意模仿說話人的語音且相似度極高時(shí),說話人識(shí)別系統(tǒng)就有可能被欺騙。特征參數(shù)的提取是說話人識(shí)別的關(guān)鍵環(huán)節(jié),直接影響了系統(tǒng)的識(shí)別性能。MFCC是語音識(shí)別中最熱門的特征參數(shù)之一,但由于其只反映了語音的靜態(tài)特性,為了提取更具個(gè)人語音特性的特征參數(shù),引入加權(quán)MFCC,同時(shí)結(jié)合離散小波變換得到DWTWC,根據(jù)增減分量法,提出了DWI-MFCC。實(shí)驗(yàn)表明,DWI-MFCC倒譜系數(shù)比MFCC能更有效地區(qū)分語音的相似度。
關(guān)鍵詞:特征參數(shù); MFCC; 蓄意模仿; 增減分量法
0引言
廣西研究生教育創(chuàng)新計(jì)劃資助項(xiàng)目(YCSZ2015152)生物認(rèn)證技術(shù)[1]作為一種身份鑒別技術(shù),它具有安全、方便等優(yōu)點(diǎn)。但與其他生物特性相比,聲音更容易被模仿,特別在蓄意模仿與目標(biāo)說話人的語音相似度極高時(shí),就給識(shí)別系統(tǒng)的魯棒性帶來嚴(yán)峻考驗(yàn)。有效的聲學(xué)特征,可大大提高識(shí)別性能。常用的特征參數(shù)有基因頻率、線性預(yù)測參數(shù)LPC、Mel頻率倒譜系數(shù)[2]MFCC等。其中MFCC能充分模擬人耳的聽覺感知特性,應(yīng)用較多。但其只能體現(xiàn)語音的靜態(tài)特征,為了提取更具個(gè)人特性的參數(shù),本文對(duì)MFCC作加權(quán)處理,結(jié)合離散小波變換引進(jìn)DWTWC,根據(jù)增減分量法,提出DWIMFCC。實(shí)驗(yàn)表明,DWIMFCC比傳統(tǒng)MFCC更能區(qū)分語音的相似度,提高識(shí)別系統(tǒng)的魯棒性。
1特征參數(shù)的提取
1.1Mel頻率倒譜系數(shù)
MFCC [2]作為模擬人耳特殊感知能力的參數(shù)得到研究者的推崇。其實(shí)際頻率f與Mel頻率fMel之間的轉(zhuǎn)換關(guān)系如式(1)所示,其中fMel的單位為Mel,f的單位為Hz。MFCC的提取過程如圖1所示,其參數(shù)分布示例圖如圖2所示。
圖2MFCC的參數(shù)分布示例圖由圖2可知,隨著維數(shù)的升高,MFCC變化幅度變小,升高到一定程度后,系統(tǒng)識(shí)別性不僅沒有提高,反而增加了運(yùn)算量。
1.2加權(quán)Mel頻率倒譜系數(shù)
為了得到更具區(qū)分性的加權(quán)特征參數(shù),本文采用升半正弦函數(shù)[3]進(jìn)行加權(quán),如式(2)所示:
r=0.5+0.5*sin(π*(i-1)/n)(2)
其中i=1,2,…,n為維數(shù),本文n=24,0.5是靜態(tài)分量。為了更準(zhǔn)確地體現(xiàn)不同說話人的個(gè)性特征差異[4],本文提出另一種加權(quán)函數(shù)如式(3)所示,得到改進(jìn)的加權(quán)特征參數(shù)IWMFCC。
r1=0.5+0.5*sin(2π*(i-1)/n)(3)
1.3DWTWC語音特征參數(shù)提取
在提取特征參數(shù)時(shí),用離散小波變換代替傅里葉變換,用中頻區(qū)域分布密集的MidMel濾波器組[56]代替原來的濾波器, DWTWC參數(shù)的提取步驟如下:首先對(duì)語音信號(hào)進(jìn)行預(yù)加重、分幀加窗等;接著用離散小波變換[7]對(duì)預(yù)處理后的信號(hào)進(jìn)行處理,選擇適當(dāng)?shù)男〔ɑ头纸鈱訑?shù)對(duì)其分解,并計(jì)算小波系數(shù);然后利用頻譜的拼接把系數(shù)組成一組參數(shù),求其能量;最后取對(duì)數(shù),再經(jīng)過DCT可得到相應(yīng)的DWTWC。其提取過程如圖3所示。
與MFCC提取流程不同的是其前端處理采用離散小波變換[8],Mel濾波器換成了Mid-Mel濾波器組,有效補(bǔ)充了中頻區(qū)域的語音信息。
2DWI-MFCC混合特征參數(shù)
為了提高識(shí)別率,需對(duì)MFCC、WMFCC、IMFCC和DWTWC進(jìn)行融合,用增減分量法[9]對(duì)維度進(jìn)行篩選,將對(duì)識(shí)別率貢獻(xiàn)最大的n階分量進(jìn)行組合,得到新的混合特征參數(shù),如式(4)所示:
R(i)=1n∑j>i(p(i,j)-p(i+1,j))+p(i,i)+
∑j<i(p(j,i)-p(j,i-1))(4)
其中,n為階數(shù),p(i,j)為從第i到第j階的識(shí)別率,R(i)為第i階分量平均貢獻(xiàn)值,若其大于0,則對(duì)識(shí)別有貢獻(xiàn),反之則使識(shí)別率下降。文中僅順序摒棄或增添特征分量[10]。由式(4)計(jì)算出各參數(shù)中對(duì)識(shí)別率貢獻(xiàn)最大的特征分量,對(duì)其組合得到新的特征參數(shù),即 DWIMFCC。
3實(shí)驗(yàn)結(jié)果與分析
3.1不同特征參數(shù)歐氏距離排名對(duì)比
本文從專業(yè)配音網(wǎng)站提取語音庫,采樣頻率為8 kHz,量化精度為16 bit。提取16階MFCC,計(jì)算被模仿者與模仿者語音的MFCC和DWIMFCC的歐氏距離,然后對(duì)其從小到大排序得到表1。
由表1可得,采用DWIMFCC的原語音和模仿語音的排名一致性高達(dá)87.5%,證明 DWIMFCC不但有效補(bǔ)充了MFCC在中頻區(qū)域的語音信息,而且很好地體現(xiàn)了語音個(gè)性特征;而采用MFCC時(shí),排名一致性只有43.75%,這是因?yàn)镸FCC中只包含了語音的靜態(tài)特性。綜上,本文提出的DWIMFCC對(duì)語音模仿的區(qū)分能力更強(qiáng),能更有效區(qū)分出原語音和被模仿語音。
3.2不同特征參數(shù)實(shí)驗(yàn)結(jié)果的對(duì)比
為驗(yàn)證特征參數(shù)的語音模仿區(qū)分性能,建立基于SVM的蓄意模仿識(shí)別系統(tǒng),首先選取80人模仿語音庫中16位名人的聲音。訓(xùn)練階段,先提取目標(biāo)說話人與待測試說話人的特征參數(shù),將其分別記為“+1”類和“-1”類并用以訓(xùn)練出目標(biāo)說話人的SVM模型。測試階段,將待測試語音與目標(biāo)說話人的模型進(jìn)行匹配,再和預(yù)先設(shè)定的閾值進(jìn)行比較。本文選取徑向基函數(shù)作為SVM的核函數(shù),懲罰系數(shù)為3,核函數(shù)參數(shù)為0.6。實(shí)驗(yàn)采用16階的MFCC和DWIMFCC分別作為樣本建立SVM模型,對(duì)數(shù)據(jù)進(jìn)行[0,1]歸一化,計(jì)算出每個(gè)被模仿者使用不同特征參數(shù)時(shí)的錯(cuò)誤接受率(FA),如表2所示,圖4給出了兩者的錯(cuò)誤接受率的對(duì)比圖。
從圖4可知,MFCC的錯(cuò)誤接受率曲線處于DWIMFCC的曲線上方,即DWIMFCC參數(shù)的錯(cuò)誤接受率比MFCC參數(shù)的低,從而更有力地說明DWIMFCC的區(qū)分性能比MFCC的要好。
4結(jié)論
本文通過對(duì)MFCC特征參數(shù)的分布分析,提出了加權(quán)MFCC,同時(shí)結(jié)合離散小波變換引入了DWTWC,根據(jù)增減分量法,提出了DWIMFCC。從理論和實(shí)驗(yàn)兩個(gè)方面對(duì)特征參數(shù)的有效性進(jìn)行了分析,同時(shí)采用SVM對(duì)反蓄意模仿系統(tǒng)進(jìn)行匹配分析。實(shí)驗(yàn)表明,本文提出的DWIMFCC相比于傳統(tǒng)的MFCC,對(duì)語音模仿的區(qū)分能力更強(qiáng),有更好的識(shí)別性能。
參考文獻(xiàn)
[1] 李建文,張晉平.基于改進(jìn)語音特征提取方法的語音識(shí)別[J].微電子學(xué)與計(jì)算機(jī),2009,26(7):230233.[2] 柯晶晶,周萍,景新幸,等.差分和加權(quán)Mel倒譜混合參數(shù)應(yīng)用于說話人識(shí)別[J].微電子學(xué)與計(jì)算機(jī),2014,31(9):8991.
?。?] 吳迪,曹潔,王進(jìn)花.基于自適應(yīng)高斯混合模型與靜動(dòng)態(tài)聽覺特征融合的說話人識(shí)別[J].光學(xué)精密工程,2013,21(6):15981604.
?。?] 陳明義,余伶俐,朱晗,等.基于特征參數(shù)融合的語音情感識(shí)別方法[J].微電子學(xué)與計(jì)算機(jī),2006,23(12):168171.
?。?] 田永紅. 一種優(yōu)化的語音特征參數(shù)提取方法仿真[J]. 計(jì)算機(jī)仿真,2013,30(12):162165.
?。?] 吳麗芳. 語音轉(zhuǎn)換系統(tǒng)中特征參數(shù)的研究[D].南京:南京郵電大學(xué),2013.
?。?] 楊陽,毛永毅,鄭敏,等.基于小波變換的AOA定位算法[J].微型機(jī)與應(yīng)用,2014,33(3):4749,54.
?。?] 胡沁春,何怡剛,何靜,等.高斯類小波變換的開關(guān)電流頻域法實(shí)現(xiàn)[J].電子技術(shù)應(yīng)用,2014,40(1):4446.
?。?] 曹孝玉. 說話人識(shí)別中的特征參數(shù)提取研究[D].長沙:湖南大學(xué),2012.
?。?0] 張璇. 基于Fisher準(zhǔn)則的說話人識(shí)別特征參數(shù)提取研究[D].長沙:湖南大學(xué),2013.