123,123

反蓄意模仿說話人識(shí)別系統(tǒng)中特征參數(shù)提取的研究

2016年微型機(jī)與應(yīng)用第12期

唐宗渤1, 周萍 2，王茂蓉 2，劉繼錦 2

（1.桂林電子科技大學(xué) 信息科技學(xué)院，廣西桂林 541004; 2.桂林電子科技大學(xué) 電子工程與自動(dòng)化學(xué)院，廣西桂林 541004）

摘要： 當(dāng)模仿者蓄意模仿說話人的語(yǔ)音且相似度極高時(shí)，說話人識(shí)別系統(tǒng)就有可能被欺騙。特征參數(shù)的提取是說話人識(shí)別的關(guān)鍵環(huán)節(jié)，直接影響了系統(tǒng)的識(shí)別性能。MFCC是語(yǔ)音識(shí)別中最熱門的特征參數(shù)之一，但由于其只反映了語(yǔ)音的靜態(tài)特性，為了提取更具個(gè)人語(yǔ)音特性的特征參數(shù)，引入加權(quán)MFCC，同時(shí)結(jié)合離散小波變換得到DWTWC，根據(jù)增減分量法，提出了DWI-MFCC。實(shí)驗(yàn)表明，DWI-MFCC倒譜系數(shù)比MFCC能更有效地區(qū)分語(yǔ)音的相似度。

關(guān)鍵詞： 特征參數(shù) MFCC 蓄意模仿增減分量法

Abstract：

Key words :

　　唐宗渤1, 周萍 2，王茂蓉 2，劉繼錦 2

　　（1.桂林電子科技大學(xué) 信息科技學(xué)院，廣西桂林 541004; 2.桂林電子科技大學(xué) 電子工程與自動(dòng)化學(xué)院，廣西桂林 541004）

摘要：當(dāng)模仿者蓄意模仿說話人的語(yǔ)音且相似度極高時(shí)，說話人識(shí)別系統(tǒng)就有可能被欺騙。特征參數(shù)的提取是說話人識(shí)別的關(guān)鍵環(huán)節(jié)，直接影響了系統(tǒng)的識(shí)別性能。MFCC是語(yǔ)音識(shí)別中最熱門的特征參數(shù)之一，但由于其只反映了語(yǔ)音的靜態(tài)特性，為了提取更具個(gè)人語(yǔ)音特性的特征參數(shù)，引入加權(quán)MFCC，同時(shí)結(jié)合離散小波變換得到DWTWC，根據(jù)增減分量法，提出了DWI-MFCC。實(shí)驗(yàn)表明，DWI-MFCC倒譜系數(shù)比MFCC能更有效地區(qū)分語(yǔ)音的相似度。

　　關(guān)鍵詞：特征參數(shù); MFCC; 蓄意模仿; 增減分量法

0引言

　　廣西研究生教育創(chuàng)新計(jì)劃資助項(xiàng)目(YCSZ2015152)生物認(rèn)證技術(shù)［1］作為一種身份鑒別技術(shù)，它具有安全、方便等優(yōu)點(diǎn)。但與其他生物特性相比，聲音更容易被模仿，特別在蓄意模仿與目標(biāo)說話人的語(yǔ)音相似度極高時(shí)，就給識(shí)別系統(tǒng)的魯棒性帶來嚴(yán)峻考驗(yàn)。有效的聲學(xué)特征，可大大提高識(shí)別性能。常用的特征參數(shù)有基因頻率、線性預(yù)測(cè)參數(shù)LPC、Mel頻率倒譜系數(shù)［2］MFCC等。其中MFCC能充分模擬人耳的聽覺感知特性，應(yīng)用較多。但其只能體現(xiàn)語(yǔ)音的靜態(tài)特征，為了提取更具個(gè)人特性的參數(shù)，本文對(duì)MFCC作加權(quán)處理，結(jié)合離散小波變換引進(jìn)DWTWC，根據(jù)增減分量法，提出DWIMFCC。實(shí)驗(yàn)表明，DWIMFCC比傳統(tǒng)MFCC更能區(qū)分語(yǔ)音的相似度，提高識(shí)別系統(tǒng)的魯棒性。

1特征參數(shù)的提取

　　1.1Mel頻率倒譜系數(shù)

　　MFCC ［2］作為模擬人耳特殊感知能力的參數(shù)得到研究者的推崇。其實(shí)際頻率f與Mel頻率fMel之間的轉(zhuǎn)換關(guān)系如式（1）所示，其中fMel的單位為Mel，f的單位為Hz。MFCC的提取過程如圖1所示，其參數(shù)分布示例圖如圖2所示。

　　 T5W]RCMWREDP83%JB%WJBCR.png

　　圖2MFCC的參數(shù)分布示例圖由圖2可知，隨著維數(shù)的升高，MFCC變化幅度變小，升高到一定程度后，系統(tǒng)識(shí)別性不僅沒有提高，反而增加了運(yùn)算量。

　　1.2加權(quán)Mel頻率倒譜系數(shù)

　　為了得到更具區(qū)分性的加權(quán)特征參數(shù)，本文采用升半正弦函數(shù)［3］進(jìn)行加權(quán)，如式(2)所示：

　　r=0.5+0.5*sin(π*（i-1）/n)(2)

　　其中i=1,2,…，n為維數(shù)，本文n=24，0.5是靜態(tài)分量。為了更準(zhǔn)確地體現(xiàn)不同說話人的個(gè)性特征差異［4］，本文提出另一種加權(quán)函數(shù)如式(3)所示，得到改進(jìn)的加權(quán)特征參數(shù)IWMFCC。

　　r1=0.5+0.5*sin(2π*(i－1)/n)(3)

　　1.3DWTWC語(yǔ)音特征參數(shù)提取

　　在提取特征參數(shù)時(shí)，用離散小波變換代替傅里葉變換，用中頻區(qū)域分布密集的MidMel濾波器組［56］代替原來的濾波器， DWTWC參數(shù)的提取步驟如下：首先對(duì)語(yǔ)音信號(hào)進(jìn)行預(yù)加重、分幀加窗等；接著用離散小波變換［7］對(duì)預(yù)處理后的信號(hào)進(jìn)行處理，選擇適當(dāng)?shù)男〔ɑ头纸鈱訑?shù)對(duì)其分解，并計(jì)算小波系數(shù)；然后利用頻譜的拼接把系數(shù)組成一組參數(shù)，求其能量；最后取對(duì)數(shù)，再經(jīng)過DCT可得到相應(yīng)的DWTWC。其提取過程如圖3所示。

　　與MFCC提取流程不同的是其前端處理采用離散小波變換［8］，Mel濾波器換成了Mid-Mel濾波器組，有效補(bǔ)充了中頻區(qū)域的語(yǔ)音信息。

2DWI-MFCC混合特征參數(shù)

　　為了提高識(shí)別率，需對(duì)MFCC、WMFCC、IMFCC和DWTWC進(jìn)行融合，用增減分量法［9］對(duì)維度進(jìn)行篩選，將對(duì)識(shí)別率貢獻(xiàn)最大的n階分量進(jìn)行組合，得到新的混合特征參數(shù)，如式(4)所示：

　　R(i)=1n∑j>i(p(i,j)－p(i+1,j))+p(i,i)+

　　∑j<i(p(j,i)－p(j,i－1))（4）

　　其中，n為階數(shù)，p(i,j)為從第i到第j階的識(shí)別率，R(i)為第i階分量平均貢獻(xiàn)值，若其大于0，則對(duì)識(shí)別有貢獻(xiàn)，反之則使識(shí)別率下降。文中僅順序摒棄或增添特征分量［10］。由式(4)計(jì)算出各參數(shù)中對(duì)識(shí)別率貢獻(xiàn)最大的特征分量，對(duì)其組合得到新的特征參數(shù)，即 DWIMFCC。

3實(shí)驗(yàn)結(jié)果與分析

　　3.1不同特征參數(shù)歐氏距離排名對(duì)比

　　本文從專業(yè)配音網(wǎng)站提取語(yǔ)音庫(kù)，采樣頻率為8 kHz，量化精度為16 bit。提取16階MFCC，計(jì)算被模仿者與模仿者語(yǔ)音的MFCC和DWIMFCC的歐氏距離，然后對(duì)其從小到大排序得到表1。

　　由表1可得，采用DWIMFCC的原語(yǔ)音和模仿語(yǔ)音的排名一致性高達(dá)87.5%，證明 DWIMFCC不但有效補(bǔ)充了MFCC在中頻區(qū)域的語(yǔ)音信息，而且很好地體現(xiàn)了語(yǔ)音個(gè)性特征；而采用MFCC時(shí)，排名一致性只有43.75%，這是因?yàn)镸FCC中只包含了語(yǔ)音的靜態(tài)特性。綜上，本文提出的DWIMFCC對(duì)語(yǔ)音模仿的區(qū)分能力更強(qiáng)，能更有效區(qū)分出原語(yǔ)音和被模仿語(yǔ)音。

　　3.2不同特征參數(shù)實(shí)驗(yàn)結(jié)果的對(duì)比

　　為驗(yàn)證特征參數(shù)的語(yǔ)音模仿區(qū)分性能，建立基于SVM的蓄意模仿識(shí)別系統(tǒng)，首先選取80人模仿語(yǔ)音庫(kù)中16位名人的聲音。訓(xùn)練階段，先提取目標(biāo)說話人與待測(cè)試說話人的特征參數(shù)，將其分別記為“+1”類和“-1”類并用以訓(xùn)練出目標(biāo)說話人的SVM模型。測(cè)試階段，將待測(cè)試語(yǔ)音與目標(biāo)說話人的模型進(jìn)行匹配，再和預(yù)先設(shè)定的閾值進(jìn)行比較。本文選取徑向基函數(shù)作為SVM的核函數(shù)，懲罰系數(shù)為3，核函數(shù)參數(shù)為0.6。實(shí)驗(yàn)采用16階的MFCC和DWIMFCC分別作為樣本建立SVM模型，對(duì)數(shù)據(jù)進(jìn)行［0,1］歸一化，計(jì)算出每個(gè)被模仿者使用不同特征參數(shù)時(shí)的錯(cuò)誤接受率(FA)，如表2所示，圖4給出了兩者的錯(cuò)誤接受率的對(duì)比圖。

　　從圖4可知，MFCC的錯(cuò)誤接受率曲線處于DWIMFCC的曲線上方，即DWIMFCC參數(shù)的錯(cuò)誤接受率比MFCC參數(shù)的低，從而更有力地說明DWIMFCC的區(qū)分性能比MFCC的要好。

4結(jié)論

　　本文通過對(duì)MFCC特征參數(shù)的分布分析，提出了加權(quán)MFCC，同時(shí)結(jié)合離散小波變換引入了DWTWC，根據(jù)增減分量法，提出了DWIMFCC。從理論和實(shí)驗(yàn)兩個(gè)方面對(duì)特征參數(shù)的有效性進(jìn)行了分析，同時(shí)采用SVM對(duì)反蓄意模仿系統(tǒng)進(jìn)行匹配分析。實(shí)驗(yàn)表明，本文提出的DWIMFCC相比于傳統(tǒng)的MFCC，對(duì)語(yǔ)音模仿的區(qū)分能力更強(qiáng)，有更好的識(shí)別性能。

　　參考文獻(xiàn)

　　［1］李建文,張晉平.基于改進(jìn)語(yǔ)音特征提取方法的語(yǔ)音識(shí)別［J］.微電子學(xué)與計(jì)算機(jī),2009,26(7):230233.［2］柯晶晶，周萍，景新幸，等.差分和加權(quán)Mel倒譜混合參數(shù)應(yīng)用于說話人識(shí)別［J］.微電子學(xué)與計(jì)算機(jī)，2014，31（9）:8991.

　?。?］吳迪,曹潔,王進(jìn)花.基于自適應(yīng)高斯混合模型與靜動(dòng)態(tài)聽覺特征融合的說話人識(shí)別［J］.光學(xué)精密工程,2013,21(6):15981604.

　?。?］陳明義,余伶俐,朱晗，等.基于特征參數(shù)融合的語(yǔ)音情感識(shí)別方法［J］.微電子學(xué)與計(jì)算機(jī),2006,23(12):168171.

　?。?］田永紅. 一種優(yōu)化的語(yǔ)音特征參數(shù)提取方法仿真［J］. 計(jì)算機(jī)仿真,2013,30（12）:162165.

　?。?］吳麗芳. 語(yǔ)音轉(zhuǎn)換系統(tǒng)中特征參數(shù)的研究［D］.南京：南京郵電大學(xué),2013.

　?。?］楊陽(yáng),毛永毅,鄭敏，等.基于小波變換的AOA定位算法［J］.微型機(jī)與應(yīng)用,2014，33(3):4749,54.

　?。?］胡沁春,何怡剛,何靜，等.高斯類小波變換的開關(guān)電流頻域法實(shí)現(xiàn)［J］.電子技術(shù)應(yīng)用,2014,40(1):4446.

　?。?］曹孝玉. 說話人識(shí)別中的特征參數(shù)提取研究［D］.長(zhǎng)沙：湖南大學(xué),2012.

　?。?0］張璇. 基于Fisher準(zhǔn)則的說話人識(shí)別特征參數(shù)提取研究［D］.長(zhǎng)沙：湖南大學(xué),2013.

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容