摘 要: 為提高在噪聲環(huán)境" title="噪聲環(huán)境">噪聲環(huán)境下語(yǔ)音檢測(cè)的性能,提出了一種基于小波" title="小波">小波變換" title="離散小波變換" title="離散小波變換">離散小波變換">離散小波變換的語(yǔ)音激活檢測(cè)" title="語(yǔ)音激活檢測(cè)">語(yǔ)音激活檢測(cè)(VAD)的方法。算法將語(yǔ)音信號(hào)" title="語(yǔ)音信號(hào)">語(yǔ)音信號(hào)進(jìn)行3層離散小波變換,通過(guò)Teager能量算子(TEO),提取能量比值和能量差值兩個(gè)參數(shù),最后進(jìn)行門限判決。實(shí)驗(yàn)結(jié)果表明,本算法在噪聲環(huán)境中能夠有效地正確判別語(yǔ)音段和噪聲段,并且優(yōu)于G.729B和AMR所提出的VAD的算法。
關(guān)鍵詞: 離散小波變換; 語(yǔ)音激活檢測(cè); Teager能量算子
?
語(yǔ)音激活檢測(cè)(VAD)技術(shù)即根據(jù)人們?nèi)粘U勗挼脑捯艉挽o默特性,對(duì)檢測(cè)到的靜音加以抑制。目前該技術(shù)在語(yǔ)音識(shí)別、語(yǔ)音編碼以及語(yǔ)音增強(qiáng)等領(lǐng)域獲得了廣泛的應(yīng)用。由于語(yǔ)音處理系統(tǒng)常常工作在噪聲環(huán)境中,所以在低信噪比環(huán)境中,VAD檢測(cè)的性能對(duì)語(yǔ)音信號(hào)的處理至關(guān)重要[1][2]。雖然目前VAD技術(shù)已經(jīng)取得較大的發(fā)展,仍需進(jìn)一步研究以提高其對(duì)噪聲的魯棒性。本文給出了基于離散小波變換的語(yǔ)音激活檢測(cè)方法,這種方法提出了能量比值和能量差值兩個(gè)參數(shù)。通過(guò)對(duì)帶噪語(yǔ)音的實(shí)驗(yàn)比較,證實(shí)了該方法的有效性。
1 離散小波變換的語(yǔ)音激活檢測(cè)的算法
1.1 離散小波變換(DWT)
離散小波變換相當(dāng)于離散信號(hào)經(jīng)過(guò)一組濾波器而被分成一系列子帶信號(hào)。濾波器組由低通濾波器和高通濾波器組成,低通濾波器的輸出是近似信號(hào),高通濾波器的輸出是細(xì)節(jié)信號(hào)[3][4]。小波的多分辨分析只是對(duì)低頻部分進(jìn)行進(jìn)一步分解,使低頻的分辨率變得越來(lái)越高,而高頻部分不予考慮。cm,n和dm,n分別表示DWT輸出的近似部分和細(xì)節(jié)部分。l(n)、h(n)分別表示低通濾波器和高通濾波器。m表示分解的層數(shù),n表示分解系數(shù)的索引值。
為了進(jìn)一步研究離散小波變換的逼近信號(hào)和細(xì)節(jié)信號(hào)對(duì)于語(yǔ)音的影響,對(duì)原始語(yǔ)音進(jìn)行3層的離散小波變換,選取的小波函數(shù)為Daubechies(db5)。分別對(duì)清音、濁音和靜音進(jìn)行細(xì)節(jié)部分和逼近部分的比較,如圖1和圖2。圖1表現(xiàn)了濁音的主要能量集中在近似部分,而很少在細(xì)節(jié)部分,從圖2中看出,清音正好與濁音相反,而靜音能量分布則相對(duì)比較平衡。
?
?
1.2? TEO
TEO是一種極為有效的、非線性的演算法,它能夠有效提取語(yǔ)音信號(hào)的能量。由于聲音部分是屬于穩(wěn)定或半穩(wěn)定的信號(hào),而無(wú)聲部分是屬于不穩(wěn)定信號(hào),TEO的功用是強(qiáng)化穩(wěn)定或半穩(wěn)定信號(hào),并衰減不穩(wěn)定信號(hào),可以更加突出細(xì)節(jié)部分和近似分布的特性[5]。公式(3)為TEO計(jì)算公式,i表示語(yǔ)音信號(hào)的幀數(shù),tm,i(n)表示離散小波變換的第m層的第n個(gè)小波系數(shù),Tm,i(n)是經(jīng)過(guò)TEO處理后的結(jié)果。????????????????????????????????????
1.3 提取特征參數(shù)
根據(jù)上面的分析提取出能量比值Ri和能量差值Di兩個(gè)特征參數(shù)。具體公式如(4)、(5),其中Nd、Na分別表示第一次分解的細(xì)節(jié)部分的長(zhǎng)度和其近似部分的長(zhǎng)度。
(1) 能量比值
每一幀的第一次分解的細(xì)節(jié)部分與其近似部分的比值。
? (2) 能量差值
每一幀的近似部分與第一次分解的細(xì)節(jié)部分的差值。
1.4 門限判定
??? 提取特征參數(shù)之后進(jìn)行門限的設(shè)定,對(duì)門限值的計(jì)算公式如式(6)、(7)、(8)、(9),thd、thr分別是能量差值和能量比值的門限。R1、D1分別表示能量比值和能量差值的最大值,R0、D0分別表示能量比值和能量差值的估計(jì)噪聲平均值,Ra、Da分別表示能量比值和能量差值的平均值。
2 實(shí)驗(yàn)分析
在進(jìn)行離散小波變換時(shí),本文選取小波函數(shù)為Daubechies,運(yùn)用了Mallat算法進(jìn)行分解運(yùn)算,可以減少算法的運(yùn)算量。在噪聲環(huán)境下,用本文的方法進(jìn)行了實(shí)驗(yàn)分析。實(shí)驗(yàn)所用的語(yǔ)音信號(hào)是在實(shí)驗(yàn)室環(huán)境下錄制的,采樣頻率為8kHz,將噪聲加入語(yǔ)音信號(hào),形成不同的信噪比。如圖3和圖4 即為原始語(yǔ)音和加噪語(yǔ)音信號(hào)的檢測(cè)結(jié)果。
?
圖5、圖6是由本文提出的VAD算法與G.729、AMR的VAD算法比較的結(jié)果。從語(yǔ)音信號(hào)中選取了無(wú)噪聲、20dB、15dB、10dB、5dB 、0dB各40個(gè)語(yǔ)音作比較。實(shí)驗(yàn)結(jié)果表明,本文提出的方法在噪聲環(huán)境中要優(yōu)于AMR、G.729B語(yǔ)音編碼器中的VAD方法。
?
根據(jù)濁音、清音和靜音離散小波變換后的系數(shù)進(jìn)行分析,提出了基于離散小波變換的語(yǔ)音激活檢測(cè)方法。該方法對(duì)清音的特性作了提升,使得判決誤差更進(jìn)一步減小了。實(shí)驗(yàn)結(jié)果表明,該方法在低信噪比的情況下,基于離散小波變換的語(yǔ)音激活檢測(cè)方法具有較高準(zhǔn)確率和穩(wěn)定性。
參考文獻(xiàn)
[1]?KUBIN G, WERUAGA L, SIGMUND M. Time-frequency analysis for voice activity detection. Processing of the 24th?IASTED International Multi-Conference,Inns-bruck,Austria,?2006.
[2]?郭莉,殷南,王炳錫.語(yǔ)音業(yè)務(wù)中魯棒性VAD算法分析. ?語(yǔ)音技術(shù), 2005,(9):41-45.
[3]?李建平,唐遠(yuǎn)炎.小波分析方法的應(yīng)用.重慶:重慶大學(xué)出版社,2000.
[4]?黃炳剛,周志杰,鄭翔. 基于小波變換的語(yǔ)音激活檢測(cè). ?解放軍理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2006,7(3):210-213.
[5]?HUANG S, CHEN H T, CHANG Wuyukon, et al. Robust ?voice activity detection using perceptual wavelet-packet?transform and teager energy operator. Advances on Pattern ?Recognition for Speech and Audio Processing, 2007,(28):1327-1332.